刚刚，投资机构首创的AI基准测试xbench诞生！

AI基准测试现状与挑战 - 基础模型快速发展导致现有基准测试被"刷爆"，各大测试榜单出现高分甚至满分现象，难以真实反映AI系统客观能力 [1] - 构建科学、长效且能反映AI客观能力的评测体系成为技术突破与产品迭代的重要需求 [1] xbench基准测试概述 - 红杉中国推出首个由投资机构发起的AI基准测试xbench，联合国内外十余家顶尖高校和研究机构数十位博士研究生共同开发 [2] - 采用双轨评估体系（能力上限评估+真实场景效用价值量化）和长青评估机制，长期捕捉Agent产品关键突破 [4][5] - 首期发布包含科学问题解答测评集（xbench-ScienceQA）和中文互联网深度搜索测评集（xbench-DeepSearch） [8] xbench核心创新 - 双轨评估体系： - 主线1：评估AI系统能力上限与技术边界 - 主线2：量化AI系统在真实场景的效用价值，基于实际工作流程和社会角色构建垂直领域测评标准 [4] - 长青评估机制：持续维护并动态更新测试内容，确保时效性和相关性，定期测评主流Agent产品 [4][10] - 引入Profession Aligned基准概念，考察复杂环境下的实际效用而非单纯智力难题 [7] xbench开发背景 - 源于红杉中国2022年ChatGPT推出后的内部月评体系，发现主流模型"刷爆"题目速度加快，基准测试有效时间急剧缩短 [6] - 旨在解决两个核心问题： - 模型能力与AI实际效用的关系 - 不同时间维度上的能力比较难题 [6] 首期测评结果 - xbench-ScienceQA（AGI Tracking）：最高分60.8（03-high），第二名57.2（Gemini 2.5 Pro） [13] - xbench-DeepSearch（AGI Tracking）：最高分65+（03），第二名60+（o4-mini-high） [13] - 招聘领域Profession Aligned：最高分78.5（03），第二名64.4（Perplexity-Search） [13] - 营销领域Profession Aligned：最高分50.8（03），第二名47.6（Claude-3.7-Sonnet） [13] 社区共建计划 - 基础模型与Agent开发者可使用xbench评测集验证产品效果 - 垂类Agent开发者可与xbench共建行业特定标准 - 研究者可利用xbench实现AI评估研究想法落地 [13]