AI基准测试xbench的推出 - 红杉中国推出首个由投资机构发起的AI基准测试xbench,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制[1] - xbench重点量化AI系统在真实场景的效用价值,并长期捕捉Agent产品的关键突破,这在全球投资行业属首次[1] - 红杉中国在AI领域布局广泛,投资了AI六小龙中的四家,以及具身智能领域的宇树科技、智元机器人等热门企业[1][2] 推出xbench的背景 - 现有基准测试难以真实反映AI系统的客观能力,基础模型已"刷爆"市面上的基准测试题库,导致评估失效[5][6] - 红杉中国在内部月评中发现主流模型"刷爆"题目的速度加快,基准测试的有效时间急剧缩短,促使公司质疑现有评估方式[6][8] - 核心问题包括:模型能力与AI实际效用的关系不明确,以及不同时间维度上的能力比较缺失[9] xbench的创新解决方案 - 采用双轨评估体系:一条追踪AI系统的能力上限与技术边界,另一条量化AI系统在真实场景的效用价值[11][15] - 引入Profession-Aligned基准概念,考察AI在复杂环境下的实用性任务和商业KPIs,而非仅关注智力题难度[11] - 建立长青评估体系,通过动态更新题目扩充评估集,并设计可横向对比的能力指标,以观察模型发展速度与关键突破[13][15] xbench的特点与意义 - 首期发布包含科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对主要产品进行综合排名[16] - 提出垂直领域智能体的评测方法论,构建了面向招聘和营销领域的垂类Agent评测框架[16] - xbench本质上是AGI时代的评估标准,红杉中国可能借此探索新的投资方法论,类似2009年对Mobile Only的前瞻判断[16][17] 行业参与与合作 - 红杉中国邀请基础模型与Agent开发者使用xbench验证产品效果,垂类Agent开发者共建行业标准,研究者参与评估研究[17] - 公司希望xbench能成为AGI领域的重要评估工具,帮助捕捉技术-市场契合点(TMF)[15][16]
在通往AGI之路上,红杉中国打了一个共鸣的响指
投中网·2025-05-26 11:13