在通往AGI之路上，红杉中国打了一个共鸣的响指

AI基准测试xbench的推出 - 红杉中国推出首个由投资机构发起的AI基准测试xbench，联合国内外十余家顶尖高校和研究机构的数十位博士研究生，采用双轨评估体系和长青评估机制[1] - xbench重点量化AI系统在真实场景的效用价值，并长期捕捉Agent产品的关键突破，这在全球投资行业属首次[1] - 红杉中国在AI领域布局广泛，投资了AI六小龙中的四家，以及具身智能领域的宇树科技、智元机器人等热门企业[1][2] 推出xbench的背景 - 现有基准测试难以真实反映AI系统的客观能力，基础模型已"刷爆"市面上的基准测试题库，导致评估失效[5][6] - 红杉中国在内部月评中发现主流模型"刷爆"题目的速度加快，基准测试的有效时间急剧缩短，促使公司质疑现有评估方式[6][8] - 核心问题包括：模型能力与AI实际效用的关系不明确，以及不同时间维度上的能力比较缺失[9] xbench的创新解决方案 - 采用双轨评估体系：一条追踪AI系统的能力上限与技术边界，另一条量化AI系统在真实场景的效用价值[11][15] - 引入Profession-Aligned基准概念，考察AI在复杂环境下的实用性任务和商业KPIs，而非仅关注智力题难度[11] - 建立长青评估体系，通过动态更新题目扩充评估集，并设计可横向对比的能力指标，以观察模型发展速度与关键突破[13][15] xbench的特点与意义 - 首期发布包含科学问题解答测评集（xbench-ScienceQA）与中文互联网深度搜索测评集（xbench-DeepSearch），并对主要产品进行综合排名[16] - 提出垂直领域智能体的评测方法论，构建了面向招聘和营销领域的垂类Agent评测框架[16] - xbench本质上是AGI时代的评估标准，红杉中国可能借此探索新的投资方法论，类似2009年对Mobile Only的前瞻判断[16][17] 行业参与与合作 - 红杉中国邀请基础模型与Agent开发者使用xbench验证产品效果，垂类Agent开发者共建行业标准，研究者参与评估研究[17] - 公司希望xbench能成为AGI领域的重要评估工具，帮助捕捉技术-市场契合点（TMF）[15][16]