Workflow
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials·2025-05-27 10:37

在基础模型疯狂"刷榜"的时代,传统的AI基准测试正迅速失效——各大模型纷纷取得满分,评测榜单失去了区分度与指导意义。当"考卷"不再能反映真实 能力,测评本身就成了问题。 因此,构建一个更加科学、长效和反映 AI 客观能力的评测体系,正在成为指引 AI 技术突破与产品迭代的重要需求。 5 月 26 日,红杉中国宣布推出全新的 AI 基准测试 xbench ,并发布论文《 xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real- World Evaluations 》。这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的 AI 基 准测试。 xbench 将在评估和推动 AI 系统能力提升上限与技术边界的同时,重点量化 AI 系统在真实场景的效用价值,并长期捕捉 Agent 产品的关键突破。 xbench 基准测试的特点包括: • xbench 采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与 Agent 的实际落地价值。该体系创新性地将评 ...