Workflow
刚刚,投资机构首创的AI基准测试xbench诞生!
母基金研究中心·2025-05-26 12:12

AI基准测试现状与挑战 - 基础模型快速发展导致现有基准测试被"刷爆",各大测试榜单出现高分甚至满分现象,难以真实反映AI系统客观能力 [1] - 构建科学、长效且能反映AI客观能力的评测体系成为技术突破与产品迭代的重要需求 [1] xbench基准测试概述 - 红杉中国推出首个由投资机构发起的AI基准测试xbench,联合国内外十余家顶尖高校和研究机构数十位博士研究生共同开发 [2] - 采用双轨评估体系(能力上限评估+真实场景效用价值量化)和长青评估机制,长期捕捉Agent产品关键突破 [4][5] - 首期发布包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch) [8] xbench核心创新 - 双轨评估体系: - 主线1:评估AI系统能力上限与技术边界 - 主线2:量化AI系统在真实场景的效用价值,基于实际工作流程和社会角色构建垂直领域测评标准 [4] - 长青评估机制:持续维护并动态更新测试内容,确保时效性和相关性,定期测评主流Agent产品 [4][10] - 引入Profession Aligned基准概念,考察复杂环境下的实际效用而非单纯智力难题 [7] xbench开发背景 - 源于红杉中国2022年ChatGPT推出后的内部月评体系,发现主流模型"刷爆"题目速度加快,基准测试有效时间急剧缩短 [6] - 旨在解决两个核心问题: - 模型能力与AI实际效用的关系 - 不同时间维度上的能力比较难题 [6] 首期测评结果 - xbench-ScienceQA(AGI Tracking):最高分60.8(03-high),第二名57.2(Gemini 2.5 Pro) [13] - xbench-DeepSearch(AGI Tracking):最高分65+(03),第二名60+(o4-mini-high) [13] - 招聘领域Profession Aligned:最高分78.5(03),第二名64.4(Perplexity-Search) [13] - 营销领域Profession Aligned:最高分50.8(03),第二名47.6(Claude-3.7-Sonnet) [13] 社区共建计划 - 基础模型与Agent开发者可使用xbench评测集验证产品效果 - 垂类Agent开发者可与xbench共建行业特定标准 - 研究者可利用xbench实现AI评估研究想法落地 [13]