文章核心观点 - 传统AI基准测试因模型普遍满分而失效,需要构建更科学长效的评测体系[1] - 红杉中国推出xbench基准测试,采用双轨评估体系和长青机制,聚焦模型理论能力上限与真实场景效用价值[2][3] - xbench首期发布科学问题解答和中文深度搜索两大评估集,并建立招聘/营销领域垂类评测框架[4] - 通过动态更新题库和横向对比指标,解决模型能力追踪与商业价值评估的痛点[5][6][7][8][9] 双轨评估体系 - 主线1:评估AI系统能力上限与技术边界(如ScienceQA测评集)[3][4] - 主线2:量化真实场景效用价值,基于工作流程和社会角色构建业务标准(如Recruiting测评集)[3][7] - 首期AGI Tracking测评显示:GPT-4在ScienceQA得分68.8领先Gemini 2.5 Pro(57.2),在DeepSearch以85分领先MiniMax(60)[11] 长青评估机制 - 定期更新测试内容防止过拟合,保持时效性[3][8] - 建立动态题目扩充集,通过Live收集真实业务数据构建行业评估标准[8][9] - 设计可横向对比指标,追踪模型发展速度与市场落地阈值[9] 垂类应用评测 - Profession Aligned评估中:GPT-4招聘领域得分78.5,营销领域50.8均列第一[11] - 联合行业专家共建动态评估集,覆盖招聘/营销等垂直场景[4][9] 社区共建计划 - 向开发者提供黑盒评估集验证产品效果[11] - 邀请垂类开发者和企业共建行业标准[11] - 支持研究者专业标注并长期维护评估更新[11] 开发背景 - 源于红杉中国2022年内部模型月评,发现题库失效速度加快[4] - 质疑模型能力与实际经济价值的关联性,提出双轨制解决方案[5][6]
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials·2025-05-27 10:37