速递｜红杉中国进军AI测评赛道：xbench为何要“摆脱智力题”考察AI的真实效用？

文章核心观点 - 传统AI基准测试因模型普遍满分而失效，需要构建更科学长效的评测体系[1] - 红杉中国推出xbench基准测试，采用双轨评估体系和长青机制，聚焦模型理论能力上限与真实场景效用价值[2][3] - xbench首期发布科学问题解答和中文深度搜索两大评估集，并建立招聘/营销领域垂类评测框架[4] - 通过动态更新题库和横向对比指标，解决模型能力追踪与商业价值评估的痛点[5][6][7][8][9] 双轨评估体系 - 主线1：评估AI系统能力上限与技术边界（如ScienceQA测评集）[3][4] - 主线2：量化真实场景效用价值，基于工作流程和社会角色构建业务标准（如Recruiting测评集）[3][7] - 首期AGI Tracking测评显示：GPT-4在ScienceQA得分68.8领先Gemini 2.5 Pro(57.2)，在DeepSearch以85分领先MiniMax(60)[11] 长青评估机制 - 定期更新测试内容防止过拟合，保持时效性[3][8] - 建立动态题目扩充集，通过Live收集真实业务数据构建行业评估标准[8][9] - 设计可横向对比指标，追踪模型发展速度与市场落地阈值[9] 垂类应用评测 - Profession Aligned评估中：GPT-4招聘领域得分78.5，营销领域50.8均列第一[11] - 联合行业专家共建动态评估集，覆盖招聘/营销等垂直场景[4][9] 社区共建计划 - 向开发者提供黑盒评估集验证产品效果[11] - 邀请垂类开发者和企业共建行业标准[11] - 支持研究者专业标注并长期维护评估更新[11] 开发背景 - 源于红杉中国2022年内部模型月评，发现题库失效速度加快[4] - 质疑模型能力与实际经济价值的关联性，提出双轨制解决方案[5][6]