双轨评估体系 - 财报，业绩电话会，研报，新闻

双轨评估体系

搜索文档

机器之心· 2025-05-31 14:30

基准测试关注AI业务能力 - 红杉中国团队提出AI基准测试工具Xbench，强调不再单纯追求测评问题难度，而是重点量化AI系统在真实场景的效用价值[1] - Xbench项目于2022年启动，最初为内部工具，经历三次更新后于2025年5月公开[5] - 2023年首批题库针对LLM和智能体的简单问答和逻辑思考能力[5] - 2024年10月第二次更新，关注LLM的复杂问答、推理能力及简单工具调用[5] - 2025年3月第三次升级，开始思考模型能力与AI实际经济价值的关联[6] 双轨评估体系设计 - Xbench构建双轨评估体系：AGI Tracking评估技术能力上限，Profession Aligned量化真实场景效用价值[8] - AGI Tracking线包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch)[9] - Profession Aligned线提出面向招聘和营销领域的垂类Agent评测框架[9] - 评估任务由领域专家设定业务需求，大学教授转化为评估指标，确保基准与生产力价值强相关[7] 首期测试结果分析 - OpenAI的o3模型在所有测试中排名第一，GPT-4o因回答较短得分最低[9] - 模型尺寸非决定性因素，谷歌DeepMind的Gemini-2.5-Pro和Gemini-2.5-Flash表现相当[9] - DeepSeek R1在数学和代码测试出色，但搜索中心任务适应性不足导致整体表现较低[9] 长青评估机制 - 长青评估机制为动态更新系统，避免静态评估集题目泄露导致过拟合[10] - Agent产品迭代速率快且外部环境动态变化，需定期测评主流产品[10] - 计划在人力资源、市场营销、金融等领域构建动态评估机制[10]

速递｜红杉中国进军AI测评赛道：xbench为何要“摆脱智力题”考察AI的真实效用？

Z Potentials· 2025-05-27 10:37

文章核心观点 - 传统AI基准测试因模型普遍满分而失效，需要构建更科学长效的评测体系[1] - 红杉中国推出xbench基准测试，采用双轨评估体系和长青机制，聚焦模型理论能力上限与真实场景效用价值[2][3] - xbench首期发布科学问题解答和中文深度搜索两大评估集，并建立招聘/营销领域垂类评测框架[4] - 通过动态更新题库和横向对比指标，解决模型能力追踪与商业价值评估的痛点[5][6][7][8][9] 双轨评估体系 - 主线1：评估AI系统能力上限与技术边界（如ScienceQA测评集）[3][4] - 主线2：量化真实场景效用价值，基于工作流程和社会角色构建业务标准（如Recruiting测评集）[3][7] - 首期AGI Tracking测评显示：GPT-4在ScienceQA得分68.8领先Gemini 2.5 Pro(57.2)，在DeepSearch以85分领先MiniMax(60)[11] 长青评估机制 - 定期更新测试内容防止过拟合，保持时效性[3][8] - 建立动态题目扩充集，通过Live收集真实业务数据构建行业评估标准[8][9] - 设计可横向对比指标，追踪模型发展速度与市场落地阈值[9] 垂类应用评测 - Profession Aligned评估中：GPT-4招聘领域得分78.5，营销领域50.8均列第一[11] - 联合行业专家共建动态评估集，覆盖招聘/营销等垂直场景[4][9] 社区共建计划 - 向开发者提供黑盒评估集验证产品效果[11] - 邀请垂类开发者和企业共建行业标准[11] - 支持研究者专业标注并长期维护评估更新[11] 开发背景 - 源于红杉中国2022年内部模型月评，发现题库失效速度加快[4] - 质疑模型能力与实际经济价值的关联性，提出双轨制解决方案[5][6]

刚刚，投资机构首创的AI基准测试xbench诞生！

母基金研究中心· 2025-05-26 12:12

AI基准测试现状与挑战 - 基础模型快速发展导致现有基准测试被"刷爆"，各大测试榜单出现高分甚至满分现象，难以真实反映AI系统客观能力 [1] - 构建科学、长效且能反映AI客观能力的评测体系成为技术突破与产品迭代的重要需求 [1] xbench基准测试概述 - 红杉中国推出首个由投资机构发起的AI基准测试xbench，联合国内外十余家顶尖高校和研究机构数十位博士研究生共同开发 [2] - 采用双轨评估体系（能力上限评估+真实场景效用价值量化）和长青评估机制，长期捕捉Agent产品关键突破 [4][5] - 首期发布包含科学问题解答测评集（xbench-ScienceQA）和中文互联网深度搜索测评集（xbench-DeepSearch） [8] xbench核心创新 - 双轨评估体系： - 主线1：评估AI系统能力上限与技术边界 - 主线2：量化AI系统在真实场景的效用价值，基于实际工作流程和社会角色构建垂直领域测评标准 [4] - 长青评估机制：持续维护并动态更新测试内容，确保时效性和相关性，定期测评主流Agent产品 [4][10] - 引入Profession Aligned基准概念，考察复杂环境下的实际效用而非单纯智力难题 [7] xbench开发背景 - 源于红杉中国2022年ChatGPT推出后的内部月评体系，发现主流模型"刷爆"题目速度加快，基准测试有效时间急剧缩短 [6] - 旨在解决两个核心问题： - 模型能力与AI实际效用的关系 - 不同时间维度上的能力比较难题 [6] 首期测评结果 - xbench-ScienceQA（AGI Tracking）：最高分60.8（03-high），第二名57.2（Gemini 2.5 Pro） [13] - xbench-DeepSearch（AGI Tracking）：最高分65+（03），第二名60+（o4-mini-high） [13] - 招聘领域Profession Aligned：最高分78.5（03），第二名64.4（Perplexity-Search） [13] - 营销领域Profession Aligned：最高分50.8（03），第二名47.6（Claude-3.7-Sonnet） [13] 社区共建计划 - 基础模型与Agent开发者可使用xbench评测集验证产品效果 - 垂类Agent开发者可与xbench共建行业特定标准 - 研究者可利用xbench实现AI评估研究想法落地 [13]