Xbench

搜索文档
从性能到实战,怎样才算是靠谱的 Agent 产品?
机器之心· 2025-05-31 14:30
基准测试关注AI业务能力 - 红杉中国团队提出AI基准测试工具Xbench,强调不再单纯追求测评问题难度,而是重点量化AI系统在真实场景的效用价值[1] - Xbench项目于2022年启动,最初为内部工具,经历三次更新后于2025年5月公开[5] - 2023年首批题库针对LLM和智能体的简单问答和逻辑思考能力[5] - 2024年10月第二次更新,关注LLM的复杂问答、推理能力及简单工具调用[5] - 2025年3月第三次升级,开始思考模型能力与AI实际经济价值的关联[6] 双轨评估体系设计 - Xbench构建双轨评估体系:AGI Tracking评估技术能力上限,Profession Aligned量化真实场景效用价值[8] - AGI Tracking线包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch)[9] - Profession Aligned线提出面向招聘和营销领域的垂类Agent评测框架[9] - 评估任务由领域专家设定业务需求,大学教授转化为评估指标,确保基准与生产力价值强相关[7] 首期测试结果分析 - OpenAI的o3模型在所有测试中排名第一,GPT-4o因回答较短得分最低[9] - 模型尺寸非决定性因素,谷歌DeepMind的Gemini-2.5-Pro和Gemini-2.5-Flash表现相当[9] - DeepSeek R1在数学和代码测试出色,但搜索中心任务适应性不足导致整体表现较低[9] 长青评估机制 - 长青评估机制为动态更新系统,避免静态评估集题目泄露导致过拟合[10] - Agent产品迭代速率快且外部环境动态变化,需定期测评主流产品[10] - 计划在人力资源、市场营销、金融等领域构建动态评估机制[10]