Xbench - 财报，业绩电话会，研报，新闻 - Reportify

Xbench

搜索文档

从性能到实战，怎样才算是靠谱的 Agent 产品？

机器之心· 2025-05-31 14:30

基准测试关注AI业务能力 - 红杉中国团队提出AI基准测试工具Xbench，强调不再单纯追求测评问题难度，而是重点量化AI系统在真实场景的效用价值[1] - Xbench项目于2022年启动，最初为内部工具，经历三次更新后于2025年5月公开[5] - 2023年首批题库针对LLM和智能体的简单问答和逻辑思考能力[5] - 2024年10月第二次更新，关注LLM的复杂问答、推理能力及简单工具调用[5] - 2025年3月第三次升级，开始思考模型能力与AI实际经济价值的关联[6] 双轨评估体系设计 - Xbench构建双轨评估体系：AGI Tracking评估技术能力上限，Profession Aligned量化真实场景效用价值[8] - AGI Tracking线包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch)[9] - Profession Aligned线提出面向招聘和营销领域的垂类Agent评测框架[9] - 评估任务由领域专家设定业务需求，大学教授转化为评估指标，确保基准与生产力价值强相关[7] 首期测试结果分析 - OpenAI的o3模型在所有测试中排名第一，GPT-4o因回答较短得分最低[9] - 模型尺寸非决定性因素，谷歌DeepMind的Gemini-2.5-Pro和Gemini-2.5-Flash表现相当[9] - DeepSeek R1在数学和代码测试出色，但搜索中心任务适应性不足导致整体表现较低[9] 长青评估机制 - 长青评估机制为动态更新系统，避免静态评估集题目泄露导致过拟合[10] - Agent产品迭代速率快且外部环境动态变化，需定期测评主流产品[10] - 计划在人力资源、市场营销、金融等领域构建动态评估机制[10]

长青评估机制

双轨评估体系

长青评估机制

双轨评估体系