Workflow
双轨评估体系
icon
搜索文档
从性能到实战,怎样才算是靠谱的 Agent 产品?
机器之心· 2025-05-31 14:30
基准测试关注AI业务能力 - 红杉中国团队提出AI基准测试工具Xbench,强调不再单纯追求测评问题难度,而是重点量化AI系统在真实场景的效用价值[1] - Xbench项目于2022年启动,最初为内部工具,经历三次更新后于2025年5月公开[5] - 2023年首批题库针对LLM和智能体的简单问答和逻辑思考能力[5] - 2024年10月第二次更新,关注LLM的复杂问答、推理能力及简单工具调用[5] - 2025年3月第三次升级,开始思考模型能力与AI实际经济价值的关联[6] 双轨评估体系设计 - Xbench构建双轨评估体系:AGI Tracking评估技术能力上限,Profession Aligned量化真实场景效用价值[8] - AGI Tracking线包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch)[9] - Profession Aligned线提出面向招聘和营销领域的垂类Agent评测框架[9] - 评估任务由领域专家设定业务需求,大学教授转化为评估指标,确保基准与生产力价值强相关[7] 首期测试结果分析 - OpenAI的o3模型在所有测试中排名第一,GPT-4o因回答较短得分最低[9] - 模型尺寸非决定性因素,谷歌DeepMind的Gemini-2.5-Pro和Gemini-2.5-Flash表现相当[9] - DeepSeek R1在数学和代码测试出色,但搜索中心任务适应性不足导致整体表现较低[9] 长青评估机制 - 长青评估机制为动态更新系统,避免静态评估集题目泄露导致过拟合[10] - Agent产品迭代速率快且外部环境动态变化,需定期测评主流产品[10] - 计划在人力资源、市场营销、金融等领域构建动态评估机制[10]
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials· 2025-05-27 10:37
文章核心观点 - 传统AI基准测试因模型普遍满分而失效,需要构建更科学长效的评测体系[1] - 红杉中国推出xbench基准测试,采用双轨评估体系和长青机制,聚焦模型理论能力上限与真实场景效用价值[2][3] - xbench首期发布科学问题解答和中文深度搜索两大评估集,并建立招聘/营销领域垂类评测框架[4] - 通过动态更新题库和横向对比指标,解决模型能力追踪与商业价值评估的痛点[5][6][7][8][9] 双轨评估体系 - 主线1:评估AI系统能力上限与技术边界(如ScienceQA测评集)[3][4] - 主线2:量化真实场景效用价值,基于工作流程和社会角色构建业务标准(如Recruiting测评集)[3][7] - 首期AGI Tracking测评显示:GPT-4在ScienceQA得分68.8领先Gemini 2.5 Pro(57.2),在DeepSearch以85分领先MiniMax(60)[11] 长青评估机制 - 定期更新测试内容防止过拟合,保持时效性[3][8] - 建立动态题目扩充集,通过Live收集真实业务数据构建行业评估标准[8][9] - 设计可横向对比指标,追踪模型发展速度与市场落地阈值[9] 垂类应用评测 - Profession Aligned评估中:GPT-4招聘领域得分78.5,营销领域50.8均列第一[11] - 联合行业专家共建动态评估集,覆盖招聘/营销等垂直场景[4][9] 社区共建计划 - 向开发者提供黑盒评估集验证产品效果[11] - 邀请垂类开发者和企业共建行业标准[11] - 支持研究者专业标注并长期维护评估更新[11] 开发背景 - 源于红杉中国2022年内部模型月评,发现题库失效速度加快[4] - 质疑模型能力与实际经济价值的关联性,提出双轨制解决方案[5][6]
刚刚,投资机构首创的AI基准测试xbench诞生!
母基金研究中心· 2025-05-26 12:12
AI基准测试现状与挑战 - 基础模型快速发展导致现有基准测试被"刷爆",各大测试榜单出现高分甚至满分现象,难以真实反映AI系统客观能力 [1] - 构建科学、长效且能反映AI客观能力的评测体系成为技术突破与产品迭代的重要需求 [1] xbench基准测试概述 - 红杉中国推出首个由投资机构发起的AI基准测试xbench,联合国内外十余家顶尖高校和研究机构数十位博士研究生共同开发 [2] - 采用双轨评估体系(能力上限评估+真实场景效用价值量化)和长青评估机制,长期捕捉Agent产品关键突破 [4][5] - 首期发布包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch) [8] xbench核心创新 - 双轨评估体系: - 主线1:评估AI系统能力上限与技术边界 - 主线2:量化AI系统在真实场景的效用价值,基于实际工作流程和社会角色构建垂直领域测评标准 [4] - 长青评估机制:持续维护并动态更新测试内容,确保时效性和相关性,定期测评主流Agent产品 [4][10] - 引入Profession Aligned基准概念,考察复杂环境下的实际效用而非单纯智力难题 [7] xbench开发背景 - 源于红杉中国2022年ChatGPT推出后的内部月评体系,发现主流模型"刷爆"题目速度加快,基准测试有效时间急剧缩短 [6] - 旨在解决两个核心问题: - 模型能力与AI实际效用的关系 - 不同时间维度上的能力比较难题 [6] 首期测评结果 - xbench-ScienceQA(AGI Tracking):最高分60.8(03-high),第二名57.2(Gemini 2.5 Pro) [13] - xbench-DeepSearch(AGI Tracking):最高分65+(03),第二名60+(o4-mini-high) [13] - 招聘领域Profession Aligned:最高分78.5(03),第二名64.4(Perplexity-Search) [13] - 营销领域Profession Aligned:最高分50.8(03),第二名47.6(Claude-3.7-Sonnet) [13] 社区共建计划 - 基础模型与Agent开发者可使用xbench评测集验证产品效果 - 垂类Agent开发者可与xbench共建行业特定标准 - 研究者可利用xbench实现AI评估研究想法落地 [13]