长青评估机制

搜索文档
从性能到实战,怎样才算是靠谱的 Agent 产品?
机器之心· 2025-05-31 14:30
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 红杉中国团队近日提出了 AI 基准测试工具 Xbench,其双轨测评体系强调了不再单纯执着于测评问题的难度, 而是重点量化 AI 系统在真实场景的效用价值。 目录 01. 基准测试要开始关注 AI 的「业务能力」了? Xbench 是什么来历?为什么评估 Agent 产品需要双轨评估体系?基准测试不能只设计更难的问题?... 02 . 什么是长青评估机制? LLM 与 Agent 产品的测评集有何区别?IRT 如何支撑评估系统的动态更新?... 03. 当前的领先模型在「招聘」和「营销」中的表现如何? 「招聘」和「营销」任务对 Agent 产品有什么要求?Xbench 如何评估 Agent业务能力?国内外领先模型在「招聘」和「营销」 测试中表现如何?... 01 基准测试要开始关注 AI 的「业务能力」了? 红杉中国的研究者近期在论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real- World Evaluations》中介绍了 ...
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials· 2025-05-27 10:37
文章核心观点 - 传统AI基准测试因模型普遍满分而失效,需要构建更科学长效的评测体系[1] - 红杉中国推出xbench基准测试,采用双轨评估体系和长青机制,聚焦模型理论能力上限与真实场景效用价值[2][3] - xbench首期发布科学问题解答和中文深度搜索两大评估集,并建立招聘/营销领域垂类评测框架[4] - 通过动态更新题库和横向对比指标,解决模型能力追踪与商业价值评估的痛点[5][6][7][8][9] 双轨评估体系 - 主线1:评估AI系统能力上限与技术边界(如ScienceQA测评集)[3][4] - 主线2:量化真实场景效用价值,基于工作流程和社会角色构建业务标准(如Recruiting测评集)[3][7] - 首期AGI Tracking测评显示:GPT-4在ScienceQA得分68.8领先Gemini 2.5 Pro(57.2),在DeepSearch以85分领先MiniMax(60)[11] 长青评估机制 - 定期更新测试内容防止过拟合,保持时效性[3][8] - 建立动态题目扩充集,通过Live收集真实业务数据构建行业评估标准[8][9] - 设计可横向对比指标,追踪模型发展速度与市场落地阈值[9] 垂类应用评测 - Profession Aligned评估中:GPT-4招聘领域得分78.5,营销领域50.8均列第一[11] - 联合行业专家共建动态评估集,覆盖招聘/营销等垂直场景[4][9] 社区共建计划 - 向开发者提供黑盒评估集验证产品效果[11] - 邀请垂类开发者和企业共建行业标准[11] - 支持研究者专业标注并长期维护评估更新[11] 开发背景 - 源于红杉中国2022年内部模型月评,发现题库失效速度加快[4] - 质疑模型能力与实际经济价值的关联性,提出双轨制解决方案[5][6]
刚刚,投资机构首创的AI基准测试xbench诞生!
母基金研究中心· 2025-05-26 12:12
AI基准测试现状与挑战 - 基础模型快速发展导致现有基准测试被"刷爆",各大测试榜单出现高分甚至满分现象,难以真实反映AI系统客观能力 [1] - 构建科学、长效且能反映AI客观能力的评测体系成为技术突破与产品迭代的重要需求 [1] xbench基准测试概述 - 红杉中国推出首个由投资机构发起的AI基准测试xbench,联合国内外十余家顶尖高校和研究机构数十位博士研究生共同开发 [2] - 采用双轨评估体系(能力上限评估+真实场景效用价值量化)和长青评估机制,长期捕捉Agent产品关键突破 [4][5] - 首期发布包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch) [8] xbench核心创新 - 双轨评估体系: - 主线1:评估AI系统能力上限与技术边界 - 主线2:量化AI系统在真实场景的效用价值,基于实际工作流程和社会角色构建垂直领域测评标准 [4] - 长青评估机制:持续维护并动态更新测试内容,确保时效性和相关性,定期测评主流Agent产品 [4][10] - 引入Profession Aligned基准概念,考察复杂环境下的实际效用而非单纯智力难题 [7] xbench开发背景 - 源于红杉中国2022年ChatGPT推出后的内部月评体系,发现主流模型"刷爆"题目速度加快,基准测试有效时间急剧缩短 [6] - 旨在解决两个核心问题: - 模型能力与AI实际效用的关系 - 不同时间维度上的能力比较难题 [6] 首期测评结果 - xbench-ScienceQA(AGI Tracking):最高分60.8(03-high),第二名57.2(Gemini 2.5 Pro) [13] - xbench-DeepSearch(AGI Tracking):最高分65+(03),第二名60+(o4-mini-high) [13] - 招聘领域Profession Aligned:最高分78.5(03),第二名64.4(Perplexity-Search) [13] - 营销领域Profession Aligned:最高分50.8(03),第二名47.6(Claude-3.7-Sonnet) [13] 社区共建计划 - 基础模型与Agent开发者可使用xbench评测集验证产品效果 - 垂类Agent开发者可与xbench共建行业特定标准 - 研究者可利用xbench实现AI评估研究想法落地 [13]