Workflow
技术-市场契合点
icon
搜索文档
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
Founder Park· 2025-05-26 14:44
核心观点 - 红杉中国推出AI评估工具xbench,采用双轨评估体系(AGI Tracking与Profession Aligned)追踪模型能力上限与商业落地价值 [1][5][19] - 传统评估体系存在局限性:模型能力与实际效用脱节、题库更新导致历史数据不可比 [10][12] - 提出长青评估机制(Evergreen Evaluation),通过动态更新题库和IRT模型量化能力增长 [17][38][39] - 首次发布ScienceQA(知识测试)和DeepSearch(工具使用)两大评估集,并构建招聘/营销领域专业评估框架 [23][25][26][32] 评估体系创新 双轨架构 - **AGI Tracking**:测试基础能力边界(如ScienceQA得分60 8 vs Gemini 57 2),包含知识/多模态/推理等维度 [4][24][25] - **Profession Aligned**:量化商业价值(如招聘任务经济价值$200/position),已覆盖招聘(03模型得分78 5)和营销(50 8)领域 [4][20][35] 方法论突破 - 从"研究视角"转向"业务视角",设计真实场景任务(如中东市场KOL搜索价值$6,000) [14] - 采用IRT理论解决题库迭代导致的数据断层问题,追踪模型能力斜率(如DeepSeek V2 5显著提升) [39][40] - 引入TMF(技术-市场契合度)分析框架,划分未达标/人机协同/专业化Agent三阶段 [44][45][46] 关键评估集 ScienceQA - 聚焦研究生水平学科知识,季度更新题库,03模型当前领先(60 8分) [4][25] - 题目示例:"奇函数与偶函数嵌套组合的性质判断" [9] DeepSearch - 测试中文互联网环境下的多步推理搜索(03模型65+分),需完成规划→收集→推理→归纳全流程 [4][26] - 典型任务:跨平台合并`result_*.txt`文件并排序 [9] 专业评估 - **招聘领域**:拆解JD分析($20/JD)、人才画像($200/position)等7类可测评任务 [35] - **营销领域**:KOL匹配度预测(03模型50 8分 vs Claude 47 6分) [4][14] 行业影响 - 揭示模型进化速度:18个月内Chatbot能力从20-30分提升至90-100分 [9] - 预测多模态理解、长期记忆、博弈决策将成为下一阶段突破方向 [21] - 推动评估标准从"解题难度"转向"经济价值"(如营销任务节省$6,000人力成本) [14][31]
今天,我们推出xbench
红杉汇· 2025-05-26 07:20
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试 (Benchmark) 却面临一 个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重 要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench, 并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》 。 在评估和推动AI系统提 升能力上限与技术边界的同时,xbench会重点量化AI系统在真实场景的效用价值,并采用长青评估的机 制,去捕捉Agent产品的关键突破。 (点击文末 【阅读原文】 即可 下载阅读 本论文,建议使用电脑端进行下 载) 摘 要 • xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实 际落地价值。该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术 边界;(2)量化 ...