Workflow
技术-市场契合点(TMF)
icon
搜索文档
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
Founder Park· 2025-05-26 14:44
核心观点 - 红杉中国推出AI评估工具xbench,采用双轨评估体系(AGI Tracking与Profession Aligned)追踪模型能力上限与商业落地价值 [1][5][19] - 传统评估体系存在局限性:模型能力与实际效用脱节、题库更新导致历史数据不可比 [10][12] - 提出长青评估机制(Evergreen Evaluation),通过动态更新题库和IRT模型量化能力增长 [17][38][39] - 首次发布ScienceQA(知识测试)和DeepSearch(工具使用)两大评估集,并构建招聘/营销领域专业评估框架 [23][25][26][32] 评估体系创新 双轨架构 - **AGI Tracking**:测试基础能力边界(如ScienceQA得分60 8 vs Gemini 57 2),包含知识/多模态/推理等维度 [4][24][25] - **Profession Aligned**:量化商业价值(如招聘任务经济价值$200/position),已覆盖招聘(03模型得分78 5)和营销(50 8)领域 [4][20][35] 方法论突破 - 从"研究视角"转向"业务视角",设计真实场景任务(如中东市场KOL搜索价值$6,000) [14] - 采用IRT理论解决题库迭代导致的数据断层问题,追踪模型能力斜率(如DeepSeek V2 5显著提升) [39][40] - 引入TMF(技术-市场契合度)分析框架,划分未达标/人机协同/专业化Agent三阶段 [44][45][46] 关键评估集 ScienceQA - 聚焦研究生水平学科知识,季度更新题库,03模型当前领先(60 8分) [4][25] - 题目示例:"奇函数与偶函数嵌套组合的性质判断" [9] DeepSearch - 测试中文互联网环境下的多步推理搜索(03模型65+分),需完成规划→收集→推理→归纳全流程 [4][26] - 典型任务:跨平台合并`result_*.txt`文件并排序 [9] 专业评估 - **招聘领域**:拆解JD分析($20/JD)、人才画像($200/position)等7类可测评任务 [35] - **营销领域**:KOL匹配度预测(03模型50 8分 vs Claude 47 6分) [4][14] 行业影响 - 揭示模型进化速度:18个月内Chatbot能力从20-30分提升至90-100分 [9] - 预测多模态理解、长期记忆、博弈决策将成为下一阶段突破方向 [21] - 推动评估标准从"解题难度"转向"经济价值"(如营销任务节省$6,000人力成本) [14][31]