技术-市场契合点（TMF） - 财报，业绩电话会，研报，新闻

技术-市场契合点（TMF）

搜索文档

红杉中国推出 Agent 基准测试「xbench」，双轨评估体系，关注 AI 真实场景的效用

Founder Park· 2025-05-26 14:44

核心观点 - 红杉中国推出AI评估工具xbench，采用双轨评估体系（AGI Tracking与Profession Aligned）追踪模型能力上限与商业落地价值 [1][5][19] - 传统评估体系存在局限性：模型能力与实际效用脱节、题库更新导致历史数据不可比 [10][12] - 提出长青评估机制（Evergreen Evaluation），通过动态更新题库和IRT模型量化能力增长 [17][38][39] - 首次发布ScienceQA（知识测试）和DeepSearch（工具使用）两大评估集，并构建招聘/营销领域专业评估框架 [23][25][26][32] 评估体系创新双轨架构 - **AGI Tracking**：测试基础能力边界（如ScienceQA得分60 8 vs Gemini 57 2），包含知识/多模态/推理等维度 [4][24][25] - **Profession Aligned**：量化商业价值（如招聘任务经济价值$200/position），已覆盖招聘（03模型得分78 5）和营销（50 8）领域 [4][20][35] 方法论突破 - 从"研究视角"转向"业务视角"，设计真实场景任务（如中东市场KOL搜索价值$6,000） [14] - 采用IRT理论解决题库迭代导致的数据断层问题，追踪模型能力斜率（如DeepSeek V2 5显著提升） [39][40] - 引入TMF（技术-市场契合度）分析框架，划分未达标/人机协同/专业化Agent三阶段 [44][45][46] 关键评估集 ScienceQA - 聚焦研究生水平学科知识，季度更新题库，03模型当前领先（60 8分） [4][25] - 题目示例："奇函数与偶函数嵌套组合的性质判断" [9] DeepSearch - 测试中文互联网环境下的多步推理搜索（03模型65+分），需完成规划→收集→推理→归纳全流程 [4][26] - 典型任务：跨平台合并`result_*.txt`文件并排序 [9] 专业评估 - **招聘领域**：拆解JD分析（$20/JD）、人才画像（$200/position）等7类可测评任务 [35] - **营销领域**：KOL匹配度预测（03模型50 8分 vs Claude 47 6分） [4][14] 行业影响 - 揭示模型进化速度：18个月内Chatbot能力从20-30分提升至90-100分 [9] - 预测多模态理解、长期记忆、博弈决策将成为下一阶段突破方向 [21] - 推动评估标准从"解题难度"转向"经济价值"（如营销任务节省$6,000人力成本） [14][31]