Model Evaluation - 财报，业绩电话会，研报，新闻

Model Evaluation

搜索文档

1美元Token撬动4800美元收益！AI挑战百万美元级基准，最赚钱的Agent出现了

机器之心· 2026-03-10 09:32

文章核心观点 - 行业推出了一个名为 $OneMillion-Bench 的新型AI评测基准，该基准通过量化“人类专家的时间与成本”来为任务定价，旨在衡量AI模型在真实、高经济价值专业任务中能交付多少“可兑现价值” [1] - 当前最先进的AI模型在总价值超过100万美元的专业任务上，能交付约48.3万美元的经济价值，而其完成任务的API成本仅约100美元，表明AI已具备在高端专业领域创造可观经济价值的能力 [1][17] - 尽管AI已能创造显著价值，但基于“通过率”这一更严格的“上岗”标准，即使顶级模型也仅有不到45%的任务能达到可交付质量，距离稳定、可托付的专业级应用仍有差距 [19][20][21] 基准设计与构建 - **核心理念与目标**：基准旨在解决现有评测集缺乏实际经济价值衡量、区分度不足等问题，构建了一套兼备高经济价值、高区分度、可自动评测的基准，以推动大模型能力边界的拓展与经济价值的落地 [3][4] - **任务规模与构成**：基准包含400道高难度题目（200英文+200中文），覆盖金融、法律、医疗、自然科学与工业五大领域下的92个三级细分领域，每道题均为真实行业场景下的开放专家任务 [4][8] - **价值量化方法**：通过“任务经济价值 = 资深专家完成该任务的耗时 × 专家时薪”的公式为每道题定价，专家时薪锚定官方或行业权威数据，任务耗时由多领域专家共同评估，所有任务总经济价值超过100万美元 [8] - **五大领域价值分布**：根据表格数据，五大领域（金融、法律、医疗、自然科学、工业）的中文（CN）和全球（Global）子集任务总价值分别为921,832美元和1,008,370美元，其中医疗领域的全球子集任务平均价值最高，达8,188.9美元 [9] 基准的关键设计特点 - **高真实性任务设计**：邀请一线资深专家将真实工作流拆解为细颗粒度考点，每道题设计15–35个考点，累计7000+考点，覆盖5–15年经验从业者的典型任务，考验专家级决策能力 [12] - **非对称负分机制**：采用+10 ~ -20的非对称考点分值，对正向能力给分更克制，对明确或致命错误惩罚更重，以更接近真实使用体感，避免模型通过堆砌内容获得虚高分数 [13] - **地域化场景覆盖**：设置CN（中文）和Global（英文）两大子集，题目本地化，还原真实的法规、流程与业务语境，以精准刻画模型在特定地域业务场景中的能力差异 [14] - **高质量数据生产流程**：采用3-4名专家协作的Pipeline，包含对抗性评审与仲裁机制，专家平均整体通过率低于5%，题目最终质检通过率为38.1%，并通过双向截断策略控制难度 [15] 主要模型表现与分析 - **头部模型经济价值产出**：在总价值超100万美元的任务上，表现最佳的Claude Opus 4.6 Web Search模型可产出483,810美元的经济价值，通过率为43.5% [17][18] - **模型梯队分布**：GPT 5.4 Web Search、Gemini 3 Pro Preview等模型处于第二梯队，通过率在28.5%-38.0%之间，可产出经济价值在26.3万至36.5万美元区间 [18] - **“通过率”揭示交付差距**：引入“单题得分≥70%才算通过”的通过率指标后，即使排名第一的模型通过率也骤降至43.5%，第二梯队多在25%-30%区间，表明目前没有模型能在超过一半的任务中稳定达到可交付标准 [19][20] - **网络搜索工具的影响**：Web Search工具能显著补齐事实性信息，尤其在需要时效性的领域，但也会引入噪声和“看似权威的错误来源”，下一阶段的竞争关键在于“会不会搜索”，包括选源、交叉验证、证据链整合及抗噪声能力 [22] - **复杂推理与细节执行的瓶颈**：模型在需要深层理解、多步演绎或巨大可能空间探索的任务中，仍会出现深度不足、准确性波动和跳步问题，且容易给出方向正确但缺乏可执行细节的回复，这在真实落地中杀伤力很大 [23] 行业意义与未来展望 - **量化“数字员工”能力边界**：该基准的意义在于将AI“数字员工”的能力边界量化出来，明确回答今天和未来可以放心将哪些工作交给AI [26] - **行业阶段转变**：行业视角已从将AI视为“大玩具”转变为认识到其能交付数十万美元级别的专业价值，下一阶段竞争的关键是提升价值的稳定性、可复核性与可控性，将智能的边际提升直接转化为生产力和收入 [25]

Artificial Intelligence

AI Agent

Model Evaluation

Artificial Intelligence

$OneMillion - Bench

Claude Opus 4.6 Web Search

Artificial Intelligence

AI Agent

Model Evaluation

Artificial Intelligence

$OneMillion - Bench

Claude Opus 4.6 Web Search

DeepSearch题库和榜单更新，最新题库已开源｜xbench月报

红杉汇· 2025-10-27 08:04

评测概览 - xbench对DeepSearch评测集进行了更新升级，构建了全新的100道题目，发布DeepSearch-2510版本 [1][2][8] - 评测结果显示，ChatGPT-5 Pro优势显著，评测分数断档式领先，准确率达到75+；SuperGrok位列第二档，准确率为40+；其他公司的Agent产品多在30-40分档位，无明显差距 [1][3] - DeepSearch-2510题库已经开源，并采用长青评估机制，每月持续汇报最新模型的能力表现 [1] 产品性能与成本分析 - 在准确率方面，ChatGPT-5 Pro以75+的分数领先，SuperGrok Expert为40+，而包括Minimax Agent、StepFun Research等在内的多家产品准确率在35+，Genspark Super Agent为30+ [3] - 在成本方面，完成每个任务的平均花费从免费到约2美元不等，其中StepFun Research、Doubao (Deep Research)和Coze Space为免费，ChatGPT-5 Pro约为0.085美元，而Fellou成本最高，约为2美元 [3] - 在时间效率方面，每个任务的耗时从2-3分钟到8-15分钟不等，Coze Space响应最快（2-3分钟），而Minimax Agent、StepFun Research等耗时较长（8-15分钟）[3] - 用户体验甜区定义为每道搜索题目成本在0.25美元以下且响应时间在8分钟以内，目前ChatGPT-5 Pro、SuperGrok Expert、Doubao等产品位于该重叠区域 [6] 评测集更新细节 - 新题库全面增加难度，原因是旧版本中多家公司产品分数已达70+，ChatGPT-5 Pro更达80+，已无法有效检测模型能力提升，新版本主流厂商（除ChatGPT外）分数在40分左右，为迭代预留空间 [9] - 新题库增加10道多模态题目，要求Agents识别图片或视频内容进行推理 [9] - 新题库增加20多道需要动态交互获取信息的工具使用题目，以适配工具使用能力的进展，例如输入筛选条件、使用地图服务等 [9] 领先产品优势分析 - ChatGPT-5 Pro在评测分数上断档式领先，主要优势体现在幻觉率大幅降低和工具使用能力极强 [12][13] - 在降低幻觉方面，ChatGPT-5 Pro规划能力极强，能快速定位并召回核心信源，对冲突信源进行交叉验证，并列出问题不同理解下的相应回答 [13] - 在工具使用方面，其能够灵活同网页进行动态交互，如动态加载、输入筛选条件等，从而获取更丰富精确的信源 [12] - SuperGrok基于Grok-4，独列第二档，猜测主要原因是Grok-4本身模型推理能力的优势 [14] 行业动态与产品演进 - 对比2505题库的评测结果，大部分公司的产品在几个月内搜索能力有较大幅度提升 [16] - ChatGPT从2505题库5月的“未提供分数”提升至9月的80+，提升来自于模型更新，ChatGPT-5 Pro相比前代在幻觉上大幅降低 [17] - SuperGrok从50+提升至70+，提升来自于模型更新，Grok-4相比Grok-3在推理能力上大幅提升 [17] - Doubao从50+提升至60+，提升来自于深度研究功能上线 [17] - 国内开发的Agents多在30-40分档位，无明显差距，原因在于基模能力差距或无法同基座模型协同优化 [19] - 部分产品如Doubao和Gemini更追求响应效率，在推理资源上投入保守，导致评测分数不及竞品但时间优势明显 [19] - Gemini在中文信源上有明显短板，基本定位不到正确信源，是分数偏低的核心原因 [19]

Artificial Intelligence

Model Evaluation

Artificial Intelligence

ChatGPT-5 Pro

SuperGrok

Gemini 2.5 Pro

Artificial Intelligence

Model Evaluation

Artificial Intelligence

ChatGPT-5 Pro

SuperGrok

Gemini 2.5 Pro