Workflow
Claude Opus 4.6 Web Search
icon
搜索文档
1美元Token撬动4800美元收益!AI挑战百万美元级基准,最赚钱的Agent出现了
红杉汇· 2026-03-11 08:04
文章核心观点 - 一项名为 $OneMillion-Bench 的评测基准通过将任务定价为100万美元,量化评估了当前顶尖AI模型在真实商业场景中能替代人类专家完成的价值,结果显示最佳模型可完成价值约48.3万美元的工作,而成本仅约100美元 [2][3][14] - 该基准旨在衡量AI模型在金融、法律、医疗等五大硬核领域的“可交付经济价值”,而非仅测试知识,揭示了AI虽已能创造可观价值,但在稳定达到可交付标准方面仍有差距 [3][5][16] 评测基准设计与方法 - 基准由xbench联合多家研究机构与100多位顶级机构专家耗时2000余小时构建,包含400道高难度中英文题目,覆盖金融、法律、医疗、自然科学与工业五大领域的92个三级领域 [2][5] - 每道题的经济价值基于“资深专家完成耗时 × 专家时薪”计算,时薪锚定官方权威数据,所有题目总价值超过100万美元,其中全球子集总价值为1,008,370美元,中文子集为921,832美元 [7][8] - 题目设计还原真实工作流,每道题包含15–35个细颗粒度考点,累计超过7000个考点,并采用非对称负分机制(分值+10至-20)以防止模型通过堆砌内容获取虚高分数 [9][10] - 为确保题目质量,专家平均整体通过率低于5%,题目最终质检通过率为38.1%,并采用3-4名专家协作的Pipeline流程进行对抗性评审与仲裁 [12] 主要模型表现与经济价值 - 在总价值100万美元的任务池中,表现最佳的Claude Opus 4.6 Web Search模型通过了43.5%的任务,产生了483,810美元的经济价值,其API成本仅约100美元 [14][15] - 排名第二的GPT 5.4 Web Search通过率为38.0%,产生经济价值365,492美元;Google的Gemini 3 Pro Preview和字节跳动的Doubao Seed 2.0 Pro通过率均为28.5%,经济价值分别为345,314美元和330,714美元 [15] - 其他模型如阿里巴巴的Qwen、xAI的Grok、月之暗面的Kimi等,通过率在8.5%至23.5%之间,产生的经济价值在6.8万至26.4万美元区间 [15] 核心洞察与行业现状 - 尽管头部模型的平均分已进入合格区间(60%+),但以单题得分≥70%为“通过”的标准看,即使最佳模型的通过率也仅为43.5%,表明目前没有模型能在超过一半的任务中稳定达到可交付标准,距离完全替代人类专家工作流尚有距离 [16][17] - 联网搜索功能是一把双刃剑,能补齐事实性信息,但也可能引入噪声和错误,下一阶段的竞争关键在于模型“会不会搜索”,包括选源、交叉验证及整合证据链的能力 [18] - 复杂推理仍是通用瓶颈,模型在需要深层理解、多步演绎或探索式推理的任务中表现不足,容易跳步或用笼统叙述替代细节推理,在医疗、自然科学等领域易产生方向正确但缺乏可执行细节的回答,这对实际落地构成风险 [19]
1美元Token撬动4800美元收益!AI挑战百万美元级基准,最赚钱的Agent出现了
机器之心· 2026-03-10 09:32
文章核心观点 - 行业推出了一个名为 $OneMillion-Bench 的新型AI评测基准,该基准通过量化“人类专家的时间与成本”来为任务定价,旨在衡量AI模型在真实、高经济价值专业任务中能交付多少“可兑现价值” [1] - 当前最先进的AI模型在总价值超过100万美元的专业任务上,能交付约48.3万美元的经济价值,而其完成任务的API成本仅约100美元,表明AI已具备在高端专业领域创造可观经济价值的能力 [1][17] - 尽管AI已能创造显著价值,但基于“通过率”这一更严格的“上岗”标准,即使顶级模型也仅有不到45%的任务能达到可交付质量,距离稳定、可托付的专业级应用仍有差距 [19][20][21] 基准设计与构建 - **核心理念与目标**:基准旨在解决现有评测集缺乏实际经济价值衡量、区分度不足等问题,构建了一套兼备高经济价值、高区分度、可自动评测的基准,以推动大模型能力边界的拓展与经济价值的落地 [3][4] - **任务规模与构成**:基准包含400道高难度题目(200英文+200中文),覆盖金融、法律、医疗、自然科学与工业五大领域下的92个三级细分领域,每道题均为真实行业场景下的开放专家任务 [4][8] - **价值量化方法**:通过“任务经济价值 = 资深专家完成该任务的耗时 × 专家时薪”的公式为每道题定价,专家时薪锚定官方或行业权威数据,任务耗时由多领域专家共同评估,所有任务总经济价值超过100万美元 [8] - **五大领域价值分布**:根据表格数据,五大领域(金融、法律、医疗、自然科学、工业)的中文(CN)和全球(Global)子集任务总价值分别为921,832美元和1,008,370美元,其中医疗领域的全球子集任务平均价值最高,达8,188.9美元 [9] 基准的关键设计特点 - **高真实性任务设计**:邀请一线资深专家将真实工作流拆解为细颗粒度考点,每道题设计15–35个考点,累计7000+考点,覆盖5–15年经验从业者的典型任务,考验专家级决策能力 [12] - **非对称负分机制**:采用+10 ~ -20的非对称考点分值,对正向能力给分更克制,对明确或致命错误惩罚更重,以更接近真实使用体感,避免模型通过堆砌内容获得虚高分数 [13] - **地域化场景覆盖**:设置CN(中文)和Global(英文)两大子集,题目本地化,还原真实的法规、流程与业务语境,以精准刻画模型在特定地域业务场景中的能力差异 [14] - **高质量数据生产流程**:采用3-4名专家协作的Pipeline,包含对抗性评审与仲裁机制,专家平均整体通过率低于5%,题目最终质检通过率为38.1%,并通过双向截断策略控制难度 [15] 主要模型表现与分析 - **头部模型经济价值产出**:在总价值超100万美元的任务上,表现最佳的Claude Opus 4.6 Web Search模型可产出483,810美元的经济价值,通过率为43.5% [17][18] - **模型梯队分布**:GPT 5.4 Web Search、Gemini 3 Pro Preview等模型处于第二梯队,通过率在28.5%-38.0%之间,可产出经济价值在26.3万至36.5万美元区间 [18] - **“通过率”揭示交付差距**:引入“单题得分≥70%才算通过”的通过率指标后,即使排名第一的模型通过率也骤降至43.5%,第二梯队多在25%-30%区间,表明目前没有模型能在超过一半的任务中稳定达到可交付标准 [19][20] - **网络搜索工具的影响**:Web Search工具能显著补齐事实性信息,尤其在需要时效性的领域,但也会引入噪声和“看似权威的错误来源”,下一阶段的竞争关键在于“会不会搜索”,包括选源、交叉验证、证据链整合及抗噪声能力 [22] - **复杂推理与细节执行的瓶颈**:模型在需要深层理解、多步演绎或巨大可能空间探索的任务中,仍会出现深度不足、准确性波动和跳步问题,且容易给出方向正确但缺乏可执行细节的回复,这在真实落地中杀伤力很大 [23] 行业意义与未来展望 - **量化“数字员工”能力边界**:该基准的意义在于将AI“数字员工”的能力边界量化出来,明确回答今天和未来可以放心将哪些工作交给AI [26] - **行业阶段转变**:行业视角已从将AI视为“大玩具”转变为认识到其能交付数十万美元级别的专业价值,下一阶段竞争的关键是提升价值的稳定性、可复核性与可控性,将智能的边际提升直接转化为生产力和收入 [25]