1美元Token撬动4800美元收益！AI挑战百万美元级基准，最赚钱的Agent出现了

文章核心观点 - 一项名为 $OneMillion-Bench 的评测基准通过将任务定价为100万美元，量化评估了当前顶尖AI模型在真实商业场景中能替代人类专家完成的价值，结果显示最佳模型可完成价值约48.3万美元的工作，而成本仅约100美元 [2][3][14] - 该基准旨在衡量AI模型在金融、法律、医疗等五大硬核领域的“可交付经济价值”，而非仅测试知识，揭示了AI虽已能创造可观价值，但在稳定达到可交付标准方面仍有差距 [3][5][16] 评测基准设计与方法 - 基准由xbench联合多家研究机构与100多位顶级机构专家耗时2000余小时构建，包含400道高难度中英文题目，覆盖金融、法律、医疗、自然科学与工业五大领域的92个三级领域 [2][5] - 每道题的经济价值基于“资深专家完成耗时 × 专家时薪”计算，时薪锚定官方权威数据，所有题目总价值超过100万美元，其中全球子集总价值为1,008,370美元，中文子集为921,832美元 [7][8] - 题目设计还原真实工作流，每道题包含15–35个细颗粒度考点，累计超过7000个考点，并采用非对称负分机制（分值+10至-20）以防止模型通过堆砌内容获取虚高分数 [9][10] - 为确保题目质量，专家平均整体通过率低于5%，题目最终质检通过率为38.1%，并采用3-4名专家协作的Pipeline流程进行对抗性评审与仲裁 [12] 主要模型表现与经济价值 - 在总价值100万美元的任务池中，表现最佳的Claude Opus 4.6 Web Search模型通过了43.5%的任务，产生了483,810美元的经济价值，其API成本仅约100美元 [14][15] - 排名第二的GPT 5.4 Web Search通过率为38.0%，产生经济价值365,492美元；Google的Gemini 3 Pro Preview和字节跳动的Doubao Seed 2.0 Pro通过率均为28.5%，经济价值分别为345,314美元和330,714美元 [15] - 其他模型如阿里巴巴的Qwen、xAI的Grok、月之暗面的Kimi等，通过率在8.5%至23.5%之间，产生的经济价值在6.8万至26.4万美元区间 [15] 核心洞察与行业现状 - 尽管头部模型的平均分已进入合格区间（60%+），但以单题得分≥70%为“通过”的标准看，即使最佳模型的通过率也仅为43.5%，表明目前没有模型能在超过一半的任务中稳定达到可交付标准，距离完全替代人类专家工作流尚有距离 [16][17] - 联网搜索功能是一把双刃剑，能补齐事实性信息，但也可能引入噪声和错误，下一阶段的竞争关键在于模型“会不会搜索”，包括选源、交叉验证及整合证据链的能力 [18] - 复杂推理仍是通用瓶颈，模型在需要深层理解、多步演绎或探索式推理的任务中表现不足，容易跳步或用笼统叙述替代细节推理，在医疗、自然科学等领域易产生方向正确但缺乏可执行细节的回答，这对实际落地构成风险 [19]