实测Claude Opus4.8,这可能是第一个不会偷懒的模型
虎嗅APP·2026-05-29 19:45

AI行业竞争与融资动态 - Anthropic公司完成了新一轮650亿美元的融资,估值逼近一万亿美元[5] - 行业估值高涨,前有智谱AI在港股市场达7000亿市值,后有Anthropic估值达7万亿人民币[6] - 行业模型迭代速度加快,Claude Opus 4.8距上一版本4.7上线仅42天,反映出GPT-5.5和Codex等竞争对手带来的巨大压力[7] Claude Opus 4.8模型技术规格与发布背景 - 模型在核心参数上与Opus 4.7基本一致,包括1M tokens的上下文窗口、128k tokens的最大输出长度,知识截止日期为2026年1月[8][9] - 定价维持不变,为每百万tokens输入5美元,输出25美元[9] - 该版本被认为是在Opus 4.7的基模上直接进行调优的产物[10] - 公司遵循网页端只保留两代模型的传统,因此Opus 4.8的上线可能导致Opus 4.6被顶替,对依赖旧版本进行内容创作的用户造成影响[11][12][83] Claude Opus 4.8性能基准测试 - 在多项基准测试中,Opus 4.8表现优于前代及竞品:在Agentic coding SWE-Bench Pro得分为69.2%,高于Opus 4.7的64.3%和GPT-5.5的58.6%[17] - 在Multidisciplinary reasoning(无工具)测试中得分为49.8%,高于Opus 4.7的46.9%和GPT-5.5的41.4%[17] - 在Agentic computer use OSWorld-Verified测试中得分为83.4%,高于GPT-5.5的78.7%[17] - 在Knowledge work GDPval-AA测试中得分为1890,高于Opus 4.7的1753和GPT-5.5的1769[17] - 在Agentic financial analysis Finance Agent v2测试中得分为53.9%,高于GPT-5.5的51.8%[17] - 唯一落后于GPT-5.5的类别是Terminal-Bench 2.1(评估真实命令行环境下的Agent能力),Opus 4.8得分为74.6%,低于GPT-5.5的78.2%[17][19][20] Claude Opus 4.8新特性与用户体验变化 - 思考强度控制开放:将名为“effort”(努力程度)的控制功能开放给所有用户,包括免费用户,可在Chat模式下从Low到Max进行调节[25][26][29] - 指令遵循更精确,主动性减弱:模型变得更加精确,严格遵循指令,但主动推测用户潜在需求并执行额外任务的能力下降[32][34][35] - 诚实度与可靠性提升:官方称模型让自己代码瑕疵蒙混过关的概率比上一代低了约4倍[49],在“偷懒”问题上,Opus 4.8是唯一能做到0%不良率的模型[53],在测试中表现出更细致、全面的审查能力[54][56] - 创作能力评估:在内容创作方面,比Opus 4.7有进步,但仍不及Opus 4.6,存在刻板印象、无意义排比和“AI味”较重的问题[61][65][66][68][69] - 快速模型迭代:推出了升级版的“fast mode”,速度达到标准版的2.5倍,价格从之前快速模式的每百万tokens输入30美元、输出150美元,降至输入10美元、输出50美元,仅为标准版的2倍价格[73][74] - 动态工作流功能:在Claude Code中引入dynamic workflows功能,允许模型自动编排脚本,并行拉起数十甚至上百个子agent处理复杂任务,并在交付前自行验证[76][77][79] 行业未来展望与公司产品路线 - Anthropic公司即将推出代号为“Mythos”的新模型,据称其智能水平将比Opus更高,并计划在几周内向所有客户开放[86]

实测Claude Opus4.8,这可能是第一个不会偷懒的模型 - Reportify