Opus 4.8 刚发布,Redis 之父质疑跑分:DHH 盛赞的 GPT-5.5,正在动摇编码王座
AI前线·2026-05-29 10:35

模型升级核心 - Anthropic发布旗舰模型Claude Opus 4.8,升级重点围绕增强开发者工作流的能力,包括dynamic workflows和更便宜的fast mode [1] 核心功能与特性 - Dynamic Workflows: 允许Claude编写JavaScript脚本进行任务编排,可调度数十到数百个并行subagents运行,单次运行并发上限为16个,总数上限为1000个 [1][5][8] - 思考强度控制: 用户可调高或调低Claude在任务中投入的推理资源,以平衡回答质量、速度和消耗速率 [10][11] - Fast Mode降价: Opus 4.8的fast mode输出速度约为正常速度的2.5倍,价格降至每百万输入token 10美元、每百万输出token 50美元,相比Opus 4.7的30美元/150美元降低了3倍 [12][13] 模型性能与基准测试 - Opus 4.8在多项基准测试中超过前代模型Opus 4.7,并领先于GPT-5.5和Gemini 3.1 Pro [2][24] - 在agentic coding (SWE-Bench Pro)上得分为69.2%,高于Opus 4.7的64.3%、GPT-5.5的58.6%和Gemini 3.1 Pro的54.2% [24][25] - 在agentic computer use (OSWorld-Verified)上得分为83.4%,高于GPT-5.5的78.7%和Gemini 3.1 Pro的76.2% [24][25] - 在agentic terminal coding (Terminal-Bench 2.1)上得分为74.6%,低于GPT-5.5的78.2% [24][25] 模型对齐与可靠性 - Anthropic强调Opus 4.8在支持用户自主性、按照用户最佳利益行事方面有提升,在衡量亲社会特质的指标上达到新高 [17] - 模型的欺骗率以及配合滥用请求的比例,相比前代模型显著更低 [18] - 相比前代模型,Opus 4.8大约低四倍概率会对自己写出的代码中的缺陷视而不见、不加说明,在执行agentic任务时更可靠、判断更敏锐 [21] 定价与市场定位 - Opus 4.8常规模式价格与Opus 4.7相同,为每百万输入token 5美元、每百万输出token 25美元 [2] - 在常规模式下,Opus 4.8价格低于主要竞争对手OpenAI的GPT-5.5(每百万输入token 5美元、每百万输出token 30美元) [15][16] 行业竞争与反馈 - 有行业观点认为,Anthropic将GPT-5.5纳入基准测试对比可能是一个战略错误,因为尽管Opus 4.8在某些测试中得分更高,但GPT-5.5的编码能力在开发者社区获得了更强的正面体感反馈,这导致了厂商说法与实际体验之间的错位 [26][27][28] - 有观点认为Opus 4.8是一个很强的模型,但Anthropic正越来越像是在追赶OpenAI,而非定义节奏,GPT-5.5似乎再次抬高了基准 [30][31] 产品演进历史 - 2025年5月,Anthropic发布Opus 4,称其为世界上最好的编码模型 [32] - 2025年11月,Opus 4.5发布,帮助公司重新夺回编码领域的领先地位 [33] - Opus 4.6因定价调整引发争议,其支持近100万token上下文,但请求超过约20万token即按更高的长上下文价格计费 [34] - Opus 4.7发布后,有用户反馈其出现自相矛盾的回答和性能下降,引发了关于模型质量、安全权衡及变相涨价的讨论 [35]

Opus 4.8 刚发布,Redis 之父质疑跑分:DHH 盛赞的 GPT-5.5,正在动摇编码王座 - Reportify