Opus 4.8 刚发布，Redis 之父质疑跑分：DHH 盛赞的 GPT-5.5，正在动摇编码王座

模型升级核心 - Anthropic发布旗舰模型Claude Opus 4.8，升级重点围绕增强开发者工作流的能力，包括dynamic workflows和更便宜的fast mode [1] 核心功能与特性 - Dynamic Workflows: 允许Claude编写JavaScript脚本进行任务编排，可调度数十到数百个并行subagents运行，单次运行并发上限为16个，总数上限为1000个 [1][5][8] - 思考强度控制: 用户可调高或调低Claude在任务中投入的推理资源，以平衡回答质量、速度和消耗速率 [10][11] - Fast Mode降价: Opus 4.8的fast mode输出速度约为正常速度的2.5倍，价格降至每百万输入token 10美元、每百万输出token 50美元，相比Opus 4.7的30美元/150美元降低了3倍 [12][13] 模型性能与基准测试 - Opus 4.8在多项基准测试中超过前代模型Opus 4.7，并领先于GPT-5.5和Gemini 3.1 Pro [2][24] - 在agentic coding (SWE-Bench Pro)上得分为69.2%，高于Opus 4.7的64.3%、GPT-5.5的58.6%和Gemini 3.1 Pro的54.2% [24][25] - 在agentic computer use (OSWorld-Verified)上得分为83.4%，高于GPT-5.5的78.7%和Gemini 3.1 Pro的76.2% [24][25] - 在agentic terminal coding (Terminal-Bench 2.1)上得分为74.6%，低于GPT-5.5的78.2% [24][25] 模型对齐与可靠性 - Anthropic强调Opus 4.8在支持用户自主性、按照用户最佳利益行事方面有提升，在衡量亲社会特质的指标上达到新高 [17] - 模型的欺骗率以及配合滥用请求的比例，相比前代模型显著更低 [18] - 相比前代模型，Opus 4.8大约低四倍概率会对自己写出的代码中的缺陷视而不见、不加说明，在执行agentic任务时更可靠、判断更敏锐 [21] 定价与市场定位 - Opus 4.8常规模式价格与Opus 4.7相同，为每百万输入token 5美元、每百万输出token 25美元 [2] - 在常规模式下，Opus 4.8价格低于主要竞争对手OpenAI的GPT-5.5（每百万输入token 5美元、每百万输出token 30美元） [15][16] 行业竞争与反馈 - 有行业观点认为，Anthropic将GPT-5.5纳入基准测试对比可能是一个战略错误，因为尽管Opus 4.8在某些测试中得分更高，但GPT-5.5的编码能力在开发者社区获得了更强的正面体感反馈，这导致了厂商说法与实际体验之间的错位 [26][27][28] - 有观点认为Opus 4.8是一个很强的模型，但Anthropic正越来越像是在追赶OpenAI，而非定义节奏，GPT-5.5似乎再次抬高了基准 [30][31] 产品演进历史 - 2025年5月，Anthropic发布Opus 4，称其为世界上最好的编码模型 [32] - 2025年11月，Opus 4.5发布，帮助公司重新夺回编码领域的领先地位 [33] - Opus 4.6因定价调整引发争议，其支持近100万token上下文，但请求超过约20万token即按更高的长上下文价格计费 [34] - Opus 4.7发布后，有用户反馈其出现自相矛盾的回答和性能下降，引发了关于模型质量、安全权衡及变相涨价的讨论 [35]