Claude Opus 4.8来了,两个史上首次改写历史
36氪·2026-05-29 16:46

Claude Opus 4.8发布与性能 - Anthropic公司发布Claude Opus 4.8模型,距离上一代4.7发布仅43天,在编程、人类最后考试(HLE)、智能体及计算机使用任务中表现几乎无可匹敌 [1][2][4] - 模型价格与上一代保持一致,未上涨 [3] - 在衡量真实世界Agent能力的硬核榜单GDPval-AA上,Opus 4.8取得了1890 Elo评分,位列断层第一 [6] 模型“诚实性”的显著提升 - Anthropic强调Opus 4.8在“诚实”方面有重大改进,其“谎报率”(在数据处理有缺陷时装作没事的频率)为0.00%,而Opus 4.5为0.40%,Opus 4.7为0.25% [16][19][20] - 该模型是第一个在此项评估中获得满分的模型,从不汇报虚假数字 [21] - 模型的“偷懒调查率”(遇到需要追查的问题时敷衍了事给错误答案的概率)为0%,而Opus 4.7有25%的概率偷懒 [25][27] - 两个0%的指标均为历史首次 [29] 编程能力与基准测试表现 - 在最经典的SWE-Bench Pro测试中,Opus 4.8取得了69.2%的成绩,比GPT-5.5高出10个百分点 [38] - 在ProgramBench测试(要求从二进制文件和文档重建源代码)中,所有上下文预算档位上,Opus 4.8的通过率全部高于4.7 [41] - 在低预算(1M token)时,Opus 4.8通过率约为79.5%,而Opus 4.7在5M token时通过率约为84% [42] - 在专攻人类能力天花板的FrontierSWE榜单上,Opus 4.8以高达83%的胜率登顶,超越GPT-5.5和前代4.7 [48] 第三方实测与综合能力评价 - 第三方实测认为Opus 4.8的编码实力比上一代高出30分 [54] - 在写作方面,它比GPT-5.5高出6分,生成的文本更加流畅,AI味更淡 [56] - 在撰写报告、研究等知识工作任务中表现极其出色,可以一次性生成PPT [57] - 有实测显示,Opus 4.8能一次性生成在twigl中运行的、效果炫酷的着色器 [59] Claude Code与Dynamic Workflows功能 - Claude Code引入了“思考力度”(effort control)控制,提供从Low到Max的五档选择,以匹配任务难度并优化资源使用 [64][65] - fast mode速度提升至2.5倍,价格降至原来的三分之一 [67] - 引入了dynamic workflows功能,可将复杂任务拆分成几十上百个子任务,由大量subagent并行处理,并进行交叉审查 [70][72][73] - 该功能支持任务中断后续接,无需从头开始 [74] - 应用案例:使用dynamic workflows将Bun JavaScript运行时从Zig语言重写为Rust语言,约75万行Rust代码在11天内完成迁移,且99.8%的原有测试通过 [75][79] - 该迁移产生了六千多次提交,几乎没有经过人类逐行审查 [80] 公司估值与未来产品 - Anthropic完成了650亿美元H轮融资,估值达到9650亿美元,首次超越OpenAI(8520亿美元),成为全球估值最高的AI初创公司 [82][83][84] - 公司预告其王牌产品Claude Mythos将在未来几周内上线 [12][87]

Claude Opus 4.8来了,两个史上首次改写历史 - Reportify