Claude Opus 4.8来了，两个史上首次改写历史

Claude Opus 4.8发布与性能 - Anthropic公司发布Claude Opus 4.8模型，距离上一代4.7发布仅43天，在编程、人类最后考试（HLE）、智能体及计算机使用任务中表现几乎无可匹敌 [1][2][4] - 模型价格与上一代保持一致，未上涨 [3] - 在衡量真实世界Agent能力的硬核榜单GDPval-AA上，Opus 4.8取得了1890 Elo评分，位列断层第一 [6] 模型“诚实性”的显著提升 - Anthropic强调Opus 4.8在“诚实”方面有重大改进，其“谎报率”（在数据处理有缺陷时装作没事的频率）为0.00%，而Opus 4.5为0.40%，Opus 4.7为0.25% [16][19][20] - 该模型是第一个在此项评估中获得满分的模型，从不汇报虚假数字 [21] - 模型的“偷懒调查率”（遇到需要追查的问题时敷衍了事给错误答案的概率）为0%，而Opus 4.7有25%的概率偷懒 [25][27] - 两个0%的指标均为历史首次 [29] 编程能力与基准测试表现 - 在最经典的SWE-Bench Pro测试中，Opus 4.8取得了69.2%的成绩，比GPT-5.5高出10个百分点 [38] - 在ProgramBench测试（要求从二进制文件和文档重建源代码）中，所有上下文预算档位上，Opus 4.8的通过率全部高于4.7 [41] - 在低预算（1M token）时，Opus 4.8通过率约为79.5%，而Opus 4.7在5M token时通过率约为84% [42] - 在专攻人类能力天花板的FrontierSWE榜单上，Opus 4.8以高达83%的胜率登顶，超越GPT-5.5和前代4.7 [48] 第三方实测与综合能力评价 - 第三方实测认为Opus 4.8的编码实力比上一代高出30分 [54] - 在写作方面，它比GPT-5.5高出6分，生成的文本更加流畅，AI味更淡 [56] - 在撰写报告、研究等知识工作任务中表现极其出色，可以一次性生成PPT [57] - 有实测显示，Opus 4.8能一次性生成在twigl中运行的、效果炫酷的着色器 [59] Claude Code与Dynamic Workflows功能 - Claude Code引入了“思考力度”（effort control）控制，提供从Low到Max的五档选择，以匹配任务难度并优化资源使用 [64][65] - fast mode速度提升至2.5倍，价格降至原来的三分之一 [67] - 引入了dynamic workflows功能，可将复杂任务拆分成几十上百个子任务，由大量subagent并行处理，并进行交叉审查 [70][72][73] - 该功能支持任务中断后续接，无需从头开始 [74] - 应用案例：使用dynamic workflows将Bun JavaScript运行时从Zig语言重写为Rust语言，约75万行Rust代码在11天内完成迁移，且99.8%的原有测试通过 [75][79] - 该迁移产生了六千多次提交，几乎没有经过人类逐行审查 [80] 公司估值与未来产品 - Anthropic完成了650亿美元H轮融资，估值达到9650亿美元，首次超越OpenAI（8520亿美元），成为全球估值最高的AI初创公司 [82][83][84] - 公司预告其王牌产品Claude Mythos将在未来几周内上线 [12][87]