实测Claude Opus4.8，这可能是第一个不会偷懒的模型

AI行业竞争与融资动态 - Anthropic公司完成了新一轮650亿美元的融资，估值逼近一万亿美元[5] - 行业估值高涨，前有智谱AI在港股市场达7000亿市值，后有Anthropic估值达7万亿人民币[6] - 行业模型迭代速度加快，Claude Opus 4.8距上一版本4.7上线仅42天，反映出GPT-5.5和Codex等竞争对手带来的巨大压力[7] Claude Opus 4.8模型技术规格与发布背景 - 模型在核心参数上与Opus 4.7基本一致，包括1M tokens的上下文窗口、128k tokens的最大输出长度，知识截止日期为2026年1月[8][9] - 定价维持不变，为每百万tokens输入5美元，输出25美元[9] - 该版本被认为是在Opus 4.7的基模上直接进行调优的产物[10] - 公司遵循网页端只保留两代模型的传统，因此Opus 4.8的上线可能导致Opus 4.6被顶替，对依赖旧版本进行内容创作的用户造成影响[11][12][83] Claude Opus 4.8性能基准测试 - 在多项基准测试中，Opus 4.8表现优于前代及竞品：在Agentic coding SWE-Bench Pro得分为69.2%，高于Opus 4.7的64.3%和GPT-5.5的58.6%[17] - 在Multidisciplinary reasoning（无工具）测试中得分为49.8%，高于Opus 4.7的46.9%和GPT-5.5的41.4%[17] - 在Agentic computer use OSWorld-Verified测试中得分为83.4%，高于GPT-5.5的78.7%[17] - 在Knowledge work GDPval-AA测试中得分为1890，高于Opus 4.7的1753和GPT-5.5的1769[17] - 在Agentic financial analysis Finance Agent v2测试中得分为53.9%，高于GPT-5.5的51.8%[17] - 唯一落后于GPT-5.5的类别是Terminal-Bench 2.1（评估真实命令行环境下的Agent能力），Opus 4.8得分为74.6%，低于GPT-5.5的78.2%[17][19][20] Claude Opus 4.8新特性与用户体验变化 - 思考强度控制开放：将名为“effort”（努力程度）的控制功能开放给所有用户，包括免费用户，可在Chat模式下从Low到Max进行调节[25][26][29] - 指令遵循更精确，主动性减弱：模型变得更加精确，严格遵循指令，但主动推测用户潜在需求并执行额外任务的能力下降[32][34][35] - 诚实度与可靠性提升：官方称模型让自己代码瑕疵蒙混过关的概率比上一代低了约4倍[49]，在“偷懒”问题上，Opus 4.8是唯一能做到0%不良率的模型[53]，在测试中表现出更细致、全面的审查能力[54][56] - 创作能力评估：在内容创作方面，比Opus 4.7有进步，但仍不及Opus 4.6，存在刻板印象、无意义排比和“AI味”较重的问题[61][65][66][68][69] - 快速模型迭代：推出了升级版的“fast mode”，速度达到标准版的2.5倍，价格从之前快速模式的每百万tokens输入30美元、输出150美元，降至输入10美元、输出50美元，仅为标准版的2倍价格[73][74] - 动态工作流功能：在Claude Code中引入dynamic workflows功能，允许模型自动编排脚本，并行拉起数十甚至上百个子agent处理复杂任务，并在交付前自行验证[76][77][79] 行业未来展望与公司产品路线 - Anthropic公司即将推出代号为“Mythos”的新模型，据称其智能水平将比Opus更高，并计划在几周内向所有客户开放[86]