Claude Code越更越废？！大厂AI主管公开怒喷思考深度暴跌，官方回应更被怼爆：菜成AI“玩具”

文章核心观点 - 一篇由AMD AI团队主管Stella Laurenzo发布的详尽分析报告指出，Anthropic的Claude Code模型在2026年2月更新后，其“扩展思考”功能被削减，导致在复杂工程任务中的性能出现严重退化，引发了开发者社区的强烈不满和广泛讨论 [2][4][5] - 报告基于对大量会话日志数据的量化分析，结论认为思考深度的削减并非单纯的界面调整，而是导致了模型行为模式发生根本性转变，从“优先研究”转向“优先编辑”，最终造成输出质量下降和整体算力消耗激增 [5][10][13] - Claude Code负责人Boris Cherny对此做出了官方回应，称相关改动仅为界面优化且引入了更优的自适应思考机制，但许多开发者并不认同此解释，并威胁将迁移至其他竞品 [22][23][27] 事件溯源与报告背景 - 事件起源于开发者Stella Laurenzo在Claude Code的Github主页提交的issue，该分析报告基于其团队从2026年1月30日至4月1日长达三个月的Claude会话日志数据 [2][5] - 报告分析了6852份会话文件中的17871个思考模块与234760次工具调用，进行了量化分析 [5] - 报告发布者Stella Laurenzo被证实是AMD的AI团队主管，增加了报告的专业性和可信度 [4] 分析报告的核心发现 - 思考内容屏蔽与质量下降时间线高度吻合：模型质量下降问题在3月8日被独立上报，而这一天恰好是“redacted thinking”（思考内容被屏蔽）占比突破50%的日期，其上线节奏在一周内从1.5%逐步升至25%→58%→100% [6] - 思考深度大幅下降：通过特征字段与思考内容长度的强相关性（皮尔逊相关系数达0.971）估算，在思考内容被完全屏蔽前，思考深度就已下降约67%。以字符数计，思考深度中位数从基线期的约2200字符降至2月下旬的约720字符 [7][8] - 用户可观测的行为劣化指标激增：3月8日后，用于检测模型“懒惰”行为的拦截脚本在17天内触发了173次，而此前触发次数为零。用户提示词中的挫折感指标从5.8%升至9.8%（增长68%），每次会话的平均提示词数量从35.9次下降至27.9次（减少22%） [9][10] - 工具使用模式发生根本转变：模型从“优先查阅”转向“优先编辑”。在表现良好阶段，每次文件编辑对应6.6次文件读取，而在性能退化阶段，该比率降至2.0，修改前的调研行为减少了70%。同时，重写整个文件（而非局部修改）的比率从4.9%翻倍至10.0%以上 [10][11][13] - 最终导致整体效率下降与算力浪费：报告指出，减少思考看似节省单次请求算力，但因输出质量下降导致模型频繁生成错误、中断和重试，最终使整体算力消耗增加了“几个数量级” [13] 受影响的工作流与开发者反馈 - 受影响的工作流属于高强度复杂工程场景，例如：50余个并发智能体会话从事系统编程、30分钟以上自主运行执行复杂多文件修改、遵循长达5000余词的项目规范等 [13] - 在表现良好阶段，Claude Code曾在一个周末内通过两个合并请求合入19.1万行代码，展示了其强大能力 [13] - 开发者社区反馈强烈，普遍认同报告结论，有开发者认为Claude Code已退化到无法信任其执行任何工程任务，沦为“人工智能玩具”。有企业技术负责人表示，Claude在推理质量上已不再是唯一领先的玩家 [17][18][20] Anthropic官方的回应与争议 - Claude Code负责人Boris Cherny回应称，“redact-thinking”改动仅为在界面中隐藏思考过程，不影响模型实际思考行为或配额，目的是降低延迟，用户可通过设置退出此模式 [22] - 对于思考深度下降，官方解释为2月份落地的两项改动：1) Opus 4.6版本默认启用“自适应思考”机制；2) 3月3日将默认思考强度设为中等（85），称这在智能、延迟与成本间达到了最优平衡 [23] - 官方建议希望更深度思考的用户可通过指令或设置将强度调至“高”，并透露未来可能为团队版与企业版用户默认启用高思考强度 [24] - 开发者普遍不认同官方解释。Laurenzo反驳称，团队已尝试所有参数组合，证明性能劣化在思考被屏蔽前就已发生，且现有参数无法有效控制问题。部分开发者表示将考虑迁移至其他竞品如Codex [25][27] 报告作者的建议与后续计划 - Laurenzo在报告中提出了四点改进建议：1) 思考资源分配透明化；2) 设立“最大思考量”付费档位；3) 在API响应中返回思考token指标；4) 将重度用户的预警指标作为质量监测信号 [19] - 在后续讨论中，Laurenzo表示将基于真实开发场景重新试用相关设置，并通过官方渠道提交/bug反馈，同时愿意私下共享完整会话日志以供调试 [28]