文章核心观点 - 一篇由AMD AI团队主管Stella Laurenzo发布的详尽分析报告指出,Anthropic的Claude Code模型在2026年2月更新后,其“扩展思考”功能被削减,导致在复杂工程任务中的性能出现严重退化,引发了开发者社区的强烈不满和广泛讨论 [2][4][5] - 报告基于对大量会话日志数据的量化分析,结论认为思考深度的削减并非单纯的界面调整,而是导致了模型行为模式发生根本性转变,从“优先研究”转向“优先编辑”,最终造成输出质量下降和整体算力消耗激增 [5][10][13] - Claude Code负责人Boris Cherny对此做出了官方回应,称相关改动仅为界面优化且引入了更优的自适应思考机制,但许多开发者并不认同此解释,并威胁将迁移至其他竞品 [22][23][27] 事件溯源与报告背景 - 事件起源于开发者Stella Laurenzo在Claude Code的Github主页提交的issue,该分析报告基于其团队从2026年1月30日至4月1日长达三个月的Claude会话日志数据 [2][5] - 报告分析了6852份会话文件中的17871个思考模块与234760次工具调用,进行了量化分析 [5] - 报告发布者Stella Laurenzo被证实是AMD的AI团队主管,增加了报告的专业性和可信度 [4] 分析报告的核心发现 - 思考内容屏蔽与质量下降时间线高度吻合:模型质量下降问题在3月8日被独立上报,而这一天恰好是“redacted thinking”(思考内容被屏蔽)占比突破50%的日期,其上线节奏在一周内从1.5%逐步升至25%→58%→100% [6] - 思考深度大幅下降:通过特征字段与思考内容长度的强相关性(皮尔逊相关系数达0.971)估算,在思考内容被完全屏蔽前,思考深度就已下降约67%。以字符数计,思考深度中位数从基线期的约2200字符降至2月下旬的约720字符 [7][8] - 用户可观测的行为劣化指标激增:3月8日后,用于检测模型“懒惰”行为的拦截脚本在17天内触发了173次,而此前触发次数为零。用户提示词中的挫折感指标从5.8%升至9.8%(增长68%),每次会话的平均提示词数量从35.9次下降至27.9次(减少22%) [9][10] - 工具使用模式发生根本转变:模型从“优先查阅”转向“优先编辑”。在表现良好阶段,每次文件编辑对应6.6次文件读取,而在性能退化阶段,该比率降至2.0,修改前的调研行为减少了70%。同时,重写整个文件(而非局部修改)的比率从4.9%翻倍至10.0%以上 [10][11][13] - 最终导致整体效率下降与算力浪费:报告指出,减少思考看似节省单次请求算力,但因输出质量下降导致模型频繁生成错误、中断和重试,最终使整体算力消耗增加了“几个数量级” [13] 受影响的工作流与开发者反馈 - 受影响的工作流属于高强度复杂工程场景,例如:50余个并发智能体会话从事系统编程、30分钟以上自主运行执行复杂多文件修改、遵循长达5000余词的项目规范等 [13] - 在表现良好阶段,Claude Code曾在一个周末内通过两个合并请求合入19.1万行代码,展示了其强大能力 [13] - 开发者社区反馈强烈,普遍认同报告结论,有开发者认为Claude Code已退化到无法信任其执行任何工程任务,沦为“人工智能玩具”。有企业技术负责人表示,Claude在推理质量上已不再是唯一领先的玩家 [17][18][20] Anthropic官方的回应与争议 - Claude Code负责人Boris Cherny回应称,“redact-thinking”改动仅为在界面中隐藏思考过程,不影响模型实际思考行为或配额,目的是降低延迟,用户可通过设置退出此模式 [22] - 对于思考深度下降,官方解释为2月份落地的两项改动:1) Opus 4.6版本默认启用“自适应思考”机制;2) 3月3日将默认思考强度设为中等(85),称这在智能、延迟与成本间达到了最优平衡 [23] - 官方建议希望更深度思考的用户可通过指令或设置将强度调至“高”,并透露未来可能为团队版与企业版用户默认启用高思考强度 [24] - 开发者普遍不认同官方解释。Laurenzo反驳称,团队已尝试所有参数组合,证明性能劣化在思考被屏蔽前就已发生,且现有参数无法有效控制问题。部分开发者表示将考虑迁移至其他竞品如Codex [25][27] 报告作者的建议与后续计划 - Laurenzo在报告中提出了四点改进建议:1) 思考资源分配透明化;2) 设立“最大思考量”付费档位;3) 在API响应中返回思考token指标;4) 将重度用户的预警指标作为质量监测信号 [19] - 在后续讨论中,Laurenzo表示将基于真实开发场景重新试用相关设置,并通过官方渠道提交/bug反馈,同时愿意私下共享完整会话日志以供调试 [28]
Claude Code越更越废?!大厂AI主管公开怒喷思考深度暴跌,官方回应更被怼爆 :菜成AI“玩具”
AI前线·2026-04-07 14:11