Claude 4破解困扰人类4年系统bug,30年码龄程序员200小时没搞定,GPT-4.1/Gemini-2.5也做不到
量子位·2025-05-28 12:22
Claude Opus 4技术突破 - 旗舰AI模型Claude Opus 4仅用几个小时和33个prompt即解决资深程序员4年未能定位的复杂bug [1][19][20] - 该bug涉及6万行C++代码重构后出现的边界条件问题 属于架构层面兼容性丢失而非常规逻辑错误 [12][13][21] - 相比其他顶级模型包括GPT-4.1、Gemini 2.5和Claude 3.7均未能解决此问题 Opus 4成为首个成功案例 [6][20] 开发者效率提升 - 人类工程师累计投入超过200小时未能解决的"白鲸bug"被AI在极短时间内破解 [3][15][19] - 类似案例中开发者使用o1-Pro模型在十分钟内解决耗时一个月的编程难题 [7] - Anthropic官方开发者关系主管认为此类AI辅助解决问题案例将日益普遍 [8] 模型性能基准对比 - Claude Opus 4在Agentic coding任务中达到72.5%通过率 SWE-bench验证达到79.4% [25] - 终端编码性能显著领先:Opus 4达到43.2% 而GPT-4.1为30.3% Gemini 2.5为25.3% [25] - 在研究生级推理GPQA测试中取得79.6%成绩 工具使用能力达到81.4% [25] 产品功能创新 - Claude Code智能助手支持开发者通过自然语言命令理解、浏览和修改整个代码库 [28] - 新功能涵盖修复bug、实现新功能、代码重构、编写测试和跨文件修改等工程任务 [28] - 模型展示连续24小时运行能力和独立持续编码7小时的新基准 [26]