Claude两周挖出火狐浏览器22个漏洞、14个高危！安全研究的游戏规则该变了？

文章核心观点 - AI 正以极快的速度从根本上改变安全研究的运作方式，其自动化漏洞发现能力使代码库在AI扫描面前变得“透明”[2][4] - 以Claude Opus 4.6为例，AI在两周内发现22个Firefox浏览器漏洞，其中14个为高危级别，这几乎相当于Mozilla公司2025年修复的全部高危漏洞的五分之一，效率相当于整个安全团队的季度工作量[1][3] - 尽管AI在漏洞发现方面展现出强大能力，但其在漏洞利用（exploit开发）方面的能力目前仍远弱于发现能力，且成本高一个数量级[19] 从模型评测到安全合作 - Anthropic为测试Claude Opus 4.6，构建了基于Firefox历史CVE的复杂数据集，旨在创建更困难、更贴近真实世界的评估环境[9][10] - 选择Firefox作为测试目标是因为其代码库复杂、是全球测试最充分的开源项目之一，对AI发现新型漏洞的能力构成严峻考验[10] - 在测试中，模型首先成功复现了相当高比例的历史漏洞，随后被要求寻找Firefox当前版本中的新漏洞，以证明其真实发现能力[11] - 在专注于JavaScript引擎的测试中，Claude Opus 4.6仅用20分钟就发现了一个Use-After-Free内存安全漏洞，并在验证期间又发现了另外50个崩溃输入样本[12] - 最终，Anthropic扫描了近6000个C++文件，向Mozilla提交了总计112份独立漏洞报告，其中包含高危和中危漏洞，大多数问题已在Firefox 148中修复[13] 从发现漏洞到开发利用代码 - Anthropic进一步测试了Claude开发漏洞利用程序（exploit）的能力，要求其为已发现的漏洞开发能执行恶意代码的攻击工具[15] - 在运行数百次实验、消耗约4000美元API费用后，Claude仅成功利用了两个漏洞[17] - 测试结果表明，Claude发现漏洞的能力远强于利用漏洞的能力，且发现漏洞的成本比开发exploit低一个数量级[19] - 尽管成功案例少，但AI能自动生成浏览器exploit（尽管非常原始且仅在移除部分安全机制的测试环境中有效）的事实，仍凸显了其潜在风险[20] AI驱动的网络安全未来 - AI辅助漏洞利用开发的早期迹象，凸显了防御者加速“发现与修复”流程的极端重要性[24] - Anthropic分享了在分析中总结的技术和流程最佳实践，特别是开发了“任务验证器”工具，该工具能为AI Agent提供实时反馈，显著提高其输出质量[24][26] - 一个优秀的补丁Agent至少需要验证两件事：漏洞是否已被真正消除，以及程序的预期功能是否得以保留[24] - Anthropic构建了能自动测试建议修复后原始Bug是否仍能被触发，并独立运行测试套件以捕捉功能回归的工具[25]