CodeMender
搜索文档
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
36氪· 2025-10-31 10:25
产品发布与核心功能 - OpenAI发布由GPT-5驱动的AI安全研究员Agent“Aardvark”,旨在自动发现并修复代码安全漏洞[1][3] - Aardvark的核心任务是持续分析源代码仓库,通过监控代码提交与变更,自动识别潜在漏洞、推断攻击路径并生成修复建议[4] - 该产品不依赖传统程序分析技术,而是运用大语言模型驱动的推理与工具使用能力来理解代码行为,工作流程包括威胁建模、漏洞发现、沙盒验证、Codex修复、人工复审及提交Pull Request[5][8][9] 性能表现与集成应用 - 内部测试显示,Aardvark在基准测试中对已知与人工注入漏洞的识别率达到92%,并能定位仅在复杂条件下出现的问题[3][12] - 该产品已发现并负责披露了众多漏洞,其中10个已获得CVE编号,并且可无缝集成GitHub、Codex及现有开发流程[10][12] - Aardvark不仅能识别安全漏洞,还能发现逻辑缺陷、不完整修复及隐私风险,OpenAI将为部分非商业开源仓库提供公益扫描服务[11][13] 行业竞争格局 - 整个10月,Anthropic、谷歌、微软等科技巨头相继发布类似的白帽AI Agent,形成密集的产品发布潮[3][14][19] - Anthropic于10月4日将Claude Sonnet 4.5应用于代码安全任务,其性能据称已超越Opus 4.1,且价格更低、速度更快[14][17] - 谷歌于10月6日发布利用Gemini Deep Think模型的CodeMender,微软于10月16日发布Vuln.AI,OpenAI在10月底发布Aardvark[17][19] 市场驱动因素 - 人工Debug与传统的自动化方法已无法满足大规模代码库的漏洞发现与修复需求,推动AI自动化工具成为关键手段[19] - 企业级网络中设备、服务、代码库数量巨大,同时AI技术也被用于快速寻找漏洞和生成攻击代码,导致漏洞数量激增和攻击手段智能化[19]
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
量子位· 2025-10-31 08:58
OpenAI Aardvark产品发布 - OpenAI发布由GPT-5驱动的AI安全研究员Agent Aardvark,旨在自动发现并修复代码安全漏洞 [2][3] - Aardvark在基准测试中识别出92%的已知与人工注入漏洞,并能定位复杂条件下出现的问题 [4][19] - 该产品通过威胁建模、漏洞发现、沙盒验证、Codex修复等流程工作,可集成GitHub和现有开发流程 [9][11][15] Aardvark技术能力与测试成果 - Aardvark运用大语言模型驱动的推理能力理解代码行为,不依赖传统程序分析技术 [10] - 内部测试显示其能识别安全漏洞、逻辑缺陷、不完整修复及隐私风险 [16] - 产品已应用于多个开源项目,发现并披露的漏洞中有10个已获得CVE编号 [20] 行业竞争格局 - 2024年10月,Anthropic、谷歌、微软相继发布类似AI代码安全产品,OpenAI此次发布相对较晚 [7][24][31] - Anthropic于10月4日将Claude Sonnet 4.5应用于代码安全,其性能超越Opus 4.1且价格更低、速度更快 [25][28] - 谷歌于10月6日发布基于Gemini Deep Think模型的CodeMender,微软于10月16日发布Vuln.AI [29][31] 市场驱动因素 - 人工Debug与传统自动化方法已无法满足大规模代码库的漏洞发现与修复需求 [32] - 企业级网络设备、服务、代码库数量巨大,同时AI技术也被用于快速寻找漏洞,导致漏洞数量激增 [33] - 借助AI自动化发现与修复漏洞成为确保软件安全和降低企业风险的关键手段 [34]
谷歌 DeepMind 推出 CodeMender:自动修复代码的智能代理
AI前线· 2025-10-18 13:11
CodeMender技术特点 - 谷歌DeepMind推出由AI驱动的新型智能代理CodeMender,能够自动检测、修复并加固软件漏洞[1] - 该项目基于最新的推理模型与程序分析技术,结合大型推理模型、静态与动态分析、模糊测试以及符号求解器等多种技术来推理程序行为[1] - 系统检测到漏洞时会生成多个修复候选方案,并通过自动化测试验证补丁是否解决根本问题且不破坏现有功能,只有通过验证的修复方案才会提交人工最终审查[1] 实际应用成效 - 在过去六个月中,CodeMender已为开源项目贡献72个经过验证的补丁,其中一些项目的代码量超过400万行[1] - 早期修复案例包括修复XML栈处理错误相关的堆缓冲区溢出问题,以及通过复杂代码修改解决对象生命周期管理漏洞[2] - 系统支持主动防御机制,例如自动为广泛使用的libwebp图像库添加安全注解,防止特定类型的缓冲区溢出攻击在未来被利用[2] 行业反响与影响 - 社区反响普遍积极,认为自动化修复让AI从"发现风险"迈向"主动强化基础设施",验证层是关键信任因素[3] - 行业讨论认为未来黑客也会使用类似模型寻找漏洞,拥有最新模型和最强算力的一方将占据优势[4] - DeepMind强调所有CodeMender生成的补丁在正式合并前都会经过人工审核,可靠性"和"透明性"是项目核心原则[4]
DeepMind发布代码修复AI智能体CodeMender,实现「被动响应」与「主动防御」一体化
机器之心· 2025-10-07 15:00
文章核心观点 - DeepMind推出名为CodeMender的AI智能体,旨在使用Gemini Deep Think模型自动修补关键软件漏洞,其核心价值在于通过严格的验证确保修复质量 [2] - 该技术标志着软件行业正进入自我修复时代,是迈向自动化安全修复的重要一步 [10][24] CodeMender的技术原理与功能 - 核心机制是借助Gemini深度思考模型的思维能力,构建能自动调试并修复复杂漏洞的Agent,配备强大工具集以在修改代码前进行逻辑推演和自动验证 [12] - 采用全面的代码安全方法,实现“被动响应”(立即修补新漏洞)与“主动防御”(重写和保护现有代码)并重 [4] - 综合使用调试器、源代码浏览器等工具精确定位漏洞根本原因,并设计补丁 [14] - 基于高级程序分析技术(如静态分析、动态分析、差分测试等)系统性地审视代码,以精准定位安全漏洞 [18] - 采用多智能体系统,使不同智能体能够协同处理问题的不同方面,例如使用基于LLM的代码审查工具高亮显示代码差异以验证更改 [18] CodeMender的实际应用与案例 - 在过去六个月的开发过程中,已向开源项目上传了72个安全修复程序,其中一些修复程序涉及多达450万行代码 [5] - 案例1:成功识别堆缓冲区溢出的根本原因(XML元素堆栈管理不正确),尽管最终补丁仅修改了几行代码 [15] - 案例2:智能体能够创建非平凡补丁,成功处理复杂对象生命周期问题,并修改了项目内一个完全自定义的C代码生成系统 [16][17] - 具备主动重写现有代码的能力,例如将`-fbounds-safety`注释应用于图像压缩库libwebp,以添加编译器边界检查防止缓冲区溢出漏洞被利用 [19] - 具备自动纠正新错误和测试失败的能力,并能根据LLM Judge工具的反馈进行自我修正和验证更改 [22][23] 行业影响与开发者反馈 - 该技术可帮助开发者从繁琐的查找漏洞工作中解脱出来,使其能专注于打造优质软件 [6] - 开发者认为其突破点在于确保修复不会破坏其他功能,这是真正自动化与演示的区别所在 [8] - 有观点认为该技术可能对QA、安全审计、漏洞赏金等领域的收入构成冲击 [8] - 引发了关于“AI产生软件漏洞”与“AI自动修复软件漏洞”之间可能形成军备竞赛的讨论 [10] - 谷歌已启动针对AI产品漏洞的奖励计划,漏洞猎手们累计获得超过43万美元奖金 [9] 当前状态与未来计划 - 目前所有CodeMender生成的补丁在提交到上游之前都会经过人类研究人员的审核 [24] - DeepMind计划在未来几个月内继续分享技术论文和报告,并希望最终将CodeMender发布为所有开发人员可用的工具 [24]