Workflow
代码智能体
icon
搜索文档
开源框架让代码AI偷师GitHub,bug修复率飙升至69.8%,性能创纪录
36氪· 2026-01-16 17:54
行业技术痛点与现有局限 - 当前AI驱动的代码智能体普遍面临“封闭世界”认知局限,它们倾向于从零开始修复Bug或仅依赖仓库内局部上下文,而忽略了GitHub等平台上积累的浩瀚历史人类经验[3] - 直接让智能体利用开放世界的经验极具挑战,因为真实的Issue和Pull Request数据充斥着非结构化的社交噪音、模棱两可的描述以及碎片化的信息[4] - 现有Code Agent在处理复杂Bug时效果不佳,原因在于原始数据噪声极大、非结构化且难以检索,简单的语义匹配容易被表面关键词误导[8] MemGovern框架核心创新 - 该框架由QuantaAlpha联合中国科学院大学、新加坡国立大学、北京大学、华东师范大学等团队提出,旨在通过“经验精炼”机制将杂乱的GitHub数据转化为智能体友好的结构化记忆[4] - 框架构建了层次化的筛选与内容净化流水线,通过综合考量Star数与维护活跃度筛选高质量仓库源,并仅保留包含完整“问题-代码-验证”证据链的闭环修复记录[9] - 其独创设计是“标准化经验卡片”,每张卡片被解耦为索引层和决议层,索引层用于基于症状的高效检索,决议层封装了根因分析、修复策略、补丁摘要及验证方法[9][10] - 团队已成功构建了包含135,000条高保真经验卡片的知识库[10] 代理式经验搜索策略 - 该框架采用“先搜后看”的代理式经验搜索策略,而非传统的一次性检索增强生成[12] - 智能体首先根据当前Bug症状在索引层进行广度搜索,快速定位候选案例,然后自主选择最有希望的案例查看其详细的解决方案层[12][13] - 最后,智能体将历史案例中的抽象修复策略映射到当前的代码库中,实现知识迁移[14] 实验性能评估 - 在SWE-bench Verified上的评测显示,MemGovern在所有测试模型上都取得了显著提升[15] - 主要结果:Claude-4-Sonnet结合MemGovern后修复率达到69.8%,相较于基线SWE-Agent提升3.2%;GPT-4o结合后修复率从23.2%飙升至32.6%,提升9.4%;DeepSeek-V3结合后修复率提升至65.8%[16][17] - 实验数据表明MemGovern的提升是稳健且模型无关的,对于基础能力较弱的模型提升更为显著,例如Qwen3-235B提升8.2%,Kimi-K2-Instruct提升8.0%[18] - 消融实验验证了其“代理式搜索”策略的有效性,在DeepSeek-V3.1-T和Qwen3-Coder-30B上分别带来3.0%和3.4%的提升,优于传统的RAG方法[19] - 记忆规模实验显示,随着经验卡片数量从10%增加到100%,智能体的修复率呈现单调上升趋势[20] 应用案例与范式价值 - 案例分析表明,MemGovern能引导智能体做出正确修复,例如在Django框架的一个Bug中,传统Agent做出了违反API规范的“掩耳盗铃”式修复,而MemGovern Agent依据历史经验写出了完美的修复代码[24][25][26][27] - 该框架为AI智能体如何有效利用海量非结构化人类调试经验指明了道路,证明了将杂乱的原始数据转化为可检索、可验证、可迁移的“经验记忆”是打破智能体封闭世界限制的强大范式[28] - 该经验重塑范式具有极强的通用性与推广价值,为法律咨询、医疗诊断等同样高度依赖历史案例与专家经验的垂直领域提供了一套标准化模板[28] 研究团队与背景 - 该研究由前沿开源学术社区QuantaAlpha主导,并联合了多所顶尖高校的团队[4] - QuantaAlpha成立于2025年4月,团队成员来自清华、北大、中科院、CMU、港科大等名校,致力于探索智能体研究的前沿[30] - 相关论文题为“MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences”,代码已开源[29]
第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率
机器之心· 2025-08-23 18:51
AI代码模型安全漏洞研究 - 即使经过安全对齐的大语言模型也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患[2] - 恶意用户可利用这类模型显著加速恶意软件的构建与迭代,降低攻击门槛并缩短开发周期[2] - 许多风险源自模型推理链条中的细微缺陷,而不仅仅是输入输出层面的显性问题[2] 亚马逊Nova AI安全挑战赛 - 比赛分为红队和蓝队对抗形式,蓝队应用最新安全对齐实践,红队需在200轮对话内寻找模型安全漏洞[7] - 代码模型安全评估包含两个维度:符合安全代码规范(如避免SQL注入)和拒绝恶意软件开发请求[7] - 普渡大学PurCL团队作为红队以超过90%的攻击成功率获得第一名,赢得25万美元奖金[2][7] 传统AI安全评估局限性 - 传统安全评估基于静态预定义数据集(如禁止合成生化武器),未覆盖复杂真实领域场景[9] - 现有顶尖安全分类器对常见话题防御有效率达90%,但对网络安全领域话题的有效性骤降至10%以下[19] - 基于模型推理的防御方案存在不可靠性,模型在拒绝危险请求时常包含错误归因[20] AI认知建模框架 - 采用人类认知科学三分法建模:"问题"(用户请求)、"推演"(中间推理步骤)、"解决方案"(生成代码)[12][14] - 蓝队技术分为三类:危险输入识别(问题过滤)、推演步骤加强(如OpenAI的Deliberative Alignment)、危险输出识别(解决方案过滤)[16][17] PurCL红队系统技术创新 - 开发基于AI认知建模的全过程红队系统,耗时八个月和百万美元研发,现开放给研究者共享使用[3] - 系统包含领域知识建模和推理路径分析两大核心组件[21] - 领域知识建模通过Enumerator智能体构建领域知识图,覆盖2.28万亿和1×10²⁸量级的请求搜索空间[23] - 推理路径分析技术ASTRA通过构建"决策图"比对目标模型推理轨迹,系统性揭示推理漏洞[25] SOTA模型测试结果 - GPT-5在68.7%的情况下可能帮助构建恶意代码,GPT-OSS-120B在48.3%的情况下生成不安全代码[29] - 在具体攻击类型中,模型在Process Injection(进程注入)和Exploit Client Execution(客户端执行利用)等场景漏洞率超80%[29] - 安全编码规范方面,模型在Insecure Hashing(不安全哈希)场景漏洞率达100%,在Loose File Permissions(宽松文件权限)场景漏洞率最低约35-63%[30] 行业影响与研究意义 - 研究表明当前AI安全研究尚未解决真实世界中的模型安全问题,复杂领域的全面有效对齐仍是开放挑战[7] - 代码智能体如Claude可显著加速恶意勒索软件开发(实验后已安全删除)[32] - 模型对齐研究需超越防御越狱技术,重点解决复杂领域扩展问题和推理过程的安全可靠性[32]
代码智能体占领GitHub!自动修bug、加功能、写文档,一台手机就能指挥
量子位· 2025-05-20 09:02
GitHub Copilot Coding Agent核心功能 - 推出代码智能体Copilot Coding Agent,可实现bug自动修复、功能自动添加、文档自动编写[1] - 开发者反馈良好,已实际解决拖延问题[2] - 支持手机版APP全流程操作[3] - 用户只需分配任务,智能体即可自主执行[5] - GitHub内部已投入使用该智能体[6] 任务分配与执行机制 - 通过分配issue触发智能体工作流程,操作方式与人类开发者协作相同[7] - 智能体启动虚拟机后自动克隆分析代码库,实时保存修改并记录详细推理日志[9] - 任务完成后@人类审核,AI能自动处理审核意见[10] - 支持整合PR讨论上下文,理解任务意图及项目代码标准[11] - 官方建议应用于测试充分的代码库,处理低至中等复杂度任务(功能添加/错误修复/测试扩展/文档改进等)[11] - 支持多任务并行分配[12] 微软开发者大会相关更新 - 宣布VSCode中的GitHub Copilot将开源[16] - 新增Copilot Tuning功能,允许企业用专有数据微调AI模型以适配员工工作模式[20] - 推出NLWeb技术,实现自然语言交互网站[23] - 发布Microsoft Discovery加速科研,已在200小时内发现新型数据中心制冷剂原型(传统人工需数月数年)[24][25] 集成与部署特性 - 智能体可一键部署至Office、Slack等办公应用[22] - 提供完整功能文档与Quickstart指南[13][26]