CodeFuse

搜索文档
不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜
机器之心· 2025-06-27 14:44
核心观点 - 蚂蚁集团推出的代码图模型CGM基于开源模型实现了与闭源模型媲美的性能,在SWE-BenchLite测试中解决率达到44%,位列开源模型第一[10][11][21] - CGM采用Agentless架构,首创将代码仓库图结构作为模态输入,直接融入大模型中,显著提升模型对代码结构的理解能力[39][40] - 该模型通过多粒度代码图谱建模、两阶段训练和轻量化GraphRAG框架三大技术突破,实现了高效仓库级代码修复[41][45][50] 技术性能 - 在SWE-BenchLite测试中,CGM解决率达到44%,远超GPT-4的1.7%和Claude2的4.8%,位列开源模型第一[3][10][21] - 该模型在2024年10月首次登顶SWE-BenchLite开源榜首时解决率为35.67%,后续版本提升至41.67%和44%,实现"连续三杀"[20][21] - CGM基于开源千问大模型开发,同步开放训练用的代码图数据,打破闭源模型垄断[13] 架构创新 - 首创Agentless架构,仅用4步轻量级GraphRAG流程完成问题定位与修复,相比传统Agent架构大幅简化[14][39][50] - 将代码仓库建模为图数据结构,通过程序分析技术捕捉函数调用、模块依赖等复杂关系[42][44] - 设计图感知注意力掩码机制,模拟图神经网络的消息传递,实现结构与语义的深度融合[46][47] 技术实现 - 多粒度代码图谱建模支持Python和Java,包含7类代码实体和5种依赖关系[42][48] - 两阶段训练实现结构-语义双模态对齐,包括语义对齐和图结构注意力机制[45][46] - GraphRAG框架精简为4个核心模块:改写器、检索器、重排器和生成器[51][52] 行业影响 - 该技术为企业在保障数据安全的同时提供更大自由度,可基于业务需求深度定制[54][55] - 解决了传统LLM+Agent架构存在的误差积累、训练数据不匹配和线性读代码局限等问题[30][34][36] - 标志着AI在软件工程领域的重大突破,可能引发行业变革[56]
大模型首次直接理解代码图:不用Agent自动修bug,登顶SWE-Bench开源模型榜单
量子位· 2025-06-27 14:08
核心观点 - 蚂蚁开源的新模型CodeFuse-CGM在SWE-bench Lite上以44%的bug解决率超越所有开源方案,性能媲美闭源模型[1][2] - 该模型首创将仓库代码图模态(CGM)融入大语言模型,直接理解代码结构,显著提升跨文件修复和补全能力[12][14][16] - 完全基于开源模型实现,摆脱对GPT-4等闭源模型的依赖,提供更可控透明的解决方案[6][33] - 通过Graph-RAG框架将传统Agent方案的10个模块精简至4个,效率大幅提升[21][23][28] 技术突破 模型架构 - 采用图-语言多模态设计:图模态包含7种节点类型(函数/类/文件等)和依赖关系边,语言模态处理自然语言提示[14][16] - 创新性技术:节点token压缩(CodeT5+编码器)、512倍上下文扩展适配器、图感知注意力掩码实现GNN式消息传递[17] - 两阶段训练:子图重构预训练(Graph-to-Code任务)和噪声增强微调(10%噪声输入提升鲁棒性)[18][19][20] 性能表现 - SWE-bench Lite:44%解决率,超越最佳开源基线KGCompass 7.33个百分点[5][25] - SWE-bench Verified:50.4%解决率,较开源基线提升10.2%;Java项目提升4.4%至14.29%[26][29] - 代码补全任务:在ComplexCodeEval和CrossCodeEval跨文件场景显著领先同尺寸开源模型[30] 行业意义 - 首次证明开源模型可通过结构融合实现仓库级任务,打破闭源模型垄断[6][12][33] - 验证Graph-RAG框架替代复杂Agent的可行性,核心模块减少60%[21][23] - 技术全栈开源(论文/代码/权重/数据),适配CodeLlama/DeepSeek等多类基座模型[31][34] - 解决传统AI编程仅限函数级任务的局限,实现跨模块的"真正项目理解"[9][32]