CodeFuse - 财报，业绩电话会，研报，新闻

CodeFuse

搜索文档

机器之心· 2025-06-27 14:44

核心观点 - 蚂蚁集团推出的代码图模型CGM基于开源模型实现了与闭源模型媲美的性能，在SWE-BenchLite测试中解决率达到44%，位列开源模型第一[10][11][21] - CGM采用Agentless架构，首创将代码仓库图结构作为模态输入，直接融入大模型中，显著提升模型对代码结构的理解能力[39][40] - 该模型通过多粒度代码图谱建模、两阶段训练和轻量化GraphRAG框架三大技术突破，实现了高效仓库级代码修复[41][45][50] 技术性能 - 在SWE-BenchLite测试中，CGM解决率达到44%，远超GPT-4的1.7%和Claude2的4.8%，位列开源模型第一[3][10][21] - 该模型在2024年10月首次登顶SWE-BenchLite开源榜首时解决率为35.67%，后续版本提升至41.67%和44%，实现"连续三杀"[20][21] - CGM基于开源千问大模型开发，同步开放训练用的代码图数据，打破闭源模型垄断[13] 架构创新 - 首创Agentless架构，仅用4步轻量级GraphRAG流程完成问题定位与修复，相比传统Agent架构大幅简化[14][39][50] - 将代码仓库建模为图数据结构，通过程序分析技术捕捉函数调用、模块依赖等复杂关系[42][44] - 设计图感知注意力掩码机制，模拟图神经网络的消息传递，实现结构与语义的深度融合[46][47] 技术实现 - 多粒度代码图谱建模支持Python和Java，包含7类代码实体和5种依赖关系[42][48] - 两阶段训练实现结构-语义双模态对齐，包括语义对齐和图结构注意力机制[45][46] - GraphRAG框架精简为4个核心模块：改写器、检索器、重排器和生成器[51][52] 行业影响 - 该技术为企业在保障数据安全的同时提供更大自由度，可基于业务需求深度定制[54][55] - 解决了传统LLM+Agent架构存在的误差积累、训练数据不匹配和线性读代码局限等问题[30][34][36] - 标志着AI在软件工程领域的重大突破，可能引发行业变革[56]

CGM（Code Graph Model）

CGM（Code Graph Model）