代码智能
搜索文档
Agentic Coding表现创新高,全新KAT系列模型上榜SWE-Bench
机器之心· 2025-09-26 18:35
模型发布与性能表现 - 快手Kwaipilot团队推出KAT系列两款Agentic Coding大模型:开源32B参数模型KAT-Dev-32B与闭源旗舰模型KAT-Coder [2] - KAT-Dev-32B在SWE-Bench Verified上取得62.4%的解决率,在所有不同规模的开源模型中排名第5 [2] - KAT-Coder在SWE-Bench Verified上以73.4%的解决率取得极佳的单模型表现,比肩全球顶尖闭源模型 [2] - KAT-Dev-32B已在Hugging Face上线,KAT-Coder的API密钥在“快手万擎”企业级大模型服务与开发平台上开放申请 [7] 核心技术路线与创新 - 模型训练分为四个关键阶段:Mid-Training阶段、监督微调(SFT)阶段、强化微调(RFT)阶段以及大规模智能体强化学习(RL)阶段 [9] - Mid-Training阶段增强了模型与“LLM-as-Agent”相关的全方位能力,包括工具使用能力、多轮交互和指令遵循 [10] - SFT阶段精心策划了八种任务类型和八种编程场景,以确保模型的泛化能力和综合能力 [12] - RFT阶段创新性地引入人类工程师标注的“教师轨迹”作为训练指导,提升了强化学习阶段的效率和稳定性 [12] - 大规模Agentic RL阶段通过自研的工业级规模强化学习训练框架SeamlessFlow解决了非线性轨迹历史高效学习等挑战 [12] 训练数据与能力构建 - 构建了在沙盒环境真实执行工具的调用方法及执行结果交互数据,用于提升模型工具调用能力 [12] - 构建了最长数百轮的人类、模型、工具交互数据,用于提升长文本情况下模型的多轮交互能力 [12] - 加入了高质量的编码相关领域知识数据,用于进一步增强模型在编码场景下的性能 [12] - 加入了大量来自真实Git仓库的PR数据,用于提升模型在真实编程任务下的表现 [12] - 除了开源数据,还收集并利用了来自真实世界工业系统的匿名企业级代码库进行RL训练 [23] 模型效果与涌现能力 - KAT-Coder模型具备强大的代码生成能力,可独立完成完整的项目开发,用户仅需描述需求,模型即可交付完整的代码解决方案 [26] - 经过大规模Agentic RL训练后,模型平均对话轮次下降了32%,展现出效率偏好的形成 [35] - 模型展现出同时调用多个工具的能力,而非传统的串行调用,体现了并行化的自然选择 [35] 未来发展方向 - 计划增强工具集成,与流行的IDE、版本控制系统和开发工作流深度集成,创建无缝的编码体验 [35] - 将扩展KAT模型能力以覆盖新兴的编程语言和框架,确保全面的语言支持 [35] - 探索多智能体系统,让KAT模型能够在复杂的软件项目上协同工作,实现协作编码 [35] - 计划集成视觉理解能力,处理架构图、UI设计、调试截图和文档图像以及代码,实现多模态代码智能 [35]
从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
机器之心· 2025-08-08 15:53
研究背景与核心观点 - 论文由浙江大学研究员刘忠鑫团队联合香港科技大学、德国斯图加特大学等机构共同完成,聚焦代码智能与AI在软件工程中的应用 [2] - 核心观点:当前LLM在「自然语言驱动功能添加」任务上的成功率仅20%,远低于Bug修复任务(SWE-bench成功率70%+),揭示AI在真实软件开发中的能力短板 [3][26] - 提出全新基准NoCode-bench,填补现有评测体系空白,推动AI从「修理工」向「开发工程师」转型 [6][27] NoCode-bench基准设计 - 数据来源:从开源项目的发行说明(Release Notes)提取开发者确认的功能添加条目,确保高质量与真实性 [8] - 构建流程: - 阶段1:筛选文档齐全且明确标记功能更新的开源项目 [10] - 阶段2:收集关联PR,要求必须包含文档修改以提供自然语言输入 [10] - 阶段3:采用Docker镜像+虚拟环境构建可扩展的测试环境 [16] - 阶段4:通过测试用例状态转变验证功能有效性,保留开发过程中的错误实例以反映真实场景 [16] - 阶段5:静态分析提取「标识符提示」减少评估偏差,屏蔽PR编号防数据泄露 [16] - 子集NoCode-bench Verified包含114个经人工验证的高质量实例,提升评估信度 [11] 基准任务挑战性分析 - 输入复杂度:文档变更平均长度为Bug报告的2倍,需更强文本理解能力 [12] - 定位难度:需修改的文件数和代码块数量远超Bug修复任务,涉及大量文件增删 [13] - 编辑量:平均修改代码行数为SWE-bench数倍,20%任务修改量超200行 [14] 模型性能评估结果 - 测试模型:涵盖Claude-4-Sonnet、GPT-4o、Gemini-2.5-Pro等6种SOTA模型 [18] - 最佳表现:Claude-4-Sonnet在NoCode-bench Verified上成功率仅15.79%,Agent框架下提升至15.79%但仍远低于Bug修复任务 [18][26] - 开源模型对比:DeepSeek-v3表现最优(14.91%),闭源模型中Claude-4-Sonnet领先 [18] 失败原因与改进方向 - 跨文件编辑能力缺失:模型倾向单文件修改,无法处理多文件协同编辑 [20] - 代码库理解不足:直接修改核心代码破坏软件架构,导致回归测试失败 [21] - 工具调用缺陷:Agent框架下无法稳定生成正确指令格式 [22] - 未来方向:需重点突破跨文件编辑、代码库整体理解和工具调用三大瓶颈 [27] 行业影响与开源贡献 - 行业价值:软件维护成本60%用于功能增强,NoCode-bench直击核心需求 [6] - 开源资源:完整数据集、构建流程和评估代码已开源,推动社区协作 [25] - 研究意义:首次系统评估LLM在无代码功能添加任务的能力,为AI软件工程师发展提供路线图 [27]