Workflow
Agentic Coding表现创新高,全新KAT系列模型上榜SWE-Bench
机器之心·2025-09-26 18:35

模型发布与性能表现 - 快手Kwaipilot团队推出KAT系列两款Agentic Coding大模型:开源32B参数模型KAT-Dev-32B与闭源旗舰模型KAT-Coder [2] - KAT-Dev-32B在SWE-Bench Verified上取得62.4%的解决率,在所有不同规模的开源模型中排名第5 [2] - KAT-Coder在SWE-Bench Verified上以73.4%的解决率取得极佳的单模型表现,比肩全球顶尖闭源模型 [2] - KAT-Dev-32B已在Hugging Face上线,KAT-Coder的API密钥在“快手万擎”企业级大模型服务与开发平台上开放申请 [7] 核心技术路线与创新 - 模型训练分为四个关键阶段:Mid-Training阶段、监督微调(SFT)阶段、强化微调(RFT)阶段以及大规模智能体强化学习(RL)阶段 [9] - Mid-Training阶段增强了模型与“LLM-as-Agent”相关的全方位能力,包括工具使用能力、多轮交互和指令遵循 [10] - SFT阶段精心策划了八种任务类型和八种编程场景,以确保模型的泛化能力和综合能力 [12] - RFT阶段创新性地引入人类工程师标注的“教师轨迹”作为训练指导,提升了强化学习阶段的效率和稳定性 [12] - 大规模Agentic RL阶段通过自研的工业级规模强化学习训练框架SeamlessFlow解决了非线性轨迹历史高效学习等挑战 [12] 训练数据与能力构建 - 构建了在沙盒环境真实执行工具的调用方法及执行结果交互数据,用于提升模型工具调用能力 [12] - 构建了最长数百轮的人类、模型、工具交互数据,用于提升长文本情况下模型的多轮交互能力 [12] - 加入了高质量的编码相关领域知识数据,用于进一步增强模型在编码场景下的性能 [12] - 加入了大量来自真实Git仓库的PR数据,用于提升模型在真实编程任务下的表现 [12] - 除了开源数据,还收集并利用了来自真实世界工业系统的匿名企业级代码库进行RL训练 [23] 模型效果与涌现能力 - KAT-Coder模型具备强大的代码生成能力,可独立完成完整的项目开发,用户仅需描述需求,模型即可交付完整的代码解决方案 [26] - 经过大规模Agentic RL训练后,模型平均对话轮次下降了32%,展现出效率偏好的形成 [35] - 模型展现出同时调用多个工具的能力,而非传统的串行调用,体现了并行化的自然选择 [35] 未来发展方向 - 计划增强工具集成,与流行的IDE、版本控制系统和开发工作流深度集成,创建无缝的编码体验 [35] - 将扩展KAT模型能力以覆盖新兴的编程语言和框架,确保全面的语言支持 [35] - 探索多智能体系统,让KAT模型能够在复杂的软件项目上协同工作,实现协作编码 [35] - 计划集成视觉理解能力,处理架构图、UI设计、调试截图和文档图像以及代码,实现多模态代码智能 [35]