Workflow
开源编程模型王座易主了,谁能想到新SOTA是快手
快手快手(HK:01024) 量子位·2025-10-11 14:04

模型性能表现 - 快手的KAT-Dev-72B-Exp模型在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一 [1] - KAT-Coder模型在SWE-Bench认证榜单上击败了GPT-5(非Codex模式)和Claude 4 Sonnet [4] - KAT-Coder能够复刻完整游戏《水果忍者》,包含计分和生命值系统 [6] 技术能力展示 - 模型支持生成交互特效,如赛博朋克时钟具备立方体爆炸、霓虹灯和粒子效果 [9][10] - 擅长通过代码实现物理规律可视化,例如制作太阳系运行模拟的3D动画并支持立体旋转视角 [12][13] - 可模拟60层高圆形塔楼在重力与冲击波作用下的爆破倒塌过程,遵循真实物理规律 [15] 模型训练方法 - 训练过程包括中期训练、监督微调(SFT)与强化微调(RFT)以及大规模的Agentic强化学习 [17] - 中期训练第一阶段增强模型推理、指令遵循等综合能力,第二阶段通过人类工程师标注数据增强需求交付能力 [18] - 强化学习阶段专注于问题描述、可执行环境和可验证测试用例三个关键组件 [21] 训练数据与框架 - 从开源及内部代码库收集Pull Request和Issue,并过滤低质量数据,同时融入数学和推理任务丰富信号多样性 [22] - 使用自研工业级强化学习框架SeamlessFlow,通过数据平面架构解耦RL训练和智能体实现 [28][29][30] - SeamlessFlow框架在32张H800 GPU测试中,相比VERL框架实现吞吐量100%提升,训练时间减少62% [35] 训练优化与成效 - 强化学习后模型完成任务所需互动次数减少32%,并具备同时调用多个工具的能力 [25][26][27] - 引入Trie Packing机制并重写训练引擎,通过树形梯度修复权重使训练速度平均提升2.5倍 [37]