Hybrid Model - 财报，业绩电话会，研报，新闻 - Reportify

Hybrid Model

搜索文档

Kimi Linear一作张宇：关于模型训练的一些感想

自动驾驶之心· 2025-11-06 08:04

模型架构创新 - 模型采用混合专家架构将MoE稀疏度从8提升至32 显著增强模型容量[4] - 核心设计原则为线性注意力具体实现为KDA方法在GDN基础上融入GLA的细粒度门控[4] - 采用混合模型方案 KDA与MLA的层混合比例为3:1 该比例经消融实验证实为效率与性能最优解[5] - 循环公式中关键部分为Decay机制通过数学表达式实现状态更新[4] 性能表现 - 在5.7T训练token和3B激活参数条件下模型效果实现巨大提升多项基准测试呈现显著优势[7] - 解码方面因KDA的KV缓存占用小批量大小补偿后加速比达到6倍[8] - 在数学/代码类基准测试上受参数规模限制但模型个性表现突出具有小K2模型特质[8] - 实际使用体验与榜单成绩达成平衡避免为追求分数牺牲用户体验[13] 训练过程 - 模型规模达48B MoE 训练量5.7T 采用分阶段扩展策略从1B参数开始逐步验证性能[10][11] - 训练过程中发现关键参数需保持fp32精度中途切换精度可能影响训练效果[12] - 后训练方案经过数十种数据配方尝试最终形成成熟方案[13] - 采用严格的内科监控机制任何明显性能差异都会触发回退至上一阶段[11] 技术路线定位 - 本次技术报告定位为技术验证主要战场放在1T公平比较实验为下一代K3模型铺垫[14] - 线性注意力技术路线逐渐收敛至Delta变体同时稀疏注意力路线如NSA也受到关注[18] - 模型开源旨在推动混合模型实际落地为行业提供新的技术启发[19] - 当前时间窗口适合线性注意力发展因智能体应用需要32k+长上下文支持[17]

Linear Attention

Efficient Attention

Sparse Attention

Linear Attention

Efficient Attention

Sparse Attention