杨植麟讲如何scaled Kimi K2.5完整图文版/压缩版/视频版

文章核心观点 - 公司致力于通过技术创新构建更优秀的开源模型，以实现智能的民主化，其核心策略是围绕“Scaling Law”从多个维度扩展模型能力，包括提升Token效率、扩展上下文长度以及引入智能体群范式 [8][9][13] - 公司最新发布的Kimi 2.5模型及下一代架构Attention Residue，通过Muon优化器、Kimi Linear架构、原生多模态融合等多项自研技术，在性能上实现了对现有主流架构和优化方法的全面超越，并展示了开源模型触及前沿的潜力 [4][70][72][87][111] 模型扩展的核心维度与技术 Token效率提升 - 核心原理：Token效率不仅关乎基础设施成本，更决定了智能的上限，提高Token效率相当于在有限的高质量数据下获得更优的模型性能 [15][21] - Muon优化器：作为公司大力投资的二阶优化器，其梯度更新方式使每个条目彼此正交，相比传统Adam优化器能获得两倍的Token效率提升，例如将50万亿个高质量Token的效用提升至相当于100万亿个 [2][23][24] - QK-Clip技术：在向万亿参数规模扩展时，为解决训练中出现的logits爆炸问题，公司引入了QK-Clip技术，通过在前向传播中计算并限制每个注意力头的Query和Key投影最大值，确保了训练的稳定性 [2][30][34] - 实际效果：在相同参数和训练Token数量下，使用Muon优化器替换AdamW，模型在MMLU、代码生成（HumanEval）、数学（GSM8K）等多个基准测试上性能显著提升，并成功扩展到万亿参数模型的训练 [27][28][35] 长上下文能力扩展 - 架构挑战：原始线性注意力的全局单一衰减因子导致模型在长上下文处理中陷入“全盘保留或彻底遗忘”的困境，缺乏精准剔除冗余信息的能力 [3][44][45] - Kimi Delta Attention：通过将全局标量衰减因子升级为细粒度的对角矩阵，赋予每个通道独立的衰减控制权，允许特定通道长效留存关键信息而其他通道快速刷新，从而增强了模型的表达能力 [3][46][47] - Kimi Linear架构：以1:3的比例混合线性注意力层与全注意力层，并利用数学等价变换实现分块并行化计算，在不损失精度的前提下适配现代GPU算力，实现了对全注意力架构的全面超越，在短上下文和长上下文任务上均表现更优 [3][42][53][55][56] 智能体群（Agent Swarms）范式 - 范式原理：为突破单智能体在复杂任务中串行执行时间和处理容量的瓶颈，智能体群范式借鉴人类社会分工，通过一个协调器将任务拆解并分配给多个并行工作的子智能体，在输入、输出和行动维度实现规模化扩展 [4][16][58] - 训练创新：为克服训练中的串行崩溃与子任务作弊行为，引入了由实例化奖励、完成奖励和结果奖励构成的三位一体目标函数，有效引导系统学习并行、有意义的任务分解与执行 [4][67] - 性能优势：与单智能体相比，智能体群能显著降低复杂任务的执行时间，并能扩展至由数百甚至数千个子智能体协同工作，以在可接受的时间内完成产生经济价值的复杂任务 [4][62][65] Kimi 2.5模型的关键创新 - 训练稳定性：模型训练过程超过15万亿个Token（另有额外15万亿个Token的训练），全程非常稳定，没有损失尖峰，这得益于Muon等新技术的引入 [74] - 原生多模态融合：Kimi 2.5是首个从预训练第一天起就将视觉与文本模态统一映射到共享嵌入空间和表示空间的开源模型，这种早期融合策略优于后期添加视觉能力的做法，催生了如“视觉到代码”等新兴能力 [4][77][78][79] - 模态相互增强： - 视觉增强文本：仅使用视觉任务进行强化学习后，模型在纯文本任务（如MMLU-Pro、GPQA-Diamond）上的性能也得到了提升，例如MMLU-Pro从84.7提升至86.4 [80][81] - 文本增强视觉：凭借强大的文本基础，模型在不使用任何视觉SFT数据，仅通过文本SFT与联合强化学习的情况下，在视觉问答等任务上实现了接近最先进的性能 [4][83][84] 下一代架构展望：Attention Residue - 设计灵感：将时间维度（如LSTM）的成功经验平移至深度维度，将传统的固定加法形式的残差连接（被视为旋转了90度的LSTM）推广为旋转了90度的注意力机制 [4][93][94][95] - 核心机制：通过聚合所有先前层的隐藏状态，并使用注意力机制来计算当前层的输出，而非仅依赖上一层输出 [4][98][99] - 效率优化：采用块注意力残差方案，将网络层划分为多个块，在块内保留标准残差连接，仅在块间应用注意力残差，以平衡计算开销与性能 [4][100][101] - 预期收益：该架构能将Token效率提升24%（例如，50万亿个高质量Token的效用提升至超过60万亿），并在验证损失和编码、数学等推理密集型任务上显示出改进 [4][103]