Muon优化器
搜索文档
杨植麟讲如何scaled Kimi K2.5完整图文版/压缩版/视频版
理想TOP2· 2026-03-22 20:52
文章核心观点 - 公司致力于通过技术创新构建更优秀的开源模型,以实现智能的民主化,其核心策略是围绕“Scaling Law”从多个维度扩展模型能力,包括提升Token效率、扩展上下文长度以及引入智能体群范式 [8][9][13] - 公司最新发布的Kimi 2.5模型及下一代架构Attention Residue,通过Muon优化器、Kimi Linear架构、原生多模态融合等多项自研技术,在性能上实现了对现有主流架构和优化方法的全面超越,并展示了开源模型触及前沿的潜力 [4][70][72][87][111] 模型扩展的核心维度与技术 Token效率提升 - **核心原理**:Token效率不仅关乎基础设施成本,更决定了智能的上限,提高Token效率相当于在有限的高质量数据下获得更优的模型性能 [15][21] - **Muon优化器**:作为公司大力投资的二阶优化器,其梯度更新方式使每个条目彼此正交,相比传统Adam优化器能获得**两倍**的Token效率提升,例如将**50万亿**个高质量Token的效用提升至相当于**100万亿**个 [2][23][24] - **QK-Clip技术**:在向万亿参数规模扩展时,为解决训练中出现的logits爆炸问题,公司引入了QK-Clip技术,通过在前向传播中计算并限制每个注意力头的Query和Key投影最大值,确保了训练的稳定性 [2][30][34] - **实际效果**:在相同参数和训练Token数量下,使用Muon优化器替换AdamW,模型在MMLU、代码生成(HumanEval)、数学(GSM8K)等多个基准测试上性能显著提升,并成功扩展到万亿参数模型的训练 [27][28][35] 长上下文能力扩展 - **架构挑战**:原始线性注意力的全局单一衰减因子导致模型在长上下文处理中陷入“全盘保留或彻底遗忘”的困境,缺乏精准剔除冗余信息的能力 [3][44][45] - **Kimi Delta Attention**:通过将全局标量衰减因子升级为细粒度的对角矩阵,赋予每个通道独立的衰减控制权,允许特定通道长效留存关键信息而其他通道快速刷新,从而增强了模型的表达能力 [3][46][47] - **Kimi Linear架构**:以**1:3**的比例混合线性注意力层与全注意力层,并利用数学等价变换实现分块并行化计算,在不损失精度的前提下适配现代GPU算力,实现了对全注意力架构的全面超越,在短上下文和长上下文任务上均表现更优 [3][42][53][55][56] 智能体群(Agent Swarms)范式 - **范式原理**:为突破单智能体在复杂任务中串行执行时间和处理容量的瓶颈,智能体群范式借鉴人类社会分工,通过一个协调器将任务拆解并分配给多个并行工作的子智能体,在输入、输出和行动维度实现规模化扩展 [4][16][58] - **训练创新**:为克服训练中的串行崩溃与子任务作弊行为,引入了由实例化奖励、完成奖励和结果奖励构成的三位一体目标函数,有效引导系统学习并行、有意义的任务分解与执行 [4][67] - **性能优势**:与单智能体相比,智能体群能显著降低复杂任务的执行时间,并能扩展至由数百甚至数千个子智能体协同工作,以在可接受的时间内完成产生经济价值的复杂任务 [4][62][65] Kimi 2.5模型的关键创新 - **训练稳定性**:模型训练过程超过**15万亿**个Token(另有额外**15万亿**个Token的训练),全程非常稳定,没有损失尖峰,这得益于Muon等新技术的引入 [74] - **原生多模态融合**:Kimi 2.5是首个从预训练第一天起就将视觉与文本模态统一映射到共享嵌入空间和表示空间的开源模型,这种早期融合策略优于后期添加视觉能力的做法,催生了如“视觉到代码”等新兴能力 [4][77][78][79] - **模态相互增强**: - **视觉增强文本**:仅使用视觉任务进行强化学习后,模型在纯文本任务(如MMLU-Pro、GPQA-Diamond)上的性能也得到了提升,例如MMLU-Pro从**84.7**提升至**86.4** [80][81] - **文本增强视觉**:凭借强大的文本基础,模型在**不使用任何视觉SFT数据**,仅通过文本SFT与联合强化学习的情况下,在视觉问答等任务上实现了接近最先进的性能 [4][83][84] 下一代架构展望:Attention Residue - **设计灵感**:将时间维度(如LSTM)的成功经验平移至深度维度,将传统的固定加法形式的残差连接(被视为旋转了90度的LSTM)推广为旋转了90度的注意力机制 [4][93][94][95] - **核心机制**:通过聚合所有先前层的隐藏状态,并使用注意力机制来计算当前层的输出,而非仅依赖上一层输出 [4][98][99] - **效率优化**:采用块注意力残差方案,将网络层划分为多个块,在块内保留标准残差连接,仅在块间应用注意力残差,以平衡计算开销与性能 [4][100][101] - **预期收益**:该架构能将Token效率提升**24%**(例如,**50万亿**个高质量Token的效用提升至超过**60万亿**),并在验证损失和编码、数学等推理密集型任务上显示出改进 [4][103]
正交化之外是什么?微软等提出ARO优化器:训练提速1/3,揭示矩阵优化新「蓝海」
机器之心· 2026-03-10 09:32
文章核心观点 - 微软研究院等机构提出了一种名为ARO(自适应旋转优化)的全新矩阵优化框架,该框架将“梯度旋转”作为第一原则,超越了以Muon为代表的正交化方法,在大语言模型训练中实现了显著且稳定的效率提升 [1][5] - ARO框架不仅统一了现有主流矩阵优化器(如Muon、SOAP、SPlus、Galore),将其视为在特定旋转坐标系下使用Adam的特例,更通过理论分析揭示了其有效性可能源于对大模型架构中固有对称性的利用 [4][5][20] - 通过严格的大规模实验验证,ARO在最高达80亿参数、多倍过训练的场景下,相比基准优化器AdamW实现了约1.3至1.35倍的训练加速,相比正交化方法(如Muon)实现了约1.1至1.15倍的加速,且额外计算开销控制在3%以内 [5][14] - ARO的对称性视角挑战了当前矩阵优化器“分而治之”的设计理念,使其能够统一优化包括嵌入层和输出层在内的全模型参数,并在后期训练中展现出优势,同时为跨层参数耦合优化等新设计提供了思路 [15][17][22][24] 方法论创新:从正交化到自适应旋转优化 (ARO) - 论文将Muon、SOAP等现有矩阵优化方法统一抽象为“在旋转后的坐标系中使用Adam或其变体进行优化”的框架,其共同点是使用梯度内积矩阵的特征向量作为固定的旋转矩阵 [4] - 研究团队提出ARO框架,其核心创新在于将“梯度旋转”本身作为优化目标,动态地寻找一个旋转矩阵R,使得在该旋转下,基座优化器(如Adam)的更新能最大化训练损失的下降速率 [5][7] - ARO的更新规则是主动寻找能让当前优化器发挥更好的旋转角度,其更新方向相比传统特征旋转方法,能带来更优且持续存在的瞬时损失下降率 [7][8] - 该框架具有普适性,在多种基座优化器下均能带来提升,表明梯度旋转是一个关键且独立的设计维度 [12] 实验验证与性能表现 - 为确保结论可靠且可迁移至真实训练场景,论文制定了严格的实验准则,包括采用大批次(最高1400万)、长序列(最高4K)、大模型规模(最高80亿参数)和多倍过训练(最高8倍) [10] - 在小规模验证(1亿至15亿参数)中,ARO的旋转策略相比无旋转和传统特征旋转版本均表现更优,且优于AdamW和正交化方法 [12] - 在规模化实验中,ARO在从3亿至80亿激活参数的稠密和MoE模型上,对AdamW保持稳定的1.3至1.35倍加速,对Muon等正交化方法保持1.1至1.15倍加速,且加速比在更大规模、更长训练周期下未见衰减 [14] - 通过工程优化,ARO在大规模分布式训练中的额外时间开销相比AdamW被控制在3%以内 [5][14] 理论诠释:对称性假设与全模型优化 - 论文提出“对称性假设”,认为现有矩阵优化器的有效性可能源于无意中利用了神经网络损失景观中的参数对称性,例如Transformer中存在的残差流对称性 [19][20] - 从对称性视角看,ARO在理论上等价于非欧几何下的“对称瞬移”算法,即在不改变损失的前提下,将参数移动到对称群轨道中更利于优化的位置 [19] - 理论分析表明,传统对称瞬移(追求最大瞬时速率)和特征旋转(追求最大稳定性)是两个极端,而ARO采取了一种温和的部分提升策略,在收敛效率与鲁棒性之间取得了更好的权衡 [20] - 对称性视角自然地将嵌入层和输出层纳入优化范围,这解释了ARO能够成功应用于全模型参数优化的原因,实验结果也显示,在训练后期(3-4倍过训练后),全模型ARO的效果优于仅优化隐藏层的混合模式 [15][17][22] 衍生影响与未来方向 - 对称性关系揭示了跨层、跨模块参数之间的耦合约束,为经济地利用跨层相关性提供了新途径,例如将受同一段残差流支配的矩阵绑定同一个旋转 [24] - 初步小规模实验表明,这种跨层绑定旋转的设计(如链式耦合)不仅能降低计算开销,还能进一步优化性能,在NanoGPT和NanoChat模型上取得了更低的损失值 [24][25] - ARO的研究方向预示着矩阵优化可能走向“全模型耦合优化”,未来优化器的设计或许需要与模型架构本身更紧密地结合 [27]
不读博士,照样进OpenAI!o1核心成员现身说法了
量子位· 2026-01-25 11:34
文章核心观点 - 前沿AI研究机构(如OpenAI、DeepMind、Anthropic)招聘研究员时,博士学位并非必需,更看重候选人的主动性、公开研究实践、工程能力以及实际成果[1][5][75][79] - 通过主动联系研究者、在公开平台(如GitHub、推特)持续展示研究过程与成果、产出有影响力的工作(如博客、优化器、顶会最佳论文),是非典型背景人才进入顶尖AI实验室的有效路径[6][19][26][27][70] - 相比攻读博士学位,尽早进入工业界从事AI研究可能更具优势,因为能更快接触真实世界的问题与系统,且当前许多AI实验室亟需工程能力极强的人才[83][85][86] 非典型研究员进入顶尖AI实验室的路径与特质 - **路径一:主动“套瓷”与公开研究** - Keller Jordan(本科学历,无论文)通过主动联系谷歌研究员Behnam Neyshabur,对其论文提出改进想法,最终合作完成入选ICLR 2023的论文[12][15][17] - 他通过撰写关于Muon优化器的博客和持续更新NanoGPT speedrun实验,在GitHub和推特公开研究,吸引了Andrej Karpathy的关注,最终加入OpenAI[20][22][24][26] - **路径二:业余时间高强度投入与社区互动** - Sholto Douglas(本科学历)在麦肯锡工作期间,每晚10点至凌晨2点及周末每天至少6-8小时进行AI研究,通过在GitHub提问和展示项目,吸引了谷歌研究员James Bradbury的注意,获得面试并加入Google DeepMind[34][36][38][39][40] - **路径三:独立研究并自费推动成果** - Andy Jones(数学硕士,前量化分析师)自费租赁算力、自费发表论文,其关于测试时计算扩展的研究在成为热门概念前就已开展,该工作直接推动了如o1等模型的范式,并助其加入Anthropic[45][46][48][50][58] - **路径四:以突出论文成果直接获得青睐** - Kevin Wang(本科生)凭借在NeurIPS 2025的5290篇论文中极为突出的研究,即获得最佳论文奖的《1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities》,在导师强力推荐下,本科毕业后直接加入OpenAI[66][69][70][71][72] 顶尖AI实验室的招聘趋势与人才观 - **招聘标准多元化**:OpenAI、DeepMind、Anthropic等实验室招聘时,不唯学历论文,更看重实际能力、热情和已证明的成果[5][6][87] - **工程能力需求迫切**:许多AI实验室真正短缺的是工程能力极强的人才,能否加入及从事的工作取决于实验室当前需求与个人能力的匹配度[86][87] - **行业实践优于学术训练**:有观点认为,相比攻读博士学位,尽早进入工业界更好,因为博士研究可能面对“玩具基准”且研究范式迭代迅速,而工业界能接触真实系统[83][85] - **代表性案例广泛存在**:除上述案例外,GPT论文一作Alec Radford、OpenAI首席研究员Mark Chen均为本科学历;Stability AI的80名研究员和工程师中仅16位拥有PhD;OpenAI核心成员翁家翌也仅有硕士学位[76][77][81][83] 公开研究与个人品牌(PR)的重要性 - **研究可见性关键**:将研究过程与结果持续公开在GitHub、推特等平台,能让工作不被海量论文淹没,更容易被圈内人看见和衡量,从而获得机会[26][27][81] - **影响力不依赖传统论文**:Keller Jordan的Muon优化器仅通过一篇博客和公开实验传播,现已被OpenAI、Kimi、DeepSeek等公司使用,证明了公开实践的影响力[20][81] - **社区互动带来机遇**:在GitHub上提问、发帖等互动行为,能吸引资深研究者的注意,从而获得指导或面试邀请[4][38][39]