矩阵优化
搜索文档
正交化之外是什么?微软等提出ARO优化器:训练提速1/3,揭示矩阵优化新「蓝海」
机器之心· 2026-03-10 09:32
文章核心观点 - 微软研究院等机构提出了一种名为ARO(自适应旋转优化)的全新矩阵优化框架,该框架将“梯度旋转”作为第一原则,超越了以Muon为代表的正交化方法,在大语言模型训练中实现了显著且稳定的效率提升 [1][5] - ARO框架不仅统一了现有主流矩阵优化器(如Muon、SOAP、SPlus、Galore),将其视为在特定旋转坐标系下使用Adam的特例,更通过理论分析揭示了其有效性可能源于对大模型架构中固有对称性的利用 [4][5][20] - 通过严格的大规模实验验证,ARO在最高达80亿参数、多倍过训练的场景下,相比基准优化器AdamW实现了约1.3至1.35倍的训练加速,相比正交化方法(如Muon)实现了约1.1至1.15倍的加速,且额外计算开销控制在3%以内 [5][14] - ARO的对称性视角挑战了当前矩阵优化器“分而治之”的设计理念,使其能够统一优化包括嵌入层和输出层在内的全模型参数,并在后期训练中展现出优势,同时为跨层参数耦合优化等新设计提供了思路 [15][17][22][24] 方法论创新:从正交化到自适应旋转优化 (ARO) - 论文将Muon、SOAP等现有矩阵优化方法统一抽象为“在旋转后的坐标系中使用Adam或其变体进行优化”的框架,其共同点是使用梯度内积矩阵的特征向量作为固定的旋转矩阵 [4] - 研究团队提出ARO框架,其核心创新在于将“梯度旋转”本身作为优化目标,动态地寻找一个旋转矩阵R,使得在该旋转下,基座优化器(如Adam)的更新能最大化训练损失的下降速率 [5][7] - ARO的更新规则是主动寻找能让当前优化器发挥更好的旋转角度,其更新方向相比传统特征旋转方法,能带来更优且持续存在的瞬时损失下降率 [7][8] - 该框架具有普适性,在多种基座优化器下均能带来提升,表明梯度旋转是一个关键且独立的设计维度 [12] 实验验证与性能表现 - 为确保结论可靠且可迁移至真实训练场景,论文制定了严格的实验准则,包括采用大批次(最高1400万)、长序列(最高4K)、大模型规模(最高80亿参数)和多倍过训练(最高8倍) [10] - 在小规模验证(1亿至15亿参数)中,ARO的旋转策略相比无旋转和传统特征旋转版本均表现更优,且优于AdamW和正交化方法 [12] - 在规模化实验中,ARO在从3亿至80亿激活参数的稠密和MoE模型上,对AdamW保持稳定的1.3至1.35倍加速,对Muon等正交化方法保持1.1至1.15倍加速,且加速比在更大规模、更长训练周期下未见衰减 [14] - 通过工程优化,ARO在大规模分布式训练中的额外时间开销相比AdamW被控制在3%以内 [5][14] 理论诠释:对称性假设与全模型优化 - 论文提出“对称性假设”,认为现有矩阵优化器的有效性可能源于无意中利用了神经网络损失景观中的参数对称性,例如Transformer中存在的残差流对称性 [19][20] - 从对称性视角看,ARO在理论上等价于非欧几何下的“对称瞬移”算法,即在不改变损失的前提下,将参数移动到对称群轨道中更利于优化的位置 [19] - 理论分析表明,传统对称瞬移(追求最大瞬时速率)和特征旋转(追求最大稳定性)是两个极端,而ARO采取了一种温和的部分提升策略,在收敛效率与鲁棒性之间取得了更好的权衡 [20] - 对称性视角自然地将嵌入层和输出层纳入优化范围,这解释了ARO能够成功应用于全模型参数优化的原因,实验结果也显示,在训练后期(3-4倍过训练后),全模型ARO的效果优于仅优化隐藏层的混合模式 [15][17][22] 衍生影响与未来方向 - 对称性关系揭示了跨层、跨模块参数之间的耦合约束,为经济地利用跨层相关性提供了新途径,例如将受同一段残差流支配的矩阵绑定同一个旋转 [24] - 初步小规模实验表明,这种跨层绑定旋转的设计(如链式耦合)不仅能降低计算开销,还能进一步优化性能,在NanoGPT和NanoChat模型上取得了更低的损失值 [24][25] - ARO的研究方向预示着矩阵优化可能走向“全模型耦合优化”,未来优化器的设计或许需要与模型架构本身更紧密地结合 [27]