Pre-Norm
搜索文档
清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习
机器之心· 2026-02-10 19:03
文章核心观点 - 清华大学黄高Leap Lab团队与千问C端团队提出了一种名为SiameseNorm的新型Transformer归一化架构,旨在解决Pre-Norm与Post-Norm之间的固有矛盾 [4] - SiameseNorm通过构建参数共享的孪生双流架构,同时实现了Pre-Norm的训练稳定性和Post-Norm的深度表征潜力,从而打破了稳定与深度之间的零和博弈 [7][18] - 在大规模预训练实验中,该架构在保持高学习率下稳定训练的同时,显著提升了模型性能,特别是在算术推理任务上实现了超过40%的相对提升 [23][24] Transformer归一化范式的困境 - **Pre-Norm的“深度失效”问题**:尽管被GPT-3、LLaMA等主流开源模型采用,但Pre-Norm存在严重的“深度失效”问题,导致模型的有效深度严重受限,深层参数无法有效拓展模型表征能力 [3] - **Post-Norm的训练不稳定性**:Post-Norm虽然拥有更高的表征潜力上限,但其训练不稳定性在现代Transformer预训练范式下是毁灭性的,难以驾驭 [3] - **单主干架构的先天缺陷**:在共享同一条信息主干线的经典设计中,Pre-Norm要求的“无损梯度传导”与Post-Norm要求的“信号尺度规范”在数学上互斥,任何混合尝试都只能是一种妥协,并继承了Post-Norm的不稳定性 [10][14][15] SiameseNorm的破局之道 - **核心设计:孪生双流解耦**:架构构建了两条参数共享的平行通路,Pre-Norm流(Y流)负责保证训练稳定性,Post-Norm流(X流)负责释放模型表征潜力 [7][19][20] - **高效参数共享**:双流路径共享残差块的权重,因此几乎没有带来参数量与计算量的增长 [20] - **灵活的范式兼容**:通过调整LayerNorm的可学习权重,该架构可以退化成现有的Pre-Norm、Post-Norm或Mix-LN范式 [20] 实验性能与优势 - **训练稳定性**:在激进的高学习率(2e-3)下,传统的Post-Norm及HybridNorm架构均出现训练发散,而SiameseNorm成功收敛,且训练损失显著优于Pre-Norm基线,实现了0.41的PPL收益 [23] - **算术推理能力质变**:在1.3B参数模型的预训练实验中,SiameseNorm在算术任务上的准确率达到39.6%,相比Pre-Norm基线的28.1%,相对提升高达40.9% [24] - **全面性能领先**:在HellaSwag、OpenBookQA、PIQA等广泛基准测试中,该模型均取得了最佳成绩,并在高学习率设置下(2e-3,350B tokens)取得了58.70的平均得分,优于Pre-Norm基线的57.17 [23][25] 内在工作机制 - **双流协同**:分析显示,在绝大多数残差块中,两条流均保持了显著的权重占比,网络有效利用了来自双端的隐藏表征进行联合特征提取,未出现单侧退化 [27] - **分工演化**:在最终输出中,Post-Norm流(X流)占据主导地位,表明Pre-Norm流主要充当“训练脚手架”保障初期稳定,而Post-Norm流则在模型步入正轨后发挥决策主导作用 [31][32]