Pre-Norm - 财报，业绩电话会，研报，新闻

Pre-Norm

搜索文档

机器之心· 2026-02-10 19:03

文章核心观点 - 清华大学黄高Leap Lab团队与千问C端团队提出了一种名为SiameseNorm的新型Transformer归一化架构，旨在解决Pre-Norm与Post-Norm之间的固有矛盾 [4] - SiameseNorm通过构建参数共享的孪生双流架构，同时实现了Pre-Norm的训练稳定性和Post-Norm的深度表征潜力，从而打破了稳定与深度之间的零和博弈 [7][18] - 在大规模预训练实验中，该架构在保持高学习率下稳定训练的同时，显著提升了模型性能，特别是在算术推理任务上实现了超过40%的相对提升 [23][24] Transformer归一化范式的困境 - **Pre-Norm的“深度失效”问题**：尽管被GPT-3、LLaMA等主流开源模型采用，但Pre-Norm存在严重的“深度失效”问题，导致模型的有效深度严重受限，深层参数无法有效拓展模型表征能力 [3] - **Post-Norm的训练不稳定性**：Post-Norm虽然拥有更高的表征潜力上限，但其训练不稳定性在现代Transformer预训练范式下是毁灭性的，难以驾驭 [3] - **单主干架构的先天缺陷**：在共享同一条信息主干线的经典设计中，Pre-Norm要求的“无损梯度传导”与Post-Norm要求的“信号尺度规范”在数学上互斥，任何混合尝试都只能是一种妥协，并继承了Post-Norm的不稳定性 [10][14][15] SiameseNorm的破局之道 - **核心设计：孪生双流解耦**：架构构建了两条参数共享的平行通路，Pre-Norm流（Y流）负责保证训练稳定性，Post-Norm流（X流）负责释放模型表征潜力 [7][19][20] - **高效参数共享**：双流路径共享残差块的权重，因此几乎没有带来参数量与计算量的增长 [20] - **灵活的范式兼容**：通过调整LayerNorm的可学习权重，该架构可以退化成现有的Pre-Norm、Post-Norm或Mix-LN范式 [20] 实验性能与优势 - **训练稳定性**：在激进的高学习率（2e-3）下，传统的Post-Norm及HybridNorm架构均出现训练发散，而SiameseNorm成功收敛，且训练损失显著优于Pre-Norm基线，实现了0.41的PPL收益 [23] - **算术推理能力质变**：在1.3B参数模型的预训练实验中，SiameseNorm在算术任务上的准确率达到39.6%，相比Pre-Norm基线的28.1%，相对提升高达40.9% [24] - **全面性能领先**：在HellaSwag、OpenBookQA、PIQA等广泛基准测试中，该模型均取得了最佳成绩，并在高学习率设置下（2e-3，350B tokens）取得了58.70的平均得分，优于Pre-Norm基线的57.17 [23][25] 内在工作机制 - **双流协同**：分析显示，在绝大多数残差块中，两条流均保持了显著的权重占比，网络有效利用了来自双端的隐藏表征进行联合特征提取，未出现单侧退化 [27] - **分工演化**：在最终输出中，Post-Norm流（X流）占据主导地位，表明Pre-Norm流主要充当“训练脚手架”保障初期稳定，而Post-Norm流则在模型步入正轨后发挥决策主导作用 [31][32]