为什么BF16的FlashAttention会把训练「炸掉」？清华首次给出机制解释，用极简改动稳住训练

文章核心观点 - 一篇来自清华大学的研究论文揭示了在BF16等低精度训练中，FlashAttention组件并非随机出错，而是在特定条件下会产生系统性的数值偏置，该偏置通过注意力机制中涌现的相似低秩更新方向被持续放大，最终导致权重谱范数和激活失控，引发训练损失突然爆炸[1] - 论文不仅阐明了从数值误差到训练崩溃的完整因果链条，还提出了一种几乎无需修改模型、仅在safe softmax中进行的极小改动，实验证明该修复能显著稳定训练[1] 背景：低精度训练的稳定性挑战 - 大模型训练对显存和吞吐量的需求，使得工业界普遍采用BF16/FP16混合精度，甚至将FFN推至FP8以提升效率，但逼近精度极限时，训练不稳定性问题也愈发突出[3] - FlashAttention作为长上下文训练的关键加速组件，其社区中长期存在一个可复现但难以解释的失败案例：使用FlashAttention + BF16训练GPT-2时，模型初期正常收敛，但在数千个训练步数后损失会突然爆炸[4][10] 问题定位与机制分析 - 研究通过严格复现失败场景，并利用谱范数等指标，将问题根源定位到FlashAttention反向传播中的一个特定中间量 dO，发现低精度下 dO 的数值误差会污染后续梯度，是导致训练崩溃的直接导火索[7] - 关键机制在于，注意力机制中涌现的相似低秩结构会放大误差：不同token和训练步数下，相关的矩阵结构表现出强相似性，可抽象为一个共同的低秩方向 R，当误差系数存在方向性偏置时，误差会沿 R 方向持续累积，而非相互抵消的噪声[9][11] - 偏置的来源被追踪到FlashAttention前向计算中的safe softmax：当注意力分数矩阵 S 的某一行出现多个相同最大值时，P 矩阵中对应位置会产生精确的1，这会将后续 P 与 V 的点积推入危险区间，在BF16精度下，若 V 的某些维度以负数为主，加法舍入会产生系统性负偏置[13][14][18][19] 提出的修复方案 - 论文提出了一个极简修复方案：在safe softmax中动态调整行移位常数，确保 P 矩阵中的最大值严格小于1，从而从根源上切断偏置误差链，该修改在精确算术下不改变注意力结果[22][25] - 实验证明，修复后的FlashAttention能使GPT-2模型在BF16精度下，使用AdamW与Muon两种优化器均能稳定训练至数十万步，且该现象在A100、RTX 4090、Ascend 910B等多种硬件上保持一致[26] 研究启示与价值 - 该研究的重要启示在于，低精度训练中的数值误差不应被简单视为零均值随机噪声，在特定分布和离散事件（如重复最大值）下，舍入误差可能形成系统性偏置[28][31] - 模型结构（如注意力中的相似低秩方向）会放大这种偏置，使其产生“同向叠加”效应，这也解释了为何一些经验性的稳定化技巧（如QK normalization）可能通过打散结构相似性来阻止误差累积[31]