文章核心观点 - 字节跳动提出的mHC(Manifold-Constrained Hyper-Connections)技术是一种针对Transformer架构的工程优化方法 该方法通过将单一路径的残差连接扩展为多条可混合信息的并行通道 并施加数学约束以保持信息传递的稳定性 从而在不大幅增加计算开销的前提下 显著提升大模型的训练稳定性和性能表现 使得参数更小的模型能达到甚至超越传统更大参数模型的水平 [1][2][5] 技术背景与问题 - 传统Transformer模型在处理信息时 数据需逐层传递 层数过多会导致信息衰减甚至丢失 影响最终输出质量 [1] - 2015年提出的残差连接技术通过将每层输出与原始输入相加再传递 缓解了信息衰减问题 [1] - 2024年字节提出的Hyper-Connections方法拓宽了残差通路为多条并行通道 但信息每经过一层都需经过一个可学习矩阵处理 层数过多时易导致信号被无限放大 引发损失值飙升 [1] mHC技术原理与创新 - mHC的核心创新是在Hyper-Connections的基础上 为混合信息的矩阵添加了“流形约束” 具体是约束为“双随机矩阵” 即矩阵中每一行元素之和与每一列元素之和都等于1 [1] - 该约束使得信息在四条并行通道之间重新分配时总量保持不变 避免了信息在传递过程中被异常放大或衰减 从而确保了训练稳定性 [1][2] - 该方法仅引入了6.7%的额外训练时间开销 计算量增加不大 [1] - 其本质是在Transformer架构内部进行工程优化 而非颠覆性的路径革新 [5] 性能优势与影响 - mHC技术通过拓宽模型的信息通道并施加算法矩阵约束 使得数据传输更为有序 充分利用了带宽优势 [2] - 实验结果表明 采用mHC技术的27B参数模型 其性能能够超越传统参数规模更大的模型 [2] - 该技术可能与硬件做了适配优化 减少了跨节点数据调用量 从而更好地发挥了单卡计算性能 [3] - 预计未来会出现参数活性低于37B 但结构更“宽”的模型 [4]
ds新论文
小熊跑的快·2026-01-04 19:31