核心观点 - DeepSeek提出的流形超连接通过将传统Transformer的单流残差架构扩展为多流并行架构,并利用Sinkhorn-Knopp算法将混合矩阵约束在双随机流形上,从根本上解决了超连接在大规模训练时因破坏恒等映射属性而导致的信号爆炸和数值不稳定问题[1] - 第三方工程师成功复现了mHC,并在1.7B至2.5B参数规模的测试中,观测到无约束超连接产生了高达10,924倍的信号放大,远超DeepSeek论文中在27B参数下报告的3000倍放大,验证了mHC约束对于大规模模型稳定性的必要性[5][52][54] 技术架构对比:标准残差、超连接与流形超连接 - 标准残差连接:自2016年以来成为Transformer的基石,采用x + F(x)的单信息流设计,通过保持恒等映射来确保梯度流动的稳定性和信号幅度的守恒,但表达能力有限[9][12][13] - 超连接:将单一信息流扩展为n条并行流,并引入三个可学习的、无约束的混合矩阵来路由和组合信息,理论上具有更强的表达能力且计算开销可忽略,但混合矩阵能不受控制地放大信号,导致规模化训练时信号爆炸[14][15][16] - 流形超连接 (mHC):DeepSeek的解决方案,核心是将关键的混合矩阵通过Sinkhorn-Knopp算法投影为双随机矩阵,该矩阵所有条目非负且行和、列和均为1,从而确保混合操作只能对流进行加权平均和路由,而不能放大信号,在保持表达能力的同时强制实施了稳定性[25][26][28] 复现实验的关键发现 - 小规模实验 (10M参数):无约束HC在激进学习率下信号放大达到7倍,验证损失均值为0.884,优于mHC的1.116,但HC的损失方差是mHC的3倍,且Amax值在不同种子间在6.1至7.6倍间摆动,而mHC的Amax稳定在1.00,零方差[24][36] - 大规模实验 (1.7B-2.5B参数):在C4数据集上训练,HC表现出极端的不稳定性,在32层模型上最大Amax达到10,924倍,在48层模型上达到3,721倍,而mHC在所有配置下Amax严格保持为1.0;尽管最终损失值相近,但HC内部积累了巨大的不稳定性风险[54][56][61][63] - 不稳定性起源:分析表明,不稳定性始于第0层的输入混合矩阵,该层直接处理未经层归一化的原始嵌入向量,在HC中容易学习通过放大来进行补偿,而mHC的Sinkhorn约束防止了任何层的漂移[74][75] - 压力测试结果:在3倍正常学习率下,HC的64层模型Amax达到14,765倍并剧烈振荡,而mHC在所有配置和学习率下Amax均保持1.0,展现了其强大的鲁棒性[84][85][86] 规模化定律与风险本质 - 不稳定性随规模指数增长:数据显示,模型参数从10M增至1.7B时,HC的Amax从9.2倍跃升至10,924倍;根据趋势外推,参数达10B时Amax可能升至约50,000倍,达100B时可能接近400,000倍,未发现自我修正迹象[66] - 风险性质是“定时炸弹”:尽管在实验的5000步内,即使信号放大超万倍,HC模型因梯度裁剪等措施并未崩溃,损失也未发散,但这种不断积累的不稳定性在更长时间训练、更高学习率或更大规模下,存在导致训练灾难性失败的临界点[90][91][97] - mHC的根本价值:mHC通过原则性的数学约束(双随机流形)而非技巧,彻底消除了HC固有的信号爆炸故障模式,为构建更庞大、更稳定的Transformer模型提供了可扩展的架构基础[45][48][49][93] 行业影响与工程启示 - 架构演进方向:mHC代表了对Transformer核心组件(残差连接)的一次重要革新,在保持甚至增强表达能力的同时,通过数学保证解决了规模化训练的稳定性瓶颈,可能开启架构设计的新篇章[1][45] - 工程实践建议:对于实现超连接的团队,必须使用Sinkhorn投影来约束混合矩阵;在训练期间应密切监控Amax指标,特别是第0层的输入混合矩阵,作为网络稳定性的早期预警[98][101] - 性能与稳定性权衡:实验表明,mHC的约束在1.7B参数规模下并未带来明显的性能损失,其最终损失与HC和标准残差连接相近,表明该稳定性保证的“代价”极低,在大规模下是必要且划算的[57][59][101]
租了8张H100,他成功复现了DeepSeek的mHC,结果比官方报告更炸裂
机器之心·2026-01-19 16:54