Workflow
双随机矩阵
icon
搜索文档
ds新论文
小熊跑的快· 2026-01-04 19:31
文章核心观点 - 字节跳动提出的mHC(Manifold-Constrained Hyper-Connections)技术是一种针对Transformer架构的工程优化方法 该方法通过将单一路径的残差连接扩展为多条可混合信息的并行通道 并施加数学约束以保持信息传递的稳定性 从而在不大幅增加计算开销的前提下 显著提升大模型的训练稳定性和性能表现 使得参数更小的模型能达到甚至超越传统更大参数模型的水平 [1][2][5] 技术背景与问题 - 传统Transformer模型在处理信息时 数据需逐层传递 层数过多会导致信息衰减甚至丢失 影响最终输出质量 [1] - 2015年提出的残差连接技术通过将每层输出与原始输入相加再传递 缓解了信息衰减问题 [1] - 2024年字节提出的Hyper-Connections方法拓宽了残差通路为多条并行通道 但信息每经过一层都需经过一个可学习矩阵处理 层数过多时易导致信号被无限放大 引发损失值飙升 [1] mHC技术原理与创新 - mHC的核心创新是在Hyper-Connections的基础上 为混合信息的矩阵添加了“流形约束” 具体是约束为“双随机矩阵” 即矩阵中每一行元素之和与每一列元素之和都等于1 [1] - 该约束使得信息在四条并行通道之间重新分配时总量保持不变 避免了信息在传递过程中被异常放大或衰减 从而确保了训练稳定性 [1][2] - 该方法仅引入了6.7%的额外训练时间开销 计算量增加不大 [1] - 其本质是在Transformer架构内部进行工程优化 而非颠覆性的路径革新 [5] 性能优势与影响 - mHC技术通过拓宽模型的信息通道并施加算法矩阵约束 使得数据传输更为有序 充分利用了带宽优势 [2] - 实验结果表明 采用mHC技术的27B参数模型 其性能能够超越传统参数规模更大的模型 [2] - 该技术可能与硬件做了适配优化 减少了跨节点数据调用量 从而更好地发挥了单卡计算性能 [3] - 预计未来会出现参数活性低于37B 但结构更“宽”的模型 [4]
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
新浪财经· 2026-01-02 13:27
文章核心观点 - DeepSeek发布论文《mHC: Manifold-Constrained Hyper-Connections》,提出对Transformer架构最基础的残差连接组件进行重要改进,这是该领域十年来的一次根本性创新 [1] - mHC旨在解决其前身技术Hyper-Connections带来的训练不稳定问题,通过引入数学约束(双随机矩阵)为连接权重加上“数学护栏”,在保持性能提升的同时确保训练稳定 [5][10] - 这项创新不仅是算法突破,更展示了DeepSeek将复杂数学方案高效落地到大规模训练系统中的顶尖工程能力,是其核心竞争优势的体现 [15][16] 技术演进背景 - 残差连接由何恺明等人于2015年提出,其核心公式y = x + F(x)解决了深度神经网络的梯度消失问题,使训练成百上千层的网络成为可能,并因此获得CVPR 2016最佳论文奖 [3] - 自2017年Transformer问世以来,残差连接成为几乎所有主流大模型(如GPT、Claude、Llama、DeepSeek)的架构标配 [3] - 2024年9月,字节跳动提出Hyper-Connections,将单一残差流扩展为多流并行架构,实验显示能显著提升模型性能,在MoE模型上实现1.8倍的收敛加速,但带来了训练不稳定的新问题 [5] - 从ResNet到Hyper-Connections再到mHC,这是一场跨越十年的技术接力演进 [5] mHC的技术原理与创新 - mHC的核心创新是将连接权重矩阵约束在“双随机矩阵”的数学空间内,该矩阵所有元素非负,且每行、每列元素之和均为1 [10] - 此约束的数学效果是使输出信号成为输入各分量的“凸组合”(加权平均),确保结果不会超过输入最大值,从而防止信号在多层传播中被无限放大,保证了能量守恒 [10] - 双随机矩阵的谱范数恒小于等于1,这意味着对应的线性变换是“非扩张的”,无论前向还是反向传播,信号都不会被无限放大 [10] - 具体实现采用Sinkhorn-Knopp算法,通过交替进行行归一化和列归一化迭代生成双随机矩阵,论文表明仅需3次迭代即可达到足够精度,且整个过程可微分,支持端到端训练 [11] - 该方案未引入新超参数,也未改变模型表达能力,只是为权重矩阵增加了可证明的安全边界 [12] 实验效果与影响范围 - 实验结果显示,在7B规模的Dense模型训练中,采用mHC的模型全程未出现任何Loss尖峰 [12] - 在MoE模型上,mHC实现了与Hyper-Connections相近的约1.8倍收敛速度提升 [12] - 这是一个“富人的问题”,训练不稳定问题仅在训练超大规模模型(例如270亿参数以上)时才会显现,对DeepSeek等前沿实验室是必须解决的工程难题,普通研究者可能不会遇到 [10] 工程实现与公司能力 - 为了让理论上完美的数学方案落地,DeepSeek未调用现成库,而是直接手写底层CUDA内核代码,利用算子融合技术将复杂计算塞进毫秒级的训练循环中 [16] - 公司采用了激进的“选择性重计算”策略,并在多卡训练中开辟专用计算流来掩盖通信延迟 [16] - 这种将算法灵感稳定、高效地落地到整个算力体系(包括重写内核、内存管理、节点通信)的工程能力,被认为是前沿实验室的标志,也是DeepSeek的最大优势 [16] - 业内评价认为,这篇论文表面是架构论文,实际上是DeepSeek“秀肌肉”的硬核工程论文 [15] 战略意义与发展脉络 - mHC符合DeepSeek近两年的发展主线:在有限资源下,通过架构创新最大化效率,用数学约束解决工程问题,用架构创新突破资源瓶颈 [14] - 根据DeepSeek研究员与Kimi研究员的交流,hyper-connections(mHC的技术根基)被认为是2025年最值得关注的两大架构创新之一,这意味着mHC可能只是公司在这条技术路线上的第一步 [14] - 如果mHC被整合进下一代模型,结合此前的一系列技术和工程创新,可能会催生一个在效率、性能和稳定性上全面升级的新架构 [15] - DeepSeek创始人梁文锋出现在论文的19位作者名单中,显示了公司高层对该技术创新的直接参与和重视 [1]
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
新浪财经· 2026-01-01 19:45
核心观点 - DeepSeek团队于2026年发布新论文,对深度学习基础组件“残差连接”进行了重大升级,提出了一种名为“Modified Hyper-Connections (mHC)”的新方法,旨在解决现有扩展方案“Hyper-Connections (HC)”的稳定性问题,同时提升模型性能 [1][27] - 该方法通过将残差映射矩阵约束为“双随机矩阵”,从理论上保证了深度网络训练时的稳定性,并通过一系列工程优化控制了计算开销 [11][36] - 实验证明,在高达270亿参数规模的混合专家模型上,mHC能实现稳定训练,并在多个下游评测任务上超越基线模型和HC方法,性能提升显著 [22][47] 技术背景与问题 - 残差连接自2016年ResNet提出以来,因其“恒等映射”特性成为深度学习架构的基石,并广泛应用于Transformer及GPT、LLaMA等大语言模型 [5][6][31][32] - 近期出现的Hyper-Connections试图通过将残差流宽度从C维扩展到n×C维(引入三个可学习映射矩阵)来提升性能,其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [7][32] - 但HC在扩展到深层网络时存在严重隐患:复合映射不再保持恒等性质,导致训练不稳定 [9][34] - 在270亿参数模型的训练中,HC在约12000步时出现突发损失激增和梯度范数剧烈波动 [9][34] - 研究团队计算发现,HC的复合映射对信号的放大倍数峰值高达3000倍,意味着信号在层间传播可能被剧烈放大或衰减至近乎消失 [10][35] 核心解决方案:双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体上 [11][36] - 双随机矩阵约束带来三个关键理论性质:1) 范数保持(谱范数≤1),防止信号放大和梯度爆炸;2) 组合封闭(多个双随机矩阵相乘仍为双随机矩阵),确保深层网络复合映射的稳定性;3) 几何上可解释为对特征做凸组合,是一种稳健的特征融合机制 [14][15][39][40] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上 [16][41] - 实验证明该方案有效:在270亿模型中,mHC的复合映射信号增益最大值约为1.6,与HC的3000峰值形成三个数量级的差距 [16][41] 工程优化 - 扩展残差流宽度带来额外内存开销:标准残差连接每个token需读取2C、写入C个元素;而HC需读取(5n+1)C + n² + 2n、写入(3n+1)C + n² + 2n个元素,当扩展率n=4时增量可观 [19][44] - 团队使用TileLang框架实现多个融合内核,合并操作以减少内存访问次数 [19][44] - 为Sinkhorn-Knopp算法设计了专门的前向和反向内核,在芯片上重计算中间结果以避免存储开销 [19][44] - 扩展了DualPipe调度策略,通过将MLP层特定内核置于高优先级计算流,实现计算与通信的重叠 [19][44] - 论文给出了最优重计算块大小的优化公式,并选择将其与流水线阶段边界对齐以提升效率 [20][45][47] 实验验证与性能表现 - 实验在30亿、90亿和270亿三个规模的混合专家模型上进行,扩展率n设为4 [22][47] - 在270亿MoE模型上,mHC展现出稳定训练曲线,最终损失相比基线降低0.021,同时保持了与基线相当的梯度范数稳定性 [22][47] - 在下游任务评测中,mHC在BBH推理任务上比HC提升2.1%,在DROP阅读理解任务上提升2.3% [22][47] - 具体评测数据对比(270亿模型): - **BBH (EM)**: 基线43.8, HC 48.9, mHC 51.0 - **DROP (F1)**: 基线47.0, HC 51.6, mHC 53.9 - **GSM8K (EM)**: 基线46.7, HC 53.2, mHC 53.8 - **HellaSwag (Acc.)**: 基线73.7, HC 74.3, mHC 74.7 - **MATH (EM)**: 基线22.0, HC 26.4, mHC 26.0 - **MMLU (Acc.)**: 基线59.0, HC 63.0, mHC 63.4 - **PIOA (Acc.)**: 基线78.5, HC 79.9, mHC 80.5 - **TriviaOA (EM)**: 基线54.3, HC 56.3, mHC 57.6 [23][48] - mHC在大多数评测任务上表现超过基线和HC [23][48] - 计算缩放曲线显示,mHC的性能优势在更高计算预算下仍能保持,仅出现轻微衰减 [23][48] - 对30亿模型的token缩放曲线分析表明,mHC的优势贯穿整个训练过程 [23][48] - 内部大规模训练实验进一步证实结论,当扩展率n=4时,mHC仅引入6.7%的额外时间开销 [25][50]
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
量子位· 2026-01-01 18:32
文章核心观点 - DeepSeek团队发布新论文,对深度学习基础组件“残差连接”进行了重要升级,提出了名为“双随机矩阵约束的混合连接”的新方法,旨在解决现有扩展方案存在的训练不稳定问题,并在保持稳定性的同时提升模型性能 [1][2][17] 技术背景与问题 - 残差连接是自2016年ResNet以来深度学习架构的基石,其核心是“恒等映射”属性,允许信号无损地从浅层传递到深层,这一设计已成为Transformer及GPT、LLaMA等大语言模型的标准配置 [7][8][9][10] - 近期出现的超连接试图通过将残差流宽度从C维扩展到n×C维并引入可学习映射矩阵来提升性能,其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [11][12] - 但超连接在扩展到多层时,复合映射不再保持恒等性质,导致训练不稳定,例如在27B模型训练约12000步时出现突发损失激增和梯度剧烈波动 [14] - 研究团队计算发现,在超连接中,复合映射对信号的放大倍数峰值可达3000倍,这意味着信号在层间传播时可能被过度放大或衰减至近乎消失,这是不稳定的根源 [16] 核心解决方案:双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体流形上,该矩阵要求每行每列之和为1且所有元素非负 [17][18] - 这种约束带来三个关键理论性质:1) 范数保持,谱范数不超过1,防止信号放大和梯度爆炸;2) 组合封闭,多个双随机矩阵相乘结果仍是双随机矩阵,确保深层网络跨层复合映射的稳定性;3) 几何解释,映射相当于对特征做凸组合,是一种稳健的特征融合机制 [18][19] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上,实验数据显示,在27B模型中,新方法的复合映射信号增益最大值约为1.6,与超连接的3000形成了三个数量级的差距,从根本上解决了稳定性问题 [21] 工程优化与性能 - 扩展残差流宽度会带来额外内存开销,例如当扩展率n=4时,超连接的内存读写元素数量显著高于标准残差连接 [24] - 团队为此进行了一系列基础设施优化:使用TileLang框架实现融合内核以减少内存访问次数;为Sinkhorn-Knopp算法设计专门的前向和反向内核,在芯片上重算中间结果以避免存储开销;扩展DualPipe调度策略,通过将MLP层内核置于高优先级计算流来实现计算与通信重叠 [25][26][27] - 论文还给出了重计算策略的优化公式,并将重计算边界与流水线阶段边界对齐,以优化训练效率 [28][29] 实验验证结果 - 实验在3B、9B和27B三个规模的混合专家模型上进行,扩展率n设为4 [30] - 在27B参数的混合专家模型上,新方法展现出稳定的训练曲线,最终损失相比基线降低了0.021,同时保持了与基线相当的梯度范数稳定性 [31] - 在下游任务评测中,新方法在BBH推理任务上比超连接提升2.1%,在DROP阅读理解任务上提升2.3%,在大多数任务上不仅超过基线,也超过了超连接 [31] - 具体数据:在27B模型上,新方法在BBH得分为51.0,超连接为48.9,基线为43.8;在DROP上,新方法为53.9,超连接为51.6,基线为47.0;新方法在其他多个基准测试中也普遍优于或持平于超连接 [32] - 计算缩放曲线显示,新方法的性能优势在更高计算预算下仅出现轻微衰减,且对3B模型的token缩放曲线分析表明其优势贯穿整个训练过程 [32] - 大规模训练实验证实,当扩展率n=4时,新方法仅引入6.7%的额外时间开销 [35]