残差连接 - 财报，业绩电话会，研报，新闻 - Reportify

残差连接

搜索文档

DeepSeek最新论文解读：mHC如何用更少的钱训练出更强的模型？——投资笔记第243期

36氪· 2026-01-26 15:38

文章核心观点 - DeepSeek发布关于mHC（流形约束超连接）的论文，其核心创新并非关注模型参数规模、数据量或算力，而是解决大模型中信息如何在超深网络里稳定流动这一更基础、更底层的问题 [2] 残差连接的历史意义与局限性 - 残差连接由何恺明团队于2015年提出，其核心公式为 x_{l+1} = x_l + F(x_l)，通过引入恒等映射的“快车道”，解决了梯度消失问题，使可训练网络深度从几十层跃升至数百、上千层 [3][4] - 在残差连接出现前，神经网络的深度长期被限制在20～30层以内，经典模型如AlexNet仅有8层深度 [3] - 残差连接已成为几乎所有主流大模型（如GPT、LLaMA、Gemini）的默认配置 [4] - 残差连接的主要局限在于其是固定权重、单一路径的“信息直通车”，一次传递的信息量少，难以支撑大模型对复杂、多源信息的高效建模需求 [6] 超连接的概念与问题 - 超连接的概念由Seed团队于2024年9月首次提出，旨在改变传统残差结构的信息传递方式 [7] - 超连接将信息传递从“单人接力赛”变为“多人接力同时跑”，允许同一层信息分流到多条并行通道向前传递，且每条通道的权重由模型在训练中动态学习分配 [7] - 超连接赋予了模型“动态调度信息”的更大自由度，但缺乏约束导致系统训练不稳定，表现为损失函数难以收敛、长期处于高波动状态，且梯度波动频繁并出现明显尖峰，牺牲了信息保真度和训练稳定性 [7][9] mHC的技术原理与优势 - mHC全称为“流形约束超连接”，其核心创新是为超连接加上“双随机矩阵”作为安全护栏 [11] - 双随机矩阵的每个元素非负，且每行、每列的总和严格固定为同一值，其作用是将已有信息按比例重新分配，而非放大或制造新能量，从而从数学结构上切断了信号爆炸的可能性 [11] - 该约束同时避免了信号微弱或消失，确保信息在网络中的流动始终处于守恒区间内，既不会被无限放大也不会被慢慢耗散 [13] - mHC的唯一代价是增加了6.7%的训练时间，主要因扩展残差流宽度所致，但这一成本与性能提升相比微不足道 [13] mHC的应用潜力与影响 - mHC在稳定性与效率间找到新平衡，通过减少训练失败重试次数，能大幅缩短产品迭代周期，并降低约30%的算力成本 [14] - mHC为大模型向千亿甚至万亿参数规模发展提供了支撑，通过“约束+高效”的框架，显著降低了大规模训练的不确定性和算力浪费 [16] - 该技术证明了“有约束的自由”比“完全自由”更有价值，可能推动AI架构设计从“经验驱动”转向“理论驱动” [16]

Seek .(US:SKLTY)

流形约束超连接

Artificial Intelligence

mHC（Manifold - Constrained Hyper - Connections）

流形约束超连接

Artificial Intelligence

mHC（Manifold - Constrained Hyper - Connections）

DeepSeek连发两篇论文背后，原来藏着一场学术接力

36氪· 2026-01-16 09:28

文章核心观点 - 大模型架构创新呈现接力演进模式，DeepSeek近期发布的两篇重要论文（mHC与Conditional Memory）均建立在字节Seed团队前期研究工作的基础上，并进行了关键性改进与规模化工程实现，指明了架构创新的未来方向[1][8] - 公开研究成果与社区协作对技术进步至关重要，DeepSeek与字节Seed的研究接力展示了持续积累与相互启发的价值，在头部厂商日益封闭的背景下尤为可贵[19][20] 残差连接架构的演进 - **ResNet奠定基础**：2015年何恺明等人提出的残差连接解决了深度神经网络训练中的信息失真问题，成为近十年几乎所有主流深度网络架构的默认配置[3] - **字节Seed提出HC范式**：2024年9月，字节Seed团队提出Hyper-Connections，核心创新在于通过扩展残差流宽度和引入可学习的Dynamic Hyper Connections，在不改变单个计算单元FLOPs开销的前提下，显著提升了网络拓扑复杂度，打破了恒等映射残差连接传统[3][4] - **HC的三大核心思路**：为后续研究提供了宽度扩展（Stream Expansion）、多尺度连接的权重化、动态拓扑潜力三个核心思路，但自身在大规模训练中遇到稳定性瓶颈和受限的可扩展性[6] - **DeepSeek推出mHC实现突破**：mHC在继承HC架构优势的同时，通过引入Sinkhorn-Knopp算法施加流形约束，将HC的广义空间投影回特定流形，恢复了残差网络至关重要的恒等映射特性，解决了HC在超大规模训练时的不稳定性[7] - **mHC的工程价值**：提出了更高效的内核优化，使该范式从理论实验走向了万亿级参数规模的工业级应用，在27B模型等大规模训练中表现出卓越的可扩展性[7] 条件存储与知识检索的创新 - **解决核心问题**：Conditional Memory旨在解决标准Transformer缺乏原生知识查找原语的问题，为模型配备一个名为Engram的“小抄本”，通过N-gram哈希查表直接获取常见词组知识，节省算力用于更复杂推理[9] - **字节Seed的先行探索**：在OverEncoding方法中，字节Seed团队发现为模型配备巨大的N-gram词典能带来几乎“白捡”的性能提升，因为海量的嵌入参数稀疏激活，既不显著占用显存也不过多耗费算力，且词典越大性能越好[10] - **DeepSeek的理论升华与工程化**：DeepSeek将N-gram查表机制升华为“条件存储”这一与条件计算（MoE）并列的scaling law新轴线，并提出了“稀疏分配”问题，实验发现将约20%-25%的参数分配给Engram效果优于全押MoE[12][13] - **系统性技术改良**：在架构上将Engram模块注入到模型中间层；在交互机制上引入“上下文感知门控”；在系统优化上通过分词器压缩和提高存储效率，并利用硬件预取技术解决延迟问题，具备了大规模工业落地能力[13] - **性能对比**：在相同参数预算下，DeepSeek的Engram比字节Seed的OverEncoding方法具有更高的缩放效率[14] 其他值得关注的底层技术探索 - **字节Seed的UltraMem架构**：通过分布式多层级联内存结构、Tucker分解检索与隐式参数扩展优化，有效解决了传统MoE架构在推理阶段的高额访存问题，并验证了其优越的Scaling Law扩展特性[19] - **更多前沿范式尝试**：包括系统验证离散扩散技术路线的Seed Diffusion Preview；舍弃文本编码器、直接用原始文本分词作为多分类标签并在视觉任务上效果优于CLIP的SuperClass；以及引入傅里叶原理思想以弥补Transformer在周期性建模方面缺陷的新型神经网络架构FAN[20]

Seek .(US:SKLTY)

大模型架构创新

DeepSeek Conditional Memory

大模型架构创新

DeepSeek Conditional Memory

DeepSeek连发两篇论文背后，原来藏着一场学术接力

机器之心· 2026-01-16 08:42

文章核心观点 - 文章通过分析DeepSeek近期发布的两篇论文，揭示了大模型架构创新的演进路径，并指出DeepSeek与字节Seed团队的研究工作存在显著的“接力”关系，共同推动了技术进步 [2][3] - 这种公开研究成果的接力模式，在头部大模型厂商中已愈发少见，其价值在于促进整个社区的积累与相互启发，共同“上分” [28][32] 残差连接的演进：从ResNet到mHC - **ResNet奠定基础**：2015年何恺明等人提出的残差连接解决了深度神经网络训练中的信息失真问题，成为近十年几乎所有主流深度网络架构的默认配置 [6] - **字节Seed的HC突破**：2024年9月，字节Seed团队提出HC，通过引入宽度动态性和跨层特征聚合，打破了恒等映射残差连接传统，构建了更高维、更灵活的特征流动空间新范式 [8] - **DeepSeek的mHC改进与规模化**：DeepSeek在HC基础上提出mHC，通过引入Sinkhorn-Knopp等技术施加流形约束，恢复了训练稳定性，并进行了内核优化，使该范式能应用于万亿级参数规模的工业级训练，解决了HC在大规模训练中的工程瓶颈 [11][12] - **技术演进脉络清晰**：从2015年ResNet到2024年HC，再到2026年mHC，残差连接的演进是不同机构和研究者持续接力优化的结果 [15] 知识检索的革新：从N-gram到条件存储 - **问题定义**：标准Transformer缺乏原生知识查找能力，即使回答简单事实性问题也需要计算，造成算力浪费 [18] - **字节Seed的OverEncoding探索**：字节Seed团队发现，为模型配备巨大的N-gram词典能带来近乎“白捡”的性能提升，因为海量嵌入参数稀疏激活，对显存和算力消耗很小，且词典越大性能越好 [19] - **DeepSeek的Conditional Memory升华**：DeepSeek将N-gram查表机制升华为“条件存储”这一新的扩展轴线，并与混合专家模型并列，提出了在MoE专家与静态存储模块之间分配参数的“稀疏分配”问题 [21] - **工程实现与效率优势**：DeepSeek在架构上将Engram模块注入模型中间层，引入上下文感知门控，并进行了分词器压缩和硬件预取等系统优化，使其具备大规模工业落地能力，且在相同参数预算下，其缩放效率明显高于字节Seed的OverEncoding方法 [22][23] - **最优参数分配**：实验揭示了一条U型缩放规律，将约20%-25%的参数分配给Engram存储模块效果优于全押MoE [22] 公开研究的价值与启发 - **研究接力具象化价值**：DeepSeek与字节Seed的公开研究接力，展示了头部厂商带动社区共同进步的模式 [28] - **字节Seed的其他前沿探索**：字节Seed团队在多个基础研究领域进行了大胆尝试，包括解决MoE推理高访存问题的UltraMem架构、验证离散扩散路线的Seed Diffusion Preview、优于CLIP的SuperClass方法，以及引入傅里叶思想的新型架构FAN [29][30] - **底层技术推动长期进步**：这些短期内无法直接商业化的底层技术探索，是科技行业持续进步的重要源泉 [31]

大模型架构创新

DeepSeek论文（mHC

Conditional Memory）

大模型架构创新

DeepSeek论文（mHC

Conditional Memory）

刚刚，DeepSeek 扔出大杀器，梁文锋署名！暴力优化 AI 架构

程序员的那些事· 2026-01-01 21:15

核心观点 - DeepSeek在2026年发表重磅论文，提出名为“流形约束超连接”的新架构mHC，该架构通过将矩阵投影到约束流形上优化残差连接空间，能在仅增加约6.7%训练时间开销的情况下，显著提升模型性能，并可能颠覆以ResNet为代表的传统AI架构 [3][4][5][8][12][17][36] 技术创新与架构 - mHC的核心目标是在Hyper-Connections的拓扑设计下恢复身份映射属性，从而在大规模训练中体现实际价值 [25] - 与传统残差连接和HC的根本差异在于：mHC将Hyper-Connections的参数空间约束到特定的流形上，以恢复身份映射结构，在保证稳定性的同时保留表达能力 [25] - 技术上将残差映射约束为双随机矩阵，该矩阵集合构成Birkhoff多面体，具有保L2范性、组合闭包性等严格理论性质，能有效缓解梯度爆炸并在整个模型深度范围内保持稳定性 [26][27][28][29] - 通过Sinkhorn-Knopp算法实现流形投影，在实验中迭代20次作为实用近似 [34][35][60] 性能表现与实验结果 - 在27B参数模型的系统级基准测试中，mHC在绝大多数基准测试中持续超越基线模型并优于HC [22] - 具体性能提升数据：在BBH任务上，mHC得分为51.0，较基线的43.8提升7.2个点，较HC的48.9提升2.1个点；在DROP任务上，mHC得分为53.9，较基线的47.0提升6.9个点，较HC的51.6提升2.3个点 [23][52][54] - 在GSM8K、HellaSwag、MATH、MMLU等多项基准测试上，mHC均表现出优于基线和HC的性能 [23][54] - mHC有效缓解了HC中观察到的训练不稳定性，相比基线最终降低了0.021的损失，梯度范数分析也证实了其稳定性与基线相当 [49] - 在扩展性评估中，mHC在不同模型规模下相比基线保持稳健的性能优势，仅轻微衰减 [55][56] 工程优化与基础设施 - 通过一系列严格的工程优化，成功将mHC部署到大规模模型中，训练开销仅增加约6.7% [36] - 实施了内核融合优化，重新排序计算操作并采用混合精度策略，将多个算子融合为统一计算内核以降低内存带宽瓶颈 [37][38][39] - 针对n路残差结构引入的显著内存开销，采用了重计算技术，通过丢弃中间激活并在反向传播时重新计算来缓解内存压力，并推导了最优的块大小L_r* [43][45] - 在大规模训练中，对DualPipe调度策略进行扩展，实现了流水线阶段边界更高效的通信与计算重叠，将MLP层内核置于独立高优先级计算流，并解耦重计算过程与流水线通信依赖 [46][48] 行业影响与公司动态 - mHC架构的提出被视作对同行的一次“温和降维打击”，展现了公司在数学洞察力与硬件极致优化方面的典型风格 [16][20][21] - 该技术将原本学术圈小众尝试的超连接升级为基础架构的核心设计要素，直击残差流通道宽度这一扩展模型的瓶颈 [14][15][19] - 有观点认为，顶级大语言模型中的ResNet结构或许即将被淘汰 [17] - 内部大规模训练实验进一步验证了mHC在大规模应用中的有效性，公司对此技术信心十足 [22][57] - 该技术被认为有很大可能进入DeepSeek的下一代模型V4 [24]

Artificial Intelligence

流形约束超连接（mHC）架构

Artificial Intelligence

流形约束超连接（mHC）架构

刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章

华尔街见闻· 2026-01-01 20:20

核心技术创新：流形约束超连接 (mHC) - DeepSeek公司提出了一种名为流形约束超连接 (mHC) 的新架构，旨在解决传统超连接 (HC) 在大规模模型训练中的不稳定问题，同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构，并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上，成功解决了HC在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] 技术背景与挑战 - 传统残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性，但其信息通道宽度受限于隐藏层维度 [3] - 以超连接 (HC) 为代表的研究通过扩展残差流宽度和多样化连接模式，拓展了残差连接范式，带来了显著的性能提升 [4] - 然而，HC从根本上破坏了残差连接固有的恒等映射属性，导致了严重的训练不稳定性和受限的可扩展性，并额外增加了显著的内存访问开销 [5] - 具体问题包括：1) 数值不稳定性，信号在经过多层传播后数值会“爆炸”或“消失”；2) 系统开销大，通道变宽意味着显存读写和通信成本成倍增加，即“显存墙”问题 [9] mHC 核心原理与设计 - mHC是一个通用框架，它将HC的残差连接空间投影到一个特定的流形上，以恢复恒等映射属性，同时结合严格的基础设施优化以确保效率 [6][7] - 其核心目的是在保留“加宽残差流”带来的性能提升的同时，解决其导致的训练不稳定和显存消耗过大的问题 [8] - 团队将残差映射限制为双拟随机矩阵（即行和与列和均为1的矩阵），该矩阵集构成了Birkhoff多胞形 [14][15] - 选择双拟随机性是因为其具有多项有利于大规模训练的理论属性：范数保持（谱范数有界且不超过1，可缓解梯度爆炸）、复合封闭性（确保跨多层仍保持稳定）、以及几何解释（作为排列矩阵的凸包，起到鲁棒的特征融合作用） [16][17] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上，这使得信号传播变为特征的“凸组合”，从数学上严格保证了信号范数的稳定性（能量守恒） [8] 高效基础设施优化 - 为抵消加宽通道带来的开销，团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [8] - 实证表明，在扩展倍率 n=4 的情况下，mHC仅增加了6.7%的训练时间开销 [8] - 具体优化包括：1) 算子融合：重新调整RMSNorm顺序，开发统一算子融合多次扫描和矩阵乘法，在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播，显著减少内存读写量 [23][24][25]；2) 重计算：在前向传播后丢弃mHC算子的中间激活，并在反向传播时即时重新计算，以减轻内存压力 [25]；3) 扩展DualPipe调度算法，改善流水线并行阶段边界处的通信与计算重叠 [27] 实验设置与模型配置 - 研究通过语言模型预训练验证方法有效性，对比了基线模型、HC以及mHC [28] - 采用了受DeepSeek-V3启发的MoE架构，训练了四种不同的模型变体，包括3B、9B、27B参数模型以及一个在固定1T Token语料上训练的3B模型 [29] - 主要关注的27B模型，其训练数据集大小与参数量成正比，用于展示系统层面的主要结果 [29] - HC和mHC的扩展率 n 均设置为4 [29] - 详细的模型配置参数见文档id=30的表格，涵盖了从词汇量参数、总参数量、层数、专家数量、维度、注意力头数到训练步数、批次大小、优化器设置等全方位信息 [30] 实验结果：训练稳定性与性能 - 在27B模型的训练中，mHC有效缓解了HC中观察到的训练不稳定问题，与基线模型相比，最终损失降低了0.021 [32] - 梯度范数分析证实，mHC表现出明显优于HC的稳定性，保持了与基线模型相当的稳定轮廓 [32] - 在下游基准测试中，mHC带来了全面的性能提升，一致性地优于基线模型，并在大多数任务上超过了HC [33][34] - 具体而言，在27B模型上，与HC相比，mHC在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [34] - 表4数据显示，在多个基准测试（如BBH、DROP、GSM8K、MATH、MMLU等）上，mHC模型均取得了最佳或接近最佳的成绩 [33] 实验结果：规模扩展性 - 规模扩展实验评估了mHC在不同计算规模和训练Token数量下的有效性 [36] - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模，轨迹表明即使在更高的计算预算下，mHC的性能优势依然稳健地得以保持，仅表现出轻微的衰减 [36] - Token扩展曲线展示了3B模型在训练过程中的性能轨迹，进一步验证了mHC在大规模场景下的有效性 [37] - 总体结论是mHC在大规模训练中表现出卓越的可扩展性，为基础模型的拓扑架构演进指明了方向 [8][37]

流形约束超连接

Artificial Intelligence

mHC（流形约束超连接）

流形约束超连接

Artificial Intelligence

mHC（流形约束超连接）

DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级

新浪财经· 2026-01-01 19:45

核心观点 - DeepSeek团队于2026年发布新论文，对深度学习基础组件“残差连接”进行了重大升级，提出了一种名为“Modified Hyper-Connections (mHC)”的新方法，旨在解决现有扩展方案“Hyper-Connections (HC)”的稳定性问题，同时提升模型性能 [1][27] - 该方法通过将残差映射矩阵约束为“双随机矩阵”，从理论上保证了深度网络训练时的稳定性，并通过一系列工程优化控制了计算开销 [11][36] - 实验证明，在高达270亿参数规模的混合专家模型上，mHC能实现稳定训练，并在多个下游评测任务上超越基线模型和HC方法，性能提升显著 [22][47] 技术背景与问题 - 残差连接自2016年ResNet提出以来，因其“恒等映射”特性成为深度学习架构的基石，并广泛应用于Transformer及GPT、LLaMA等大语言模型 [5][6][31][32] - 近期出现的Hyper-Connections试图通过将残差流宽度从C维扩展到n×C维（引入三个可学习映射矩阵）来提升性能，其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [7][32] - 但HC在扩展到深层网络时存在严重隐患：复合映射不再保持恒等性质，导致训练不稳定 [9][34] - 在270亿参数模型的训练中，HC在约12000步时出现突发损失激增和梯度范数剧烈波动 [9][34] - 研究团队计算发现，HC的复合映射对信号的放大倍数峰值高达3000倍，意味着信号在层间传播可能被剧烈放大或衰减至近乎消失 [10][35] 核心解决方案：双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体上 [11][36] - 双随机矩阵约束带来三个关键理论性质：1) 范数保持（谱范数≤1），防止信号放大和梯度爆炸；2) 组合封闭（多个双随机矩阵相乘仍为双随机矩阵），确保深层网络复合映射的稳定性；3) 几何上可解释为对特征做凸组合，是一种稳健的特征融合机制 [14][15][39][40] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上 [16][41] - 实验证明该方案有效：在270亿模型中，mHC的复合映射信号增益最大值约为1.6，与HC的3000峰值形成三个数量级的差距 [16][41] 工程优化 - 扩展残差流宽度带来额外内存开销：标准残差连接每个token需读取2C、写入C个元素；而HC需读取(5n+1)C + n² + 2n、写入(3n+1)C + n² + 2n个元素，当扩展率n=4时增量可观 [19][44] - 团队使用TileLang框架实现多个融合内核，合并操作以减少内存访问次数 [19][44] - 为Sinkhorn-Knopp算法设计了专门的前向和反向内核，在芯片上重计算中间结果以避免存储开销 [19][44] - 扩展了DualPipe调度策略，通过将MLP层特定内核置于高优先级计算流，实现计算与通信的重叠 [19][44] - 论文给出了最优重计算块大小的优化公式，并选择将其与流水线阶段边界对齐以提升效率 [20][45][47] 实验验证与性能表现 - 实验在30亿、90亿和270亿三个规模的混合专家模型上进行，扩展率n设为4 [22][47] - 在270亿MoE模型上，mHC展现出稳定训练曲线，最终损失相比基线降低0.021，同时保持了与基线相当的梯度范数稳定性 [22][47] - 在下游任务评测中，mHC在BBH推理任务上比HC提升2.1%，在DROP阅读理解任务上提升2.3% [22][47] - 具体评测数据对比（270亿模型）： - **BBH (EM)**: 基线43.8， HC 48.9， mHC 51.0 - **DROP (F1)**: 基线47.0， HC 51.6， mHC 53.9 - **GSM8K (EM)**: 基线46.7， HC 53.2， mHC 53.8 - **HellaSwag (Acc.)**: 基线73.7， HC 74.3， mHC 74.7 - **MATH (EM)**: 基线22.0， HC 26.4， mHC 26.0 - **MMLU (Acc.)**: 基线59.0， HC 63.0， mHC 63.4 - **PIOA (Acc.)**: 基线78.5， HC 79.9， mHC 80.5 - **TriviaOA (EM)**: 基线54.3， HC 56.3， mHC 57.6 [23][48] - mHC在大多数评测任务上表现超过基线和HC [23][48] - 计算缩放曲线显示，mHC的性能优势在更高计算预算下仍能保持，仅出现轻微衰减 [23][48] - 对30亿模型的token缩放曲线分析表明，mHC的优势贯穿整个训练过程 [23][48] - 内部大规模训练实验进一步证实结论，当扩展率n=4时，mHC仅引入6.7%的额外时间开销 [25][50]

Seek .(US:SKLTY)

双随机矩阵

Sinkhorn - Knopp算法

mHC（改进的残差连接技术）

双随机矩阵

Sinkhorn - Knopp算法

mHC（改进的残差连接技术）

刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章

新浪财经· 2026-01-01 18:34

公司技术发布 - DeepSeek在新年第一天发布了一篇新论文，提出了一种名为“流形约束超连接”的新架构，旨在解决传统超连接在大规模模型训练中的不稳定性问题，同时保持其显著的性能增益 [1][26][27] - 该技术通过将传统Transformer的单一残差流扩展为多流并行架构，并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上，成功解决了超连接因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1][28] - 论文的第一作者有三位，值得注意的是，DeepSeek创始人兼CEO梁文锋也在作者名单中 [3][30] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性，但其瓶颈在于信息通道的宽度受限于隐藏层维度 [3][30] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式，拓展了残差连接范式，带来了显著的性能提升，但也带来了两个严重问题：破坏了恒等映射属性导致训练不稳定和可扩展性受限，并额外增加了显著的内存访问开销 [3][30] - 具体问题包括：连接矩阵自由学习导致信号数值“爆炸”或“消失”的数值不稳定性；以及通道变宽导致显存读写和通信成本成倍增加的“显存墙”问题 [6][33] 核心技术方案 - mHC是一个通用框架，它将HC的残差连接空间投影到一个特定的流形上，以恢复恒等映射属性，同时结合严格的基础设施优化以确保效率 [3][30] - 核心目的是在保留“加宽残差流”带来的性能提升的同时，解决其导致的训练不稳定和显存消耗过大的问题 [4][31] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上，这使得信号传播变为特征的“凸组合”，从数学上严格保证了信号范数的稳定性 [7][31] - 选择双拟随机矩阵的原因在于其具有范数保持、复合封闭性和几何解释等有利于大规模训练的理论属性 [12][13][38][41] 效率优化措施 - 为了抵消加宽通道带来的开销，团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [7][31] - 在n=4的扩展倍率下，仅增加了6.7%的训练时间开销 [7][34] - 具体的算子融合措施包括：重新调整RMSNorm顺序、采用混合精度策略、开发统一算子融合多次扫描和矩阵乘法、在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播，以及将映射应用与残差合并融合以显著减少内存读写量 [15][43] - 重计算策略包括在前向传播后丢弃mHC算子的中间激活并在反向传播时即时重新计算，并通过推导最优重计算块大小以最小化总内存占用 [16][43][44] - 扩展了DualPipe调度算法以改善流水线并行阶段边界处的通信与计算重叠 [16][44] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性，并对基线模型、HC以及mHC进行了对比分析 [16][44] - 采用了受DeepSeek-V3启发的MoE架构，训练了四种不同的模型变体，覆盖不同的评估体系 [16][44] - HC和mHC的扩展率n均设置为4，主要关注点是一个27B参数规模的模型 [17][44] - 此外，还训练了使用成比例数据的较小3B和9B模型来分析计算扩展性，以及一个在固定1T Token语料库上训练的独立3B模型来专门研究Token规模的影响 [17][44] - 详细的模型配置参数表显示了从3B到27B不同规模模型在词汇量、激活参数量、总参数量、层数、维度、训练步数、训练Token数等方面的具体数据 [18][45] 实验结果：稳定性与性能 - 在27B参数规模的模型上，mHC有效缓解了HC中观察到的训练不稳定问题，与基线模型相比，最终损失降低了0.021 [22][49] - 梯度范数分析证实了mHC的稳定性提升，其表现出明显优于HC的行为，保持了与基线模型相当的稳定轮廓 [22][49] - 在下游基准测试中，mHC带来了全面的性能提升，一致性地优于基线模型，并在大多数任务上超过了HC [23][24][50][51] - 具体而言，在27B模型上，mHC在BBH任务上达到51.0，相比HC的48.9提升了2.1%；在DROP任务上达到53.9，相比HC的51.6提升了2.3% [23][24][50][51] 实验结果：可扩展性 - 规模扩展实验涵盖了从3B、9B到27B参数规模的计算规模扩展曲线，轨迹表明即使在更高的计算预算下，mHC的性能优势依然稳健地得以保持，仅表现出轻微的衰减 [25][52] - Token扩展曲线展示了3B模型在训练过程中的动态变化，验证了mHC在大规模场景下的有效性 [25][52] - 研究结论指出，mHC为基础模型的拓扑架构演进指明了方向 [7][34]

Seek .(US:SKLTY)

流形约束超连接

Artificial Intelligence

mHC（流形约束超连接）

流形约束超连接

Artificial Intelligence

mHC（流形约束超连接）

DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级

量子位· 2026-01-01 18:32

文章核心观点 - DeepSeek团队发布新论文，对深度学习基础组件“残差连接”进行了重要升级，提出了名为“双随机矩阵约束的混合连接”的新方法，旨在解决现有扩展方案存在的训练不稳定问题，并在保持稳定性的同时提升模型性能 [1][2][17] 技术背景与问题 - 残差连接是自2016年ResNet以来深度学习架构的基石，其核心是“恒等映射”属性，允许信号无损地从浅层传递到深层，这一设计已成为Transformer及GPT、LLaMA等大语言模型的标准配置 [7][8][9][10] - 近期出现的超连接试图通过将残差流宽度从C维扩展到n×C维并引入可学习映射矩阵来提升性能，其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [11][12] - 但超连接在扩展到多层时，复合映射不再保持恒等性质，导致训练不稳定，例如在27B模型训练约12000步时出现突发损失激增和梯度剧烈波动 [14] - 研究团队计算发现，在超连接中，复合映射对信号的放大倍数峰值可达3000倍，这意味着信号在层间传播时可能被过度放大或衰减至近乎消失，这是不稳定的根源 [16] 核心解决方案：双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体流形上，该矩阵要求每行每列之和为1且所有元素非负 [17][18] - 这种约束带来三个关键理论性质：1) 范数保持，谱范数不超过1，防止信号放大和梯度爆炸；2) 组合封闭，多个双随机矩阵相乘结果仍是双随机矩阵，确保深层网络跨层复合映射的稳定性；3) 几何解释，映射相当于对特征做凸组合，是一种稳健的特征融合机制 [18][19] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上，实验数据显示，在27B模型中，新方法的复合映射信号增益最大值约为1.6，与超连接的3000形成了三个数量级的差距，从根本上解决了稳定性问题 [21] 工程优化与性能 - 扩展残差流宽度会带来额外内存开销，例如当扩展率n=4时，超连接的内存读写元素数量显著高于标准残差连接 [24] - 团队为此进行了一系列基础设施优化：使用TileLang框架实现融合内核以减少内存访问次数；为Sinkhorn-Knopp算法设计专门的前向和反向内核，在芯片上重算中间结果以避免存储开销；扩展DualPipe调度策略，通过将MLP层内核置于高优先级计算流来实现计算与通信重叠 [25][26][27] - 论文还给出了重计算策略的优化公式，并将重计算边界与流水线阶段边界对齐，以优化训练效率 [28][29] 实验验证结果 - 实验在3B、9B和27B三个规模的混合专家模型上进行，扩展率n设为4 [30] - 在27B参数的混合专家模型上，新方法展现出稳定的训练曲线，最终损失相比基线降低了0.021，同时保持了与基线相当的梯度范数稳定性 [31] - 在下游任务评测中，新方法在BBH推理任务上比超连接提升2.1%，在DROP阅读理解任务上提升2.3%，在大多数任务上不仅超过基线，也超过了超连接 [31] - 具体数据：在27B模型上，新方法在BBH得分为51.0，超连接为48.9，基线为43.8；在DROP上，新方法为53.9，超连接为51.6，基线为47.0；新方法在其他多个基准测试中也普遍优于或持平于超连接 [32] - 计算缩放曲线显示，新方法的性能优势在更高计算预算下仅出现轻微衰减，且对3B模型的token缩放曲线分析表明其优势贯穿整个训练过程 [32] - 大规模训练实验证实，当扩展率n=4时，新方法仅引入6.7%的额外时间开销 [35]

双随机矩阵

Artificial Intelligence

双随机矩阵

Artificial Intelligence

ICML 2025 | 打破残差连接瓶颈，彩云科技&北邮提出MUDDFormer架构让Transformer再进化！

机器之心· 2025-06-27 16:06

核心观点 - 彩云科技与北京邮电大学联合提出多路动态稠密连接（MUDD）作为残差连接的替代方案，显著提升Transformer跨层信息传递效率 [1][7] - MUDD连接仅增加0.23%参数量和0.4%计算量，使2.8B参数模型性能媲美6.9B（2.4倍）和12B（4.2倍）参数模型 [4] - 该技术已被ICML 2025接收，是继DCFormer后又一底层架构创新 [5] 背景 - 当前Transformer残差连接存在深层隐状态表征坍塌和残差流信息过载两大局限 [7][8] - 表征坍塌导致深层模型边际效应递减，相邻层隐状态高度相似 [8] - 残差流作为多层通信总线易因多路信息共享而超载，妨碍复杂回路形成 [8] 核心架构 - MUDD通过动态搭建跨层连接缓解表征坍塌，并为Q/K/V/R四路信息流定制独立连接 [7][13] - 连接权重由当前隐状态动态生成，实现深度维度的单头注意力机制 [11] - 相比静态连接的DenseFormer，动态连接能根据token上下文自适应调整信息提取 [10][11] 实验评估 - MUDDFormer在所有模型尺寸下均显著领先基线模型，834M性能超越1.89倍计算量的Transformer++ [15] - 深度扩展实验中，MUDDFormer在42层时仍保持收益，797M参数达到2.08倍Transformer++性能 [17] - 2.8B参数MUDDPythia在5-shot任务中准确率追平12B参数Pythia，实现4.2倍计算效率提升 [18][20] 技术优势 - 注意力头激活率平均比传统模型高2.4倍，显著增强Attention机制利用率 [23] - 通过独立动态连接有效缓解信息流干扰和残流过载问题 [7][13] - 模型在上下文学习中展现突出优势，特别适合复杂推理任务 [18][20][25]

Artificial Intelligence

MUDDFormer架构

Artificial Intelligence

MUDDFormer架构