Workflow
残差连接
icon
搜索文档
刚刚,DeepSeek 扔出大杀器,梁文锋署名!暴力优化 AI 架构
程序员的那些事· 2026-01-01 21:15
核心观点 - DeepSeek在2026年发表重磅论文,提出名为“流形约束超连接”的新架构mHC,该架构通过将矩阵投影到约束流形上优化残差连接空间,能在仅增加约6.7%训练时间开销的情况下,显著提升模型性能,并可能颠覆以ResNet为代表的传统AI架构 [3][4][5][8][12][17][36] 技术创新与架构 - mHC的核心目标是在Hyper-Connections的拓扑设计下恢复身份映射属性,从而在大规模训练中体现实际价值 [25] - 与传统残差连接和HC的根本差异在于:mHC将Hyper-Connections的参数空间约束到特定的流形上,以恢复身份映射结构,在保证稳定性的同时保留表达能力 [25] - 技术上将残差映射约束为双随机矩阵,该矩阵集合构成Birkhoff多面体,具有保L2范性、组合闭包性等严格理论性质,能有效缓解梯度爆炸并在整个模型深度范围内保持稳定性 [26][27][28][29] - 通过Sinkhorn-Knopp算法实现流形投影,在实验中迭代20次作为实用近似 [34][35][60] 性能表现与实验结果 - 在27B参数模型的系统级基准测试中,mHC在绝大多数基准测试中持续超越基线模型并优于HC [22] - 具体性能提升数据:在BBH任务上,mHC得分为51.0,较基线的43.8提升7.2个点,较HC的48.9提升2.1个点;在DROP任务上,mHC得分为53.9,较基线的47.0提升6.9个点,较HC的51.6提升2.3个点 [23][52][54] - 在GSM8K、HellaSwag、MATH、MMLU等多项基准测试上,mHC均表现出优于基线和HC的性能 [23][54] - mHC有效缓解了HC中观察到的训练不稳定性,相比基线最终降低了0.021的损失,梯度范数分析也证实了其稳定性与基线相当 [49] - 在扩展性评估中,mHC在不同模型规模下相比基线保持稳健的性能优势,仅轻微衰减 [55][56] 工程优化与基础设施 - 通过一系列严格的工程优化,成功将mHC部署到大规模模型中,训练开销仅增加约6.7% [36] - 实施了内核融合优化,重新排序计算操作并采用混合精度策略,将多个算子融合为统一计算内核以降低内存带宽瓶颈 [37][38][39] - 针对n路残差结构引入的显著内存开销,采用了重计算技术,通过丢弃中间激活并在反向传播时重新计算来缓解内存压力,并推导了最优的块大小L_r* [43][45] - 在大规模训练中,对DualPipe调度策略进行扩展,实现了流水线阶段边界更高效的通信与计算重叠,将MLP层内核置于独立高优先级计算流,并解耦重计算过程与流水线通信依赖 [46][48] 行业影响与公司动态 - mHC架构的提出被视作对同行的一次“温和降维打击”,展现了公司在数学洞察力与硬件极致优化方面的典型风格 [16][20][21] - 该技术将原本学术圈小众尝试的超连接升级为基础架构的核心设计要素,直击残差流通道宽度这一扩展模型的瓶颈 [14][15][19] - 有观点认为,顶级大语言模型中的ResNet结构或许即将被淘汰 [17] - 内部大规模训练实验进一步验证了mHC在大规模应用中的有效性,公司对此技术信心十足 [22][57] - 该技术被认为有很大可能进入DeepSeek的下一代模型V4 [24]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
华尔街见闻· 2026-01-01 20:20
核心技术创新:流形约束超连接 (mHC) - DeepSeek公司提出了一种名为流形约束超连接 (mHC) 的新架构,旨在解决传统超连接 (HC) 在大规模模型训练中的不稳定问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了HC在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] 技术背景与挑战 - 传统残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但其信息通道宽度受限于隐藏层维度 [3] - 以超连接 (HC) 为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升 [4] - 然而,HC从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销 [5] - 具体问题包括:1) 数值不稳定性,信号在经过多层传播后数值会“爆炸”或“消失”;2) 系统开销大,通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [9] mHC 核心原理与设计 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [6][7] - 其核心目的是在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题 [8] - 团队将残差映射限制为双拟随机矩阵(即行和与列和均为1的矩阵),该矩阵集构成了Birkhoff多胞形 [14][15] - 选择双拟随机性是因为其具有多项有利于大规模训练的理论属性:范数保持(谱范数有界且不超过1,可缓解梯度爆炸)、复合封闭性(确保跨多层仍保持稳定)、以及几何解释(作为排列矩阵的凸包,起到鲁棒的特征融合作用) [16][17] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性(能量守恒) [8] 高效基础设施优化 - 为抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [8] - 实证表明,在扩展倍率 n=4 的情况下,mHC仅增加了6.7%的训练时间开销 [8] - 具体优化包括:1) 算子融合:重新调整RMSNorm顺序,开发统一算子融合多次扫描和矩阵乘法,在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播,显著减少内存读写量 [23][24][25];2) 重计算:在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算,以减轻内存压力 [25];3) 扩展DualPipe调度算法,改善流水线并行阶段边界处的通信与计算重叠 [27] 实验设置与模型配置 - 研究通过语言模型预训练验证方法有效性,对比了基线模型、HC以及mHC [28] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体,包括3B、9B、27B参数模型以及一个在固定1T Token语料上训练的3B模型 [29] - 主要关注的27B模型,其训练数据集大小与参数量成正比,用于展示系统层面的主要结果 [29] - HC和mHC的扩展率 n 均设置为4 [29] - 详细的模型配置参数见文档id=30的表格,涵盖了从词汇量参数、总参数量、层数、专家数量、维度、注意力头数到训练步数、批次大小、优化器设置等全方位信息 [30] 实验结果:训练稳定性与性能 - 在27B模型的训练中,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [32] - 梯度范数分析证实,mHC表现出明显优于HC的稳定性,保持了与基线模型相当的稳定轮廓 [32] - 在下游基准测试中,mHC带来了全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC [33][34] - 具体而言,在27B模型上,与HC相比,mHC在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [34] - 表4数据显示,在多个基准测试(如BBH、DROP、GSM8K、MATH、MMLU等)上,mHC模型均取得了最佳或接近最佳的成绩 [33] 实验结果:规模扩展性 - 规模扩展实验评估了mHC在不同计算规模和训练Token数量下的有效性 [36] - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模,轨迹表明即使在更高的计算预算下,mHC的性能优势依然稳健地得以保持,仅表现出轻微的衰减 [36] - Token扩展曲线展示了3B模型在训练过程中的性能轨迹,进一步验证了mHC在大规模场景下的有效性 [37] - 总体结论是mHC在大规模训练中表现出卓越的可扩展性,为基础模型的拓扑架构演进指明了方向 [8][37]
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
新浪财经· 2026-01-01 19:45
核心观点 - DeepSeek团队于2026年发布新论文,对深度学习基础组件“残差连接”进行了重大升级,提出了一种名为“Modified Hyper-Connections (mHC)”的新方法,旨在解决现有扩展方案“Hyper-Connections (HC)”的稳定性问题,同时提升模型性能 [1][27] - 该方法通过将残差映射矩阵约束为“双随机矩阵”,从理论上保证了深度网络训练时的稳定性,并通过一系列工程优化控制了计算开销 [11][36] - 实验证明,在高达270亿参数规模的混合专家模型上,mHC能实现稳定训练,并在多个下游评测任务上超越基线模型和HC方法,性能提升显著 [22][47] 技术背景与问题 - 残差连接自2016年ResNet提出以来,因其“恒等映射”特性成为深度学习架构的基石,并广泛应用于Transformer及GPT、LLaMA等大语言模型 [5][6][31][32] - 近期出现的Hyper-Connections试图通过将残差流宽度从C维扩展到n×C维(引入三个可学习映射矩阵)来提升性能,其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [7][32] - 但HC在扩展到深层网络时存在严重隐患:复合映射不再保持恒等性质,导致训练不稳定 [9][34] - 在270亿参数模型的训练中,HC在约12000步时出现突发损失激增和梯度范数剧烈波动 [9][34] - 研究团队计算发现,HC的复合映射对信号的放大倍数峰值高达3000倍,意味着信号在层间传播可能被剧烈放大或衰减至近乎消失 [10][35] 核心解决方案:双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体上 [11][36] - 双随机矩阵约束带来三个关键理论性质:1) 范数保持(谱范数≤1),防止信号放大和梯度爆炸;2) 组合封闭(多个双随机矩阵相乘仍为双随机矩阵),确保深层网络复合映射的稳定性;3) 几何上可解释为对特征做凸组合,是一种稳健的特征融合机制 [14][15][39][40] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上 [16][41] - 实验证明该方案有效:在270亿模型中,mHC的复合映射信号增益最大值约为1.6,与HC的3000峰值形成三个数量级的差距 [16][41] 工程优化 - 扩展残差流宽度带来额外内存开销:标准残差连接每个token需读取2C、写入C个元素;而HC需读取(5n+1)C + n² + 2n、写入(3n+1)C + n² + 2n个元素,当扩展率n=4时增量可观 [19][44] - 团队使用TileLang框架实现多个融合内核,合并操作以减少内存访问次数 [19][44] - 为Sinkhorn-Knopp算法设计了专门的前向和反向内核,在芯片上重计算中间结果以避免存储开销 [19][44] - 扩展了DualPipe调度策略,通过将MLP层特定内核置于高优先级计算流,实现计算与通信的重叠 [19][44] - 论文给出了最优重计算块大小的优化公式,并选择将其与流水线阶段边界对齐以提升效率 [20][45][47] 实验验证与性能表现 - 实验在30亿、90亿和270亿三个规模的混合专家模型上进行,扩展率n设为4 [22][47] - 在270亿MoE模型上,mHC展现出稳定训练曲线,最终损失相比基线降低0.021,同时保持了与基线相当的梯度范数稳定性 [22][47] - 在下游任务评测中,mHC在BBH推理任务上比HC提升2.1%,在DROP阅读理解任务上提升2.3% [22][47] - 具体评测数据对比(270亿模型): - **BBH (EM)**: 基线43.8, HC 48.9, mHC 51.0 - **DROP (F1)**: 基线47.0, HC 51.6, mHC 53.9 - **GSM8K (EM)**: 基线46.7, HC 53.2, mHC 53.8 - **HellaSwag (Acc.)**: 基线73.7, HC 74.3, mHC 74.7 - **MATH (EM)**: 基线22.0, HC 26.4, mHC 26.0 - **MMLU (Acc.)**: 基线59.0, HC 63.0, mHC 63.4 - **PIOA (Acc.)**: 基线78.5, HC 79.9, mHC 80.5 - **TriviaOA (EM)**: 基线54.3, HC 56.3, mHC 57.6 [23][48] - mHC在大多数评测任务上表现超过基线和HC [23][48] - 计算缩放曲线显示,mHC的性能优势在更高计算预算下仍能保持,仅出现轻微衰减 [23][48] - 对30亿模型的token缩放曲线分析表明,mHC的优势贯穿整个训练过程 [23][48] - 内部大规模训练实验进一步证实结论,当扩展率n=4时,mHC仅引入6.7%的额外时间开销 [25][50]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
新浪财经· 2026-01-01 18:34
公司技术发布 - DeepSeek在新年第一天发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1][26][27] - 该技术通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1][28] - 论文的第一作者有三位,值得注意的是,DeepSeek创始人兼CEO梁文锋也在作者名单中 [3][30] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但其瓶颈在于信息通道的宽度受限于隐藏层维度 [3][30] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题:破坏了恒等映射属性导致训练不稳定和可扩展性受限,并额外增加了显著的内存访问开销 [3][30] - 具体问题包括:连接矩阵自由学习导致信号数值“爆炸”或“消失”的数值不稳定性;以及通道变宽导致显存读写和通信成本成倍增加的“显存墙”问题 [6][33] 核心技术方案 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3][30] - 核心目的是在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题 [4][31] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [7][31] - 选择双拟随机矩阵的原因在于其具有范数保持、复合封闭性和几何解释等有利于大规模训练的理论属性 [12][13][38][41] 效率优化措施 - 为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [7][31] - 在n=4的扩展倍率下,仅增加了6.7%的训练时间开销 [7][34] - 具体的算子融合措施包括:重新调整RMSNorm顺序、采用混合精度策略、开发统一算子融合多次扫描和矩阵乘法、在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播,以及将映射应用与残差合并融合以显著减少内存读写量 [15][43] - 重计算策略包括在前向传播后丢弃mHC算子的中间激活并在反向传播时即时重新计算,并通过推导最优重计算块大小以最小化总内存占用 [16][43][44] - 扩展了DualPipe调度算法以改善流水线并行阶段边界处的通信与计算重叠 [16][44] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、HC以及mHC进行了对比分析 [16][44] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体,覆盖不同的评估体系 [16][44] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [17][44] - 此外,还训练了使用成比例数据的较小3B和9B模型来分析计算扩展性,以及一个在固定1T Token语料库上训练的独立3B模型来专门研究Token规模的影响 [17][44] - 详细的模型配置参数表显示了从3B到27B不同规模模型在词汇量、激活参数量、总参数量、层数、维度、训练步数、训练Token数等方面的具体数据 [18][45] 实验结果:稳定性与性能 - 在27B参数规模的模型上,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [22][49] - 梯度范数分析证实了mHC的稳定性提升,其表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [22][49] - 在下游基准测试中,mHC带来了全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC [23][24][50][51] - 具体而言,在27B模型上,mHC在BBH任务上达到51.0,相比HC的48.9提升了2.1%;在DROP任务上达到53.9,相比HC的51.6提升了2.3% [23][24][50][51] 实验结果:可扩展性 - 规模扩展实验涵盖了从3B、9B到27B参数规模的计算规模扩展曲线,轨迹表明即使在更高的计算预算下,mHC的性能优势依然稳健地得以保持,仅表现出轻微的衰减 [25][52] - Token扩展曲线展示了3B模型在训练过程中的动态变化,验证了mHC在大规模场景下的有效性 [25][52] - 研究结论指出,mHC为基础模型的拓扑架构演进指明了方向 [7][34]
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
量子位· 2026-01-01 18:32
文章核心观点 - DeepSeek团队发布新论文,对深度学习基础组件“残差连接”进行了重要升级,提出了名为“双随机矩阵约束的混合连接”的新方法,旨在解决现有扩展方案存在的训练不稳定问题,并在保持稳定性的同时提升模型性能 [1][2][17] 技术背景与问题 - 残差连接是自2016年ResNet以来深度学习架构的基石,其核心是“恒等映射”属性,允许信号无损地从浅层传递到深层,这一设计已成为Transformer及GPT、LLaMA等大语言模型的标准配置 [7][8][9][10] - 近期出现的超连接试图通过将残差流宽度从C维扩展到n×C维并引入可学习映射矩阵来提升性能,其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [11][12] - 但超连接在扩展到多层时,复合映射不再保持恒等性质,导致训练不稳定,例如在27B模型训练约12000步时出现突发损失激增和梯度剧烈波动 [14] - 研究团队计算发现,在超连接中,复合映射对信号的放大倍数峰值可达3000倍,这意味着信号在层间传播时可能被过度放大或衰减至近乎消失,这是不稳定的根源 [16] 核心解决方案:双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体流形上,该矩阵要求每行每列之和为1且所有元素非负 [17][18] - 这种约束带来三个关键理论性质:1) 范数保持,谱范数不超过1,防止信号放大和梯度爆炸;2) 组合封闭,多个双随机矩阵相乘结果仍是双随机矩阵,确保深层网络跨层复合映射的稳定性;3) 几何解释,映射相当于对特征做凸组合,是一种稳健的特征融合机制 [18][19] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上,实验数据显示,在27B模型中,新方法的复合映射信号增益最大值约为1.6,与超连接的3000形成了三个数量级的差距,从根本上解决了稳定性问题 [21] 工程优化与性能 - 扩展残差流宽度会带来额外内存开销,例如当扩展率n=4时,超连接的内存读写元素数量显著高于标准残差连接 [24] - 团队为此进行了一系列基础设施优化:使用TileLang框架实现融合内核以减少内存访问次数;为Sinkhorn-Knopp算法设计专门的前向和反向内核,在芯片上重算中间结果以避免存储开销;扩展DualPipe调度策略,通过将MLP层内核置于高优先级计算流来实现计算与通信重叠 [25][26][27] - 论文还给出了重计算策略的优化公式,并将重计算边界与流水线阶段边界对齐,以优化训练效率 [28][29] 实验验证结果 - 实验在3B、9B和27B三个规模的混合专家模型上进行,扩展率n设为4 [30] - 在27B参数的混合专家模型上,新方法展现出稳定的训练曲线,最终损失相比基线降低了0.021,同时保持了与基线相当的梯度范数稳定性 [31] - 在下游任务评测中,新方法在BBH推理任务上比超连接提升2.1%,在DROP阅读理解任务上提升2.3%,在大多数任务上不仅超过基线,也超过了超连接 [31] - 具体数据:在27B模型上,新方法在BBH得分为51.0,超连接为48.9,基线为43.8;在DROP上,新方法为53.9,超连接为51.6,基线为47.0;新方法在其他多个基准测试中也普遍优于或持平于超连接 [32] - 计算缩放曲线显示,新方法的性能优势在更高计算预算下仅出现轻微衰减,且对3B模型的token缩放曲线分析表明其优势贯穿整个训练过程 [32] - 大规模训练实验证实,当扩展率n=4时,新方法仅引入6.7%的额外时间开销 [35]
ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
机器之心· 2025-06-27 16:06
核心观点 - 彩云科技与北京邮电大学联合提出多路动态稠密连接(MUDD)作为残差连接的替代方案,显著提升Transformer跨层信息传递效率 [1][7] - MUDD连接仅增加0.23%参数量和0.4%计算量,使2.8B参数模型性能媲美6.9B(2.4倍)和12B(4.2倍)参数模型 [4] - 该技术已被ICML 2025接收,是继DCFormer后又一底层架构创新 [5] 背景 - 当前Transformer残差连接存在深层隐状态表征坍塌和残差流信息过载两大局限 [7][8] - 表征坍塌导致深层模型边际效应递减,相邻层隐状态高度相似 [8] - 残差流作为多层通信总线易因多路信息共享而超载,妨碍复杂回路形成 [8] 核心架构 - MUDD通过动态搭建跨层连接缓解表征坍塌,并为Q/K/V/R四路信息流定制独立连接 [7][13] - 连接权重由当前隐状态动态生成,实现深度维度的单头注意力机制 [11] - 相比静态连接的DenseFormer,动态连接能根据token上下文自适应调整信息提取 [10][11] 实验评估 - MUDDFormer在所有模型尺寸下均显著领先基线模型,834M性能超越1.89倍计算量的Transformer++ [15] - 深度扩展实验中,MUDDFormer在42层时仍保持收益,797M参数达到2.08倍Transformer++性能 [17] - 2.8B参数MUDDPythia在5-shot任务中准确率追平12B参数Pythia,实现4.2倍计算效率提升 [18][20] 技术优势 - 注意力头激活率平均比传统模型高2.4倍,显著增强Attention机制利用率 [23] - 通过独立动态连接有效缓解信息流干扰和残流过载问题 [7][13] - 模型在上下文学习中展现突出优势,特别适合复杂推理任务 [18][20][25]