Workflow
超连接
icon
搜索文档
DeepSeek最新论文解读:mHC如何用更少的钱训练出更强的模型?——投资笔记第243期
36氪· 2026-01-26 15:38
文章核心观点 - DeepSeek发布关于mHC(流形约束超连接)的论文,其核心创新并非关注模型参数规模、数据量或算力,而是解决大模型中信息如何在超深网络里稳定流动这一更基础、更底层的问题 [2] 残差连接的历史意义与局限性 - 残差连接由何恺明团队于2015年提出,其核心公式为 x_{l+1} = x_l + F(x_l),通过引入恒等映射的“快车道”,解决了梯度消失问题,使可训练网络深度从几十层跃升至数百、上千层 [3][4] - 在残差连接出现前,神经网络的深度长期被限制在20~30层以内,经典模型如AlexNet仅有8层深度 [3] - 残差连接已成为几乎所有主流大模型(如GPT、LLaMA、Gemini)的默认配置 [4] - 残差连接的主要局限在于其是固定权重、单一路径的“信息直通车”,一次传递的信息量少,难以支撑大模型对复杂、多源信息的高效建模需求 [6] 超连接的概念与问题 - 超连接的概念由Seed团队于2024年9月首次提出,旨在改变传统残差结构的信息传递方式 [7] - 超连接将信息传递从“单人接力赛”变为“多人接力同时跑”,允许同一层信息分流到多条并行通道向前传递,且每条通道的权重由模型在训练中动态学习分配 [7] - 超连接赋予了模型“动态调度信息”的更大自由度,但缺乏约束导致系统训练不稳定,表现为损失函数难以收敛、长期处于高波动状态,且梯度波动频繁并出现明显尖峰,牺牲了信息保真度和训练稳定性 [7][9] mHC的技术原理与优势 - mHC全称为“流形约束超连接”,其核心创新是为超连接加上“双随机矩阵”作为安全护栏 [11] - 双随机矩阵的每个元素非负,且每行、每列的总和严格固定为同一值,其作用是将已有信息按比例重新分配,而非放大或制造新能量,从而从数学结构上切断了信号爆炸的可能性 [11] - 该约束同时避免了信号微弱或消失,确保信息在网络中的流动始终处于守恒区间内,既不会被无限放大也不会被慢慢耗散 [13] - mHC的唯一代价是增加了6.7%的训练时间,主要因扩展残差流宽度所致,但这一成本与性能提升相比微不足道 [13] mHC的应用潜力与影响 - mHC在稳定性与效率间找到新平衡,通过减少训练失败重试次数,能大幅缩短产品迭代周期,并降低约30%的算力成本 [14] - mHC为大模型向千亿甚至万亿参数规模发展提供了支撑,通过“约束+高效”的框架,显著降低了大规模训练的不确定性和算力浪费 [16] - 该技术证明了“有约束的自由”比“完全自由”更有价值,可能推动AI架构设计从“经验驱动”转向“理论驱动” [16]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
华尔街见闻· 2026-01-01 20:20
核心技术创新:流形约束超连接 (mHC) - DeepSeek公司提出了一种名为流形约束超连接 (mHC) 的新架构,旨在解决传统超连接 (HC) 在大规模模型训练中的不稳定问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了HC在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] 技术背景与挑战 - 传统残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但其信息通道宽度受限于隐藏层维度 [3] - 以超连接 (HC) 为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升 [4] - 然而,HC从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销 [5] - 具体问题包括:1) 数值不稳定性,信号在经过多层传播后数值会“爆炸”或“消失”;2) 系统开销大,通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [9] mHC 核心原理与设计 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [6][7] - 其核心目的是在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题 [8] - 团队将残差映射限制为双拟随机矩阵(即行和与列和均为1的矩阵),该矩阵集构成了Birkhoff多胞形 [14][15] - 选择双拟随机性是因为其具有多项有利于大规模训练的理论属性:范数保持(谱范数有界且不超过1,可缓解梯度爆炸)、复合封闭性(确保跨多层仍保持稳定)、以及几何解释(作为排列矩阵的凸包,起到鲁棒的特征融合作用) [16][17] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性(能量守恒) [8] 高效基础设施优化 - 为抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [8] - 实证表明,在扩展倍率 n=4 的情况下,mHC仅增加了6.7%的训练时间开销 [8] - 具体优化包括:1) 算子融合:重新调整RMSNorm顺序,开发统一算子融合多次扫描和矩阵乘法,在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播,显著减少内存读写量 [23][24][25];2) 重计算:在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算,以减轻内存压力 [25];3) 扩展DualPipe调度算法,改善流水线并行阶段边界处的通信与计算重叠 [27] 实验设置与模型配置 - 研究通过语言模型预训练验证方法有效性,对比了基线模型、HC以及mHC [28] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体,包括3B、9B、27B参数模型以及一个在固定1T Token语料上训练的3B模型 [29] - 主要关注的27B模型,其训练数据集大小与参数量成正比,用于展示系统层面的主要结果 [29] - HC和mHC的扩展率 n 均设置为4 [29] - 详细的模型配置参数见文档id=30的表格,涵盖了从词汇量参数、总参数量、层数、专家数量、维度、注意力头数到训练步数、批次大小、优化器设置等全方位信息 [30] 实验结果:训练稳定性与性能 - 在27B模型的训练中,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [32] - 梯度范数分析证实,mHC表现出明显优于HC的稳定性,保持了与基线模型相当的稳定轮廓 [32] - 在下游基准测试中,mHC带来了全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC [33][34] - 具体而言,在27B模型上,与HC相比,mHC在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [34] - 表4数据显示,在多个基准测试(如BBH、DROP、GSM8K、MATH、MMLU等)上,mHC模型均取得了最佳或接近最佳的成绩 [33] 实验结果:规模扩展性 - 规模扩展实验评估了mHC在不同计算规模和训练Token数量下的有效性 [36] - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模,轨迹表明即使在更高的计算预算下,mHC的性能优势依然稳健地得以保持,仅表现出轻微的衰减 [36] - Token扩展曲线展示了3B模型在训练过程中的性能轨迹,进一步验证了mHC在大规模场景下的有效性 [37] - 总体结论是mHC在大规模训练中表现出卓越的可扩展性,为基础模型的拓扑架构演进指明了方向 [8][37]
DeepSeek,最新发布!
证券时报· 2026-01-01 18:53
DeepSeek发布新论文mHC - 公司发布新论文,提出名为“流形约束超连接”的新架构mHC,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接等研究通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式多样化削弱了恒等映射特性,导致训练不稳定、可扩展性受限及显著内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性 [3] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 作为超连接范式的广义拓展,mHC为未来研究开辟了多个重要方向,包括兼容针对特定学习目标设计的多种流形约束探索,以及对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法 [7] - 公司希望mHC能重新激发学界对宏观架构设计的关注,通过深化对拓扑结构如何影响优化与表征学习的理解,有助于突破现有局限,并可能为下一代基础架构的演进指明新路径 [7] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [8] - DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景 [8] - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [8] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [8] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力 [8] - 在主流推理基准测试上,DeepSeek-V3.2-Speciale的性能表现媲美Gemini-3.0-Pro [8] - 2025年9月29日,公司正式发布DeepSeek-V3.2-Exp模型,作为迈向新一代架构的中间步骤 [9] - V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention,针对长文本的训练和推理效率进行了探索性的优化和验证 [9] - 同时API大幅度降价,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [9] DeepSeek学术成就与国际认可 - 2025年9月17日,在最新一期的国际权威期刊Nature中,DeepSeek-R1推理模型研究论文登上了封面 [9] - 该论文由公司团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果 [9] - 这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可 [9] - Nature在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。” [10]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
新浪财经· 2026-01-01 18:34
公司技术发布 - DeepSeek在新年第一天发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1][26][27] - 该技术通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1][28] - 论文的第一作者有三位,值得注意的是,DeepSeek创始人兼CEO梁文锋也在作者名单中 [3][30] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但其瓶颈在于信息通道的宽度受限于隐藏层维度 [3][30] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题:破坏了恒等映射属性导致训练不稳定和可扩展性受限,并额外增加了显著的内存访问开销 [3][30] - 具体问题包括:连接矩阵自由学习导致信号数值“爆炸”或“消失”的数值不稳定性;以及通道变宽导致显存读写和通信成本成倍增加的“显存墙”问题 [6][33] 核心技术方案 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3][30] - 核心目的是在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题 [4][31] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [7][31] - 选择双拟随机矩阵的原因在于其具有范数保持、复合封闭性和几何解释等有利于大规模训练的理论属性 [12][13][38][41] 效率优化措施 - 为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [7][31] - 在n=4的扩展倍率下,仅增加了6.7%的训练时间开销 [7][34] - 具体的算子融合措施包括:重新调整RMSNorm顺序、采用混合精度策略、开发统一算子融合多次扫描和矩阵乘法、在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播,以及将映射应用与残差合并融合以显著减少内存读写量 [15][43] - 重计算策略包括在前向传播后丢弃mHC算子的中间激活并在反向传播时即时重新计算,并通过推导最优重计算块大小以最小化总内存占用 [16][43][44] - 扩展了DualPipe调度算法以改善流水线并行阶段边界处的通信与计算重叠 [16][44] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、HC以及mHC进行了对比分析 [16][44] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体,覆盖不同的评估体系 [16][44] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [17][44] - 此外,还训练了使用成比例数据的较小3B和9B模型来分析计算扩展性,以及一个在固定1T Token语料库上训练的独立3B模型来专门研究Token规模的影响 [17][44] - 详细的模型配置参数表显示了从3B到27B不同规模模型在词汇量、激活参数量、总参数量、层数、维度、训练步数、训练Token数等方面的具体数据 [18][45] 实验结果:稳定性与性能 - 在27B参数规模的模型上,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [22][49] - 梯度范数分析证实了mHC的稳定性提升,其表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [22][49] - 在下游基准测试中,mHC带来了全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC [23][24][50][51] - 具体而言,在27B模型上,mHC在BBH任务上达到51.0,相比HC的48.9提升了2.1%;在DROP任务上达到53.9,相比HC的51.6提升了2.3% [23][24][50][51] 实验结果:可扩展性 - 规模扩展实验涵盖了从3B、9B到27B参数规模的计算规模扩展曲线,轨迹表明即使在更高的计算预算下,mHC的性能优势依然稳健地得以保持,仅表现出轻微的衰减 [25][52] - Token扩展曲线展示了3B模型在训练过程中的动态变化,验证了mHC在大规模场景下的有效性 [25][52] - 研究结论指出,mHC为基础模型的拓扑架构演进指明了方向 [7][34]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
机器之心· 2026-01-01 16:22
文章核心观点 - DeepSeek公司发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] - 该方法在保留“加宽残差流”带来的性能提升的同时,解决了其导致的训练不稳定和显存消耗过大的问题 [4] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但瓶颈在于信息通道的宽度受限于隐藏层维度 [3] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题 [3] - 问题一:从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性 [3] - 问题二:额外增加了显著的内存访问开销 [3] - 原始的HC中,连接矩阵是自由学习的,没有约束,导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,模型越深越难训练 [6] - 通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [6] mHC方法原理 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3] - 核心前提是将残差映射约束在一个特定的流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力 [8][9] - 具体做法是将残差映射限制为双拟随机矩阵,即具有非负项且行和与列和均为1的矩阵 [10] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [4] - 选择双拟随机性的原因包括:其谱范数有界且不超过1,这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题 [15] - 双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性 [15] - 该集合构成了Birkhoff多胞形,是排列矩阵集的凸包,这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用 [15] - 团队还对输入映射和输出映射施加了非负约束,以防止因正负系数复合导致的信号抵消 [12] - 最终的约束映射通过Sinkhorn-Knopp算子获得,在实验中采用t_max=20次迭代 [16] 高效基础设施设计 - DeepSeek为mHC量身定制了基础设施设计,使其在扩展倍率n=4时在大模型中的训练开销仅增加6.7% [4][17] - 算子融合:重新调整RMSNorm的顺序以提高效率,并采用混合精度策略 [17] - 开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销 [18] - 在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播 [19] - 将输入和输出映射的应用与残差合并融合,显著减少了内存读写量 [20] - 重计算:为了减轻n流设计带来的内存压力,在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算 [21] - 通过推导得出最优重计算块大小,以最小化总内存占用 [22] - DualPipe中的通信重叠:扩展了DualPipe调度算法,以改善流水线并行阶段边界处的通信与计算重叠 [23] - 在专用高优先级计算流上执行MLP层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率 [23] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接以及提出的mHC进行了对比分析 [25] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体 [26] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [26] - 训练了较小的3B和9B模型来分析计算扩展性,并训练了一个独立的3B模型在一个固定的1T Token的语料库上以研究Token规模的影响 [26] - 27B模型的总参数量为27.0B,训练了262B个Token [27] 实验结果:训练稳定性 - 在27B参数规模的模型上,mHC有效缓解了在HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [29] - 梯度范数分析证实了稳定性的提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [29] 实验结果:下游任务性能 - 在8个不同的下游基准测试中,mHC始终优于基线模型,并在大多数基准测试中超越了HC [30] - 与HC相比,mHC进一步增强了模型的推理能力,在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [31] - 具体性能数据对比(27B模型): - BBH:基线43.8, HC 48.9, mHC 51.0 [30] - DROP:基线47.0, HC 51.6, mHC 53.9 [30] - GSM8K:基线46.7, HC 53.2, mHC 53.8 [30] - HellaSwag:基线73.7, HC 74.3, mHC 74.7 [30] - MATH:基线22.0, HC 26.4, mHC 26.0 [30] - MMLU:基线59.0, HC 63.0, mHC 63.4 [30] - PIOA:基线78.5, HC 79.9, mHC 80.5 [30] - TriviaOA:基线54.3, HC 56.3, mHC 57.6 [30] 实验结果:规模扩展性 - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模的规模扩展过程,轨迹表明即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减 [34] - Token扩展曲线展示了3B模型在训练过程中的轨迹,验证了mHC在大规模场景下的有效性 [34]