Workflow
流形约束超连接
icon
搜索文档
DeepSeek最新论文解读:mHC如何用更少的钱训练出更强的模型?——投资笔记第243期
36氪· 2026-01-26 15:38
文章核心观点 - DeepSeek发布关于mHC(流形约束超连接)的论文,其核心创新并非关注模型参数规模、数据量或算力,而是解决大模型中信息如何在超深网络里稳定流动这一更基础、更底层的问题 [2] 残差连接的历史意义与局限性 - 残差连接由何恺明团队于2015年提出,其核心公式为 x_{l+1} = x_l + F(x_l),通过引入恒等映射的“快车道”,解决了梯度消失问题,使可训练网络深度从几十层跃升至数百、上千层 [3][4] - 在残差连接出现前,神经网络的深度长期被限制在20~30层以内,经典模型如AlexNet仅有8层深度 [3] - 残差连接已成为几乎所有主流大模型(如GPT、LLaMA、Gemini)的默认配置 [4] - 残差连接的主要局限在于其是固定权重、单一路径的“信息直通车”,一次传递的信息量少,难以支撑大模型对复杂、多源信息的高效建模需求 [6] 超连接的概念与问题 - 超连接的概念由Seed团队于2024年9月首次提出,旨在改变传统残差结构的信息传递方式 [7] - 超连接将信息传递从“单人接力赛”变为“多人接力同时跑”,允许同一层信息分流到多条并行通道向前传递,且每条通道的权重由模型在训练中动态学习分配 [7] - 超连接赋予了模型“动态调度信息”的更大自由度,但缺乏约束导致系统训练不稳定,表现为损失函数难以收敛、长期处于高波动状态,且梯度波动频繁并出现明显尖峰,牺牲了信息保真度和训练稳定性 [7][9] mHC的技术原理与优势 - mHC全称为“流形约束超连接”,其核心创新是为超连接加上“双随机矩阵”作为安全护栏 [11] - 双随机矩阵的每个元素非负,且每行、每列的总和严格固定为同一值,其作用是将已有信息按比例重新分配,而非放大或制造新能量,从而从数学结构上切断了信号爆炸的可能性 [11] - 该约束同时避免了信号微弱或消失,确保信息在网络中的流动始终处于守恒区间内,既不会被无限放大也不会被慢慢耗散 [13] - mHC的唯一代价是增加了6.7%的训练时间,主要因扩展残差流宽度所致,但这一成本与性能提升相比微不足道 [13] mHC的应用潜力与影响 - mHC在稳定性与效率间找到新平衡,通过减少训练失败重试次数,能大幅缩短产品迭代周期,并降低约30%的算力成本 [14] - mHC为大模型向千亿甚至万亿参数规模发展提供了支撑,通过“约束+高效”的框架,显著降低了大规模训练的不确定性和算力浪费 [16] - 该技术证明了“有约束的自由”比“完全自由”更有价值,可能推动AI架构设计从“经验驱动”转向“理论驱动” [16]
传DeepSeek曝新模型,梁文锋再放“王炸”?
新浪财经· 2026-01-21 15:55
下一代模型发布预期与线索 - 在R1发布一周年之际,DeepSeek的代码库更新中意外曝光了一个名为“Model1”的新模型,该模型拥有与DeepSeek-V3.2并列的独立文件,可能意味着其未沿用V3系列架构,是一条全新的技术路径[1][6] - 业界推测公司可能在今年春节复刻去年发布R1的“核爆”式发布,主要线索包括:外媒报道称DeepSeek预计将于2月中旬推出下一代人工智能模型V4[3][8],以及2025年底至2026年初公司发表了两篇关键论文为下一代模型扫清技术障碍[5][10] - 根据The Information报道,有DeepSeek员工的内部测试表明,V4在编码任务方面可以胜过Anthropic的Claude和OpenAI的GPT系列等竞争对手[4][9] 近期模型迭代与性能提升 - 自2025年3月以来,公司以“小步快跑”方式持续迭代V3模型,重点优化复杂推理、编程能力和工具调用[3][8] - 2025年3月25日,DeepSeek V3升级为V3-0324,生成的代码可用性更高,中文写作升级,在数学、代码能力上超过GPT-4.5[4][9] - 2025年5月29日,DeepSeek-R1完成小版本升级,更新后的模型在数学、编程与通用逻辑上已接近o3与Gemini-2.5-Pro,幻觉率降低了45~50%左右[4][9] - 2025年8月21日发布DeepSeek-V3.1,相比R1能在更短时间内给出答案,有更强的Agent能力,API接口调用价格为输入0.5元/百万tokens(缓存命中)、4元/百万tokens(缓存未命中),输出12元/百万tokens[4][9] - 2025年9月29日发布DeepSeek-V3.2-Exp,引入了DeepSeek Sparse Attention(一种稀疏注意力机制),API接口调用价格降至输入0.2元/百万tokens(缓存命中)、2元/百万tokens(缓存未命中),输出3元/百万tokens[4][9] - 2025年12月1日发布DeepSeek-V3.2正式版,其推理能力达到了GPT-5的水平,仅略低于Gemini-3.0-Pro,并将思考融入工具使用的模型,同时支持思考与非思考模式的工具调用[4][9] 下一代模型的关键技术突破 - 公司于2025年12月底至2026年1月发表了两篇有梁文锋署名的论文,旨在解决大模型基础架构中训练稳定性与知识检索效率两大瓶颈[5][10] - 论文《mHC: Manifold-Constrained Hyper-Connections》提出了“流形约束超连接”(mHC)框架,通过数学上的流形投影将残差连接空间约束在特定流形上,在保留强大表达能力的同时强制恢复网络的恒等映射特性,从根源上保障训练稳定性[5][10] - 与北大合作的论文《Conditional Memory via Scalable Lookup》提出了“条件记忆”模块(Engram),将高频静态知识以嵌入表形式注入Transformer层,通过解耦知识存储与神经计算,证明用基于哈希的查找表替代约20%的混合专家(MoE)参数,可显著提升推理与知识任务性能[5][11]
美股科技行业周报:CES2026将召开,建议关注端侧AI、PhysicalAI等方向-20260104
国联民生证券· 2026-01-04 20:02
报告行业投资评级 * 报告未明确给出对美股科技行业的整体投资评级 [1][6][24] 报告核心观点 * 报告核心观点围绕CES 2026展会前瞻与近期重要AI技术进展展开,认为应重点关注AI在消费端的落地场景,并看好由此带来的算力基础设施需求 [6][24] * 对于CES 2026,建议关注端侧AI、Physical AI等方向,具体包括AI PC、具身智能、自动驾驶与智能座舱、XR等领域的进展 [1][6][24] * 在技术层面,Google DeepMind的Veo 3视频模型正演变为通用的视觉基础模型和物理世界模拟器,具备零样本解决复杂视觉任务的能力,将提升具身智能与高阶自动驾驶的认知能力 [5][6][14][15][24] * DeepSeek提出的mHC架构旨在解决大模型扩大规模时增强表达能力与训练稳定性之间的矛盾,为训练更大规模模型铺平道路,意味着Scaling Law或将持续,模型参数继续增长将为算力基础设施提供更高确定性 [5][6][18][19][24] * 基于以上,投资建议重点布局算力硬件上游,以及能率先将多模态推理能力落地于实体场景的平台型公司,报告列举了建议关注的标的包括英伟达、特斯拉、LITE、AVGO、GOOG等 [6][24] CES 2026前瞻总结 * **芯片**:重点关注头部公司新芯片产品推出 [2][11] * AMD:或在主题演讲上推出锐龙系列芯片新版本,包括锐龙7 9850X3D及基于Zen 5架构的锐龙9000G系列 [2][11] * 英特尔:将推出基于2纳米18A工艺打造的酷睿Ultra 3系列Panther Lake芯片,面向高端笔记本市场,其处理性能较前代提升**50%**,内置Arc显卡性能也较上一代提高**50%** [2][11] * 高通:聚焦笔记本电脑领域,预计展示搭载Snapdragon X2 Elite芯片的终端设备,推出拥有**18个**CPU核心的旗舰型号X2 Elite Extreme [2][11] * **自动驾驶**:重点关注L3自动驾驶和车内AI座舱 [3][12] * Sony Honda Mobility:将公布AFEELA 1的最新进展并展示全新概念车型,AFEELA 1计划**2026年**向加利福尼亚州客户交付 [3][12] * BMW:将展示全新纯电iX3车型,搭载全景式iDrive系统及整合了Alexa+技术的全新AI智能个人助理 [3][12] * Mercedes-Benz:展示全新纯电CLA,展示搭载英伟达AI全栈自动驾驶软件与加速计算平台的新一代MB.DRIVE技术 [3][12] * **具身智能**:重点关注国内外头部厂商新产品/技术进展 [4][13] * 英伟达:展示重心或将转向Physical AI,包括机器人技术与大规模仿真的交叉融合,市场预计其Isaac机器人平台和Omniverse仿真引擎将迎来重大更新 [4][13] * 其他厂商:智元或将展示全系列产品线及发布灵巧手新版本;宇树或将带来人形机器人最新交互演示;加速进化或展示Booster T1、Booster K1等核心产品;波士顿动力的人形机器人Atlas或将进行首次公开演示;LG电子将首发家用机器人LG CLOiD;银河通用、云深处、傅利叶、众擎、松延动力等或将参展 [4][13] * **XR**:重点关注基于Android XR平台的Project Moohan [4][13] * Project Moohan是三星将推出的扩展现实头显设备,专为安卓扩展现实平台打造,该平台由三星、谷歌与高通联合研发,整合Gemini后能处理设备控制指令并解读周围环境,为用户提供情境化辅助 [4][13] 科技行业动态总结 * **Google DeepMind发布视频模型论文** [5][14] * 论文核心论证生成式视频模型(特别是Veo 3)正在演变为通用的视觉基础模型 [5][14] * 经过大规模网络数据训练的视频生成模型已涌现出零样本通用能力,可在无特定任务训练的情况下,仅通过提示词和图像输入解决复杂视觉任务 [5][14] * 视频模型通过生成一系列连续视频帧(Chain-of-Frames,帧链)来进行视觉推理,类比于大语言模型的思维链 [5][14] * Veo 3在**62种**不同任务上展现出四大核心能力:感知、建模、操作和推理 [15] * **DeepSeek发布大模型架构论文** [5][18] * 论文核心目标是解决大模型在扩大规模时“增强表达能力”与“训练稳定性”之间的矛盾 [5][18] * 提出mHC架构升级,旨在让大模型既能拥有“多车道”宽阔信息通路(高表达力),又能像传统ResNet一样稳定训练 [5][18] * 在**270亿**参数规模的MoE模型上验证,mHC在BBH、DROP等推理和语言基准测试中的表现全面超越传统Baseline和普通HC模型,且训练损失和梯度更稳定 [19][21]
DeepSeek又放大招!梁文锋署名新论文引关注
21世纪经济报道· 2026-01-02 19:12
核心观点 - DeepSeek发布名为“流形约束超连接”(mHC)的新AI架构框架,旨在解决传统超连接在大规模训练中的不稳定性问题,提升可扩展性并降低算力与能源需求,其下一代旗舰系统R2预计在2月春节前后问世 [1][14][15] - 公司近期在技术研发、模型发布及学术认可方面动作频繁,展现出强劲的创新势头和行业影响力 [6][21] 技术突破:mHC新架构 - 新提出的mHC框架旨在解决传统超连接(HC)因连接模式多样化而导致的训练不稳定性、受限可扩展性及显著内存访问开销问题 [3][16][19] - mHC通过将HC的残差连接空间投影到特定流形上,以恢复恒等映射特性,并融合基础设施优化以确保运行效率 [3][19] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率?=4时,仅带来**6.7%**的额外时间开销 [3][19] - 实证表明,mHC能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [5][21] 近期重要动态与产品发布 - **2025年12月8日**:创始人梁文锋入选英国《自然》杂志2025年度十大科学人物,其公司发布的低成本R1推理模型被《自然》认为证明美国在AI领域并非遥遥领先 [7][22][23] - **2025年12月1日**:发布两个正式版模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,前者强化Agent能力并已更新至官方各平台,后者以临时API形式开放供社区评测 [8][24] - **2025年11月27日**:推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的训练框架,通过LLM验证器自动审查数学证明 [9][25] - **2025年10月20日**:开源DeepSeek-OCR模型,提出利用视觉模态压缩长文本上下文的新方法,可在单块A100-40G显卡上每天生成超过**20万页**训练数据 [10][26] - **2025年9月29日**:发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算消耗并提升推理效率,同时全面下调API价格,降幅在**50%到75%**不等 [11][12][27][28][29] - **2025年9月17日**:DeepSeek-R1推理模型研究论文登上《自然》期刊封面,该模型使用强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性 [13][30]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
华尔街见闻· 2026-01-01 20:20
核心技术创新:流形约束超连接 (mHC) - DeepSeek公司提出了一种名为流形约束超连接 (mHC) 的新架构,旨在解决传统超连接 (HC) 在大规模模型训练中的不稳定问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了HC在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] 技术背景与挑战 - 传统残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但其信息通道宽度受限于隐藏层维度 [3] - 以超连接 (HC) 为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升 [4] - 然而,HC从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销 [5] - 具体问题包括:1) 数值不稳定性,信号在经过多层传播后数值会“爆炸”或“消失”;2) 系统开销大,通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [9] mHC 核心原理与设计 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [6][7] - 其核心目的是在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题 [8] - 团队将残差映射限制为双拟随机矩阵(即行和与列和均为1的矩阵),该矩阵集构成了Birkhoff多胞形 [14][15] - 选择双拟随机性是因为其具有多项有利于大规模训练的理论属性:范数保持(谱范数有界且不超过1,可缓解梯度爆炸)、复合封闭性(确保跨多层仍保持稳定)、以及几何解释(作为排列矩阵的凸包,起到鲁棒的特征融合作用) [16][17] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性(能量守恒) [8] 高效基础设施优化 - 为抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [8] - 实证表明,在扩展倍率 n=4 的情况下,mHC仅增加了6.7%的训练时间开销 [8] - 具体优化包括:1) 算子融合:重新调整RMSNorm顺序,开发统一算子融合多次扫描和矩阵乘法,在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播,显著减少内存读写量 [23][24][25];2) 重计算:在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算,以减轻内存压力 [25];3) 扩展DualPipe调度算法,改善流水线并行阶段边界处的通信与计算重叠 [27] 实验设置与模型配置 - 研究通过语言模型预训练验证方法有效性,对比了基线模型、HC以及mHC [28] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体,包括3B、9B、27B参数模型以及一个在固定1T Token语料上训练的3B模型 [29] - 主要关注的27B模型,其训练数据集大小与参数量成正比,用于展示系统层面的主要结果 [29] - HC和mHC的扩展率 n 均设置为4 [29] - 详细的模型配置参数见文档id=30的表格,涵盖了从词汇量参数、总参数量、层数、专家数量、维度、注意力头数到训练步数、批次大小、优化器设置等全方位信息 [30] 实验结果:训练稳定性与性能 - 在27B模型的训练中,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [32] - 梯度范数分析证实,mHC表现出明显优于HC的稳定性,保持了与基线模型相当的稳定轮廓 [32] - 在下游基准测试中,mHC带来了全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC [33][34] - 具体而言,在27B模型上,与HC相比,mHC在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [34] - 表4数据显示,在多个基准测试(如BBH、DROP、GSM8K、MATH、MMLU等)上,mHC模型均取得了最佳或接近最佳的成绩 [33] 实验结果:规模扩展性 - 规模扩展实验评估了mHC在不同计算规模和训练Token数量下的有效性 [36] - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模,轨迹表明即使在更高的计算预算下,mHC的性能优势依然稳健地得以保持,仅表现出轻微的衰减 [36] - Token扩展曲线展示了3B模型在训练过程中的性能轨迹,进一步验证了mHC在大规模场景下的有效性 [37] - 总体结论是mHC在大规模训练中表现出卓越的可扩展性,为基础模型的拓扑架构演进指明了方向 [8][37]
DeepSeek,最新发布!
证券时报· 2026-01-01 18:53
DeepSeek发布新论文mHC - 公司发布新论文,提出名为“流形约束超连接”的新架构mHC,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接等研究通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式多样化削弱了恒等映射特性,导致训练不稳定、可扩展性受限及显著内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性 [3] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 作为超连接范式的广义拓展,mHC为未来研究开辟了多个重要方向,包括兼容针对特定学习目标设计的多种流形约束探索,以及对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法 [7] - 公司希望mHC能重新激发学界对宏观架构设计的关注,通过深化对拓扑结构如何影响优化与表征学习的理解,有助于突破现有局限,并可能为下一代基础架构的演进指明新路径 [7] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [8] - DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景 [8] - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [8] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [8] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力 [8] - 在主流推理基准测试上,DeepSeek-V3.2-Speciale的性能表现媲美Gemini-3.0-Pro [8] - 2025年9月29日,公司正式发布DeepSeek-V3.2-Exp模型,作为迈向新一代架构的中间步骤 [9] - V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention,针对长文本的训练和推理效率进行了探索性的优化和验证 [9] - 同时API大幅度降价,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [9] DeepSeek学术成就与国际认可 - 2025年9月17日,在最新一期的国际权威期刊Nature中,DeepSeek-R1推理模型研究论文登上了封面 [9] - 该论文由公司团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果 [9] - 这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可 [9] - Nature在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。” [10]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
新浪财经· 2026-01-01 18:34
公司技术发布 - DeepSeek在新年第一天发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1][26][27] - 该技术通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1][28] - 论文的第一作者有三位,值得注意的是,DeepSeek创始人兼CEO梁文锋也在作者名单中 [3][30] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但其瓶颈在于信息通道的宽度受限于隐藏层维度 [3][30] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题:破坏了恒等映射属性导致训练不稳定和可扩展性受限,并额外增加了显著的内存访问开销 [3][30] - 具体问题包括:连接矩阵自由学习导致信号数值“爆炸”或“消失”的数值不稳定性;以及通道变宽导致显存读写和通信成本成倍增加的“显存墙”问题 [6][33] 核心技术方案 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3][30] - 核心目的是在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题 [4][31] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [7][31] - 选择双拟随机矩阵的原因在于其具有范数保持、复合封闭性和几何解释等有利于大规模训练的理论属性 [12][13][38][41] 效率优化措施 - 为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [7][31] - 在n=4的扩展倍率下,仅增加了6.7%的训练时间开销 [7][34] - 具体的算子融合措施包括:重新调整RMSNorm顺序、采用混合精度策略、开发统一算子融合多次扫描和矩阵乘法、在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播,以及将映射应用与残差合并融合以显著减少内存读写量 [15][43] - 重计算策略包括在前向传播后丢弃mHC算子的中间激活并在反向传播时即时重新计算,并通过推导最优重计算块大小以最小化总内存占用 [16][43][44] - 扩展了DualPipe调度算法以改善流水线并行阶段边界处的通信与计算重叠 [16][44] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、HC以及mHC进行了对比分析 [16][44] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体,覆盖不同的评估体系 [16][44] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [17][44] - 此外,还训练了使用成比例数据的较小3B和9B模型来分析计算扩展性,以及一个在固定1T Token语料库上训练的独立3B模型来专门研究Token规模的影响 [17][44] - 详细的模型配置参数表显示了从3B到27B不同规模模型在词汇量、激活参数量、总参数量、层数、维度、训练步数、训练Token数等方面的具体数据 [18][45] 实验结果:稳定性与性能 - 在27B参数规模的模型上,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [22][49] - 梯度范数分析证实了mHC的稳定性提升,其表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [22][49] - 在下游基准测试中,mHC带来了全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC [23][24][50][51] - 具体而言,在27B模型上,mHC在BBH任务上达到51.0,相比HC的48.9提升了2.1%;在DROP任务上达到53.9,相比HC的51.6提升了2.3% [23][24][50][51] 实验结果:可扩展性 - 规模扩展实验涵盖了从3B、9B到27B参数规模的计算规模扩展曲线,轨迹表明即使在更高的计算预算下,mHC的性能优势依然稳健地得以保持,仅表现出轻微的衰减 [25][52] - Token扩展曲线展示了3B模型在训练过程中的动态变化,验证了mHC在大规模场景下的有效性 [25][52] - 研究结论指出,mHC为基础模型的拓扑架构演进指明了方向 [7][34]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
机器之心· 2026-01-01 16:22
文章核心观点 - DeepSeek公司发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] - 该方法在保留“加宽残差流”带来的性能提升的同时,解决了其导致的训练不稳定和显存消耗过大的问题 [4] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但瓶颈在于信息通道的宽度受限于隐藏层维度 [3] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题 [3] - 问题一:从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性 [3] - 问题二:额外增加了显著的内存访问开销 [3] - 原始的HC中,连接矩阵是自由学习的,没有约束,导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,模型越深越难训练 [6] - 通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [6] mHC方法原理 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3] - 核心前提是将残差映射约束在一个特定的流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力 [8][9] - 具体做法是将残差映射限制为双拟随机矩阵,即具有非负项且行和与列和均为1的矩阵 [10] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [4] - 选择双拟随机性的原因包括:其谱范数有界且不超过1,这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题 [15] - 双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性 [15] - 该集合构成了Birkhoff多胞形,是排列矩阵集的凸包,这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用 [15] - 团队还对输入映射和输出映射施加了非负约束,以防止因正负系数复合导致的信号抵消 [12] - 最终的约束映射通过Sinkhorn-Knopp算子获得,在实验中采用t_max=20次迭代 [16] 高效基础设施设计 - DeepSeek为mHC量身定制了基础设施设计,使其在扩展倍率n=4时在大模型中的训练开销仅增加6.7% [4][17] - 算子融合:重新调整RMSNorm的顺序以提高效率,并采用混合精度策略 [17] - 开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销 [18] - 在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播 [19] - 将输入和输出映射的应用与残差合并融合,显著减少了内存读写量 [20] - 重计算:为了减轻n流设计带来的内存压力,在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算 [21] - 通过推导得出最优重计算块大小,以最小化总内存占用 [22] - DualPipe中的通信重叠:扩展了DualPipe调度算法,以改善流水线并行阶段边界处的通信与计算重叠 [23] - 在专用高优先级计算流上执行MLP层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率 [23] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接以及提出的mHC进行了对比分析 [25] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体 [26] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [26] - 训练了较小的3B和9B模型来分析计算扩展性,并训练了一个独立的3B模型在一个固定的1T Token的语料库上以研究Token规模的影响 [26] - 27B模型的总参数量为27.0B,训练了262B个Token [27] 实验结果:训练稳定性 - 在27B参数规模的模型上,mHC有效缓解了在HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [29] - 梯度范数分析证实了稳定性的提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [29] 实验结果:下游任务性能 - 在8个不同的下游基准测试中,mHC始终优于基线模型,并在大多数基准测试中超越了HC [30] - 与HC相比,mHC进一步增强了模型的推理能力,在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [31] - 具体性能数据对比(27B模型): - BBH:基线43.8, HC 48.9, mHC 51.0 [30] - DROP:基线47.0, HC 51.6, mHC 53.9 [30] - GSM8K:基线46.7, HC 53.2, mHC 53.8 [30] - HellaSwag:基线73.7, HC 74.3, mHC 74.7 [30] - MATH:基线22.0, HC 26.4, mHC 26.0 [30] - MMLU:基线59.0, HC 63.0, mHC 63.4 [30] - PIOA:基线78.5, HC 79.9, mHC 80.5 [30] - TriviaOA:基线54.3, HC 56.3, mHC 57.6 [30] 实验结果:规模扩展性 - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模的规模扩展过程,轨迹表明即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减 [34] - Token扩展曲线展示了3B模型在训练过程中的轨迹,验证了mHC在大规模场景下的有效性 [34]