DeepSeek最新论文解读:mHC如何用更少的钱训练出更强的模型?——投资笔记第243期
Seek .Seek .(US:SKLTY) 36氪·2026-01-26 15:38

文章核心观点 - DeepSeek发布关于mHC(流形约束超连接)的论文,其核心创新并非关注模型参数规模、数据量或算力,而是解决大模型中信息如何在超深网络里稳定流动这一更基础、更底层的问题 [2] 残差连接的历史意义与局限性 - 残差连接由何恺明团队于2015年提出,其核心公式为 x_{l+1} = x_l + F(x_l),通过引入恒等映射的“快车道”,解决了梯度消失问题,使可训练网络深度从几十层跃升至数百、上千层 [3][4] - 在残差连接出现前,神经网络的深度长期被限制在20~30层以内,经典模型如AlexNet仅有8层深度 [3] - 残差连接已成为几乎所有主流大模型(如GPT、LLaMA、Gemini)的默认配置 [4] - 残差连接的主要局限在于其是固定权重、单一路径的“信息直通车”,一次传递的信息量少,难以支撑大模型对复杂、多源信息的高效建模需求 [6] 超连接的概念与问题 - 超连接的概念由Seed团队于2024年9月首次提出,旨在改变传统残差结构的信息传递方式 [7] - 超连接将信息传递从“单人接力赛”变为“多人接力同时跑”,允许同一层信息分流到多条并行通道向前传递,且每条通道的权重由模型在训练中动态学习分配 [7] - 超连接赋予了模型“动态调度信息”的更大自由度,但缺乏约束导致系统训练不稳定,表现为损失函数难以收敛、长期处于高波动状态,且梯度波动频繁并出现明显尖峰,牺牲了信息保真度和训练稳定性 [7][9] mHC的技术原理与优势 - mHC全称为“流形约束超连接”,其核心创新是为超连接加上“双随机矩阵”作为安全护栏 [11] - 双随机矩阵的每个元素非负,且每行、每列的总和严格固定为同一值,其作用是将已有信息按比例重新分配,而非放大或制造新能量,从而从数学结构上切断了信号爆炸的可能性 [11] - 该约束同时避免了信号微弱或消失,确保信息在网络中的流动始终处于守恒区间内,既不会被无限放大也不会被慢慢耗散 [13] - mHC的唯一代价是增加了6.7%的训练时间,主要因扩展残差流宽度所致,但这一成本与性能提升相比微不足道 [13] mHC的应用潜力与影响 - mHC在稳定性与效率间找到新平衡,通过减少训练失败重试次数,能大幅缩短产品迭代周期,并降低约30%的算力成本 [14] - mHC为大模型向千亿甚至万亿参数规模发展提供了支撑,通过“约束+高效”的框架,显著降低了大规模训练的不确定性和算力浪费 [16] - 该技术证明了“有约束的自由”比“完全自由”更有价值,可能推动AI架构设计从“经验驱动”转向“理论驱动” [16]