Seek .-DeepSeek最新论文解读：mHC如何用更少的钱训练出更强的模型？——投资笔记第243期

文章核心观点 - DeepSeek发布关于mHC（流形约束超连接）的论文，其核心创新并非关注模型参数规模、数据量或算力，而是解决大模型中信息如何在超深网络里稳定流动这一更基础、更底层的问题 [2] 残差连接的历史意义与局限性 - 残差连接由何恺明团队于2015年提出，其核心公式为 x_{l+1} = x_l + F(x_l)，通过引入恒等映射的“快车道”，解决了梯度消失问题，使可训练网络深度从几十层跃升至数百、上千层 [3][4] - 在残差连接出现前，神经网络的深度长期被限制在20～30层以内，经典模型如AlexNet仅有8层深度 [3] - 残差连接已成为几乎所有主流大模型（如GPT、LLaMA、Gemini）的默认配置 [4] - 残差连接的主要局限在于其是固定权重、单一路径的“信息直通车”，一次传递的信息量少，难以支撑大模型对复杂、多源信息的高效建模需求 [6] 超连接的概念与问题 - 超连接的概念由Seed团队于2024年9月首次提出，旨在改变传统残差结构的信息传递方式 [7] - 超连接将信息传递从“单人接力赛”变为“多人接力同时跑”，允许同一层信息分流到多条并行通道向前传递，且每条通道的权重由模型在训练中动态学习分配 [7] - 超连接赋予了模型“动态调度信息”的更大自由度，但缺乏约束导致系统训练不稳定，表现为损失函数难以收敛、长期处于高波动状态，且梯度波动频繁并出现明显尖峰，牺牲了信息保真度和训练稳定性 [7][9] mHC的技术原理与优势 - mHC全称为“流形约束超连接”，其核心创新是为超连接加上“双随机矩阵”作为安全护栏 [11] - 双随机矩阵的每个元素非负，且每行、每列的总和严格固定为同一值，其作用是将已有信息按比例重新分配，而非放大或制造新能量，从而从数学结构上切断了信号爆炸的可能性 [11] - 该约束同时避免了信号微弱或消失，确保信息在网络中的流动始终处于守恒区间内，既不会被无限放大也不会被慢慢耗散 [13] - mHC的唯一代价是增加了6.7%的训练时间，主要因扩展残差流宽度所致，但这一成本与性能提升相比微不足道 [13] mHC的应用潜力与影响 - mHC在稳定性与效率间找到新平衡，通过减少训练失败重试次数，能大幅缩短产品迭代周期，并降低约30%的算力成本 [14] - mHC为大模型向千亿甚至万亿参数规模发展提供了支撑，通过“约束+高效”的框架，显著降低了大规模训练的不确定性和算力浪费 [16] - 该技术证明了“有约束的自由”比“完全自由”更有价值，可能推动AI架构设计从“经验驱动”转向“理论驱动” [16]