文章核心观点 - DeepSeek在新年第一天发布了一篇关于mHC新架构的论文 该架构旨在解决大规模模型训练中的稳定性问题 同时保持性能提升的优势 论文在AI技术圈引发了讨论[1] - mHC架构通过引入智能调度系统等设计 平衡了性能、稳定性和成本三大核心要素 为大模型架构演进提供了新思路 其务实的技术创新对行业具有重要价值[29] 大模型训练的核心痛点与现有方案局限 - 大模型训练面临信息传输拥堵的挑战 早期单通道残差连接(传送带)在模型规模增大后效率不足[3] - 字节跳动团队此前提出的超连接方案将单通道改为多通道 提升了信息传输效率和模型性能 但缺乏统一调度规则 导致信息在传输中出现不受控的放大或压制[5] - 超连接方案的不稳定性直接导致训练过程中梯度爆炸 使模型训练中途崩溃[7] - 有头部AI企业尝试用类似方案训练千亿级模型时 训练在进行到一万多步时频繁中断 损失值突然飙升 造成大量算力和资金投入的浪费[9] mHC架构的核心设计思路 - mHC架构的核心思路不是废除多通道 而是为多通道增加一套智能调度系统[11] - 该系统通过Sinkhorn-Knopp算法实现 将连接矩阵约束在双拟随机矩阵的流形上 该矩阵行和列之和均为1且为非负数 能保证信息传播时能量守恒 避免突然放大或缩小[13] - 架构还对输入输出映射施加了非负约束 以避免正负系数相互抵消导致有用信号丢失[15] - mHC是在超连接拓宽通道思路基础上的优化 属于改良式创新 更容易落地[15] 基础设施与训练优化 - 为控制训练开销 DeepSeek进行了基础设施优化 将多个计算步骤融合成一个算子 减少了内存读写次数[16] - 同时采用重计算策略 在前向传播时丢弃中间数据 在反向传播时重新计算 从而大幅降低内存占用[18] - 优化效果显著 在扩展倍率为4的情况下 训练时间只略有增加 却换来了稳定性的大幅提升[18] 实验验证与性能表现 - DeepSeek使用不同规模模型进行测试 重点验证了270亿参数模型的表现[21] - mHC彻底解决了超连接的训练不稳定问题 其最终损失值低于传统基线模型[22] - 在下游任务测试中 mHC的表现全面超越基线模型 在推理相关任务上 比超连接方案还有几个百分点的提升[22] - 从30亿到270亿参数的规模扩展实验中 mHC的性能优势保持良好 即使训练数据量不断增加 优势也未明显衰减 证明其在大规模模型上同样具备实用价值[24] 对行业的影响与意义 - mHC的意义在于指明了一个行业方向 即大模型竞争不再仅仅是堆参数和算力 架构的精细化设计同样重要[26] - 此前 许多中小企业因训练不稳定和成本过高而不敢涉足大规模模型领域 mHC的出现有望降低这些企业的入局门槛[26] - 这种务实的技术创新比噱头式突破更有价值 未来随着更多企业跟进和优化 可能催生出更多高效稳定的大模型架构 推动AI技术更容易落地[29]
新年首炸!DeepSeek提出mHC架构破解大模型训练难题