DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单
Seek .Seek .(US:SKLTY) 新浪财经·2026-01-01 20:24

论文核心观点 - DeepSeek公司提出名为“流形约束超连接”的新神经网络架构mHC 旨在解决传统超连接在大规模模型训练中的不稳定性问题 同时保持其显著的性能增益 [1][6] 研究背景与问题 - 传统超连接通过扩展残差流宽度和多样化连接模式扩展了残差连接范式 并带来了显著的性能提升 [6] - 但这种多样化损害了残差连接固有的恒等映射属性 导致严重的训练不稳定性和受限的可扩展性 并产生显著的内存访问开销 [6] 技术方案与创新 - mHC是一个通用框架 可将超连接的残差连接空间投影到特定的流形上 以恢复恒等映射属性 [6] - 该方案结合了严格的基础设施优化以确保效率 [6] 实验效果与意义 - 经验实验表明 mHC对于大规模训练有效 可提供切实的性能改进和卓越的可扩展性 [6] - 预计mHC作为超连接的灵活且实用的扩展 将有助于更深入理解拓扑架构设计 并为大模型的演进提出有希望的方向 [6] 作者与发布信息 - 论文第一作者包括Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao [1] - DeepSeek创始人兼CEO梁文锋也在作者名单之列 [1] - 论文已发布于Hugging Face和Arxiv平台 [6]