DeepSeek连发两篇论文背后,原来藏着一场学术接力
机器之心·2026-01-16 08:42

文章核心观点 - 文章通过分析DeepSeek近期发布的两篇论文,揭示了大模型架构创新的演进路径,并指出DeepSeek与字节Seed团队的研究工作存在显著的“接力”关系,共同推动了技术进步 [2][3] - 这种公开研究成果的接力模式,在头部大模型厂商中已愈发少见,其价值在于促进整个社区的积累与相互启发,共同“上分” [28][32] 残差连接的演进:从ResNet到mHC - ResNet奠定基础:2015年何恺明等人提出的残差连接解决了深度神经网络训练中的信息失真问题,成为近十年几乎所有主流深度网络架构的默认配置 [6] - 字节Seed的HC突破:2024年9月,字节Seed团队提出HC,通过引入宽度动态性和跨层特征聚合,打破了恒等映射残差连接传统,构建了更高维、更灵活的特征流动空间新范式 [8] - DeepSeek的mHC改进与规模化:DeepSeek在HC基础上提出mHC,通过引入Sinkhorn-Knopp等技术施加流形约束,恢复了训练稳定性,并进行了内核优化,使该范式能应用于万亿级参数规模的工业级训练,解决了HC在大规模训练中的工程瓶颈 [11][12] - 技术演进脉络清晰:从2015年ResNet到2024年HC,再到2026年mHC,残差连接的演进是不同机构和研究者持续接力优化的结果 [15] 知识检索的革新:从N-gram到条件存储 - 问题定义:标准Transformer缺乏原生知识查找能力,即使回答简单事实性问题也需要计算,造成算力浪费 [18] - 字节Seed的OverEncoding探索:字节Seed团队发现,为模型配备巨大的N-gram词典能带来近乎“白捡”的性能提升,因为海量嵌入参数稀疏激活,对显存和算力消耗很小,且词典越大性能越好 [19] - DeepSeek的Conditional Memory升华:DeepSeek将N-gram查表机制升华为“条件存储”这一新的扩展轴线,并与混合专家模型并列,提出了在MoE专家与静态存储模块之间分配参数的“稀疏分配”问题 [21] - 工程实现与效率优势:DeepSeek在架构上将Engram模块注入模型中间层,引入上下文感知门控,并进行了分词器压缩和硬件预取等系统优化,使其具备大规模工业落地能力,且在相同参数预算下,其缩放效率明显高于字节Seed的OverEncoding方法 [22][23] - 最优参数分配:实验揭示了一条U型缩放规律,将约20%-25%的参数分配给Engram存储模块效果优于全押MoE [22] 公开研究的价值与启发 - 研究接力具象化价值:DeepSeek与字节Seed的公开研究接力,展示了头部厂商带动社区共同进步的模式 [28] - 字节Seed的其他前沿探索:字节Seed团队在多个基础研究领域进行了大胆尝试,包括解决MoE推理高访存问题的UltraMem架构、验证离散扩散路线的Seed Diffusion Preview、优于CLIP的SuperClass方法,以及引入傅里叶思想的新型架构FAN [29][30] - 底层技术推动长期进步:这些短期内无法直接商业化的底层技术探索,是科技行业持续进步的重要源泉 [31]

DeepSeek连发两篇论文背后,原来藏着一场学术接力 - Reportify