DeepSeek Conditional Memory
搜索文档
DeepSeek连发两篇论文背后,原来藏着一场学术接力
36氪· 2026-01-16 09:28
文章核心观点 - 大模型架构创新呈现接力演进模式,DeepSeek近期发布的两篇重要论文(mHC与Conditional Memory)均建立在字节Seed团队前期研究工作的基础上,并进行了关键性改进与规模化工程实现,指明了架构创新的未来方向[1][8] - 公开研究成果与社区协作对技术进步至关重要,DeepSeek与字节Seed的研究接力展示了持续积累与相互启发的价值,在头部厂商日益封闭的背景下尤为可贵[19][20] 残差连接架构的演进 - **ResNet奠定基础**:2015年何恺明等人提出的残差连接解决了深度神经网络训练中的信息失真问题,成为近十年几乎所有主流深度网络架构的默认配置[3] - **字节Seed提出HC范式**:2024年9月,字节Seed团队提出Hyper-Connections,核心创新在于通过扩展残差流宽度和引入可学习的Dynamic Hyper Connections,在不改变单个计算单元FLOPs开销的前提下,显著提升了网络拓扑复杂度,打破了恒等映射残差连接传统[3][4] - **HC的三大核心思路**:为后续研究提供了宽度扩展(Stream Expansion)、多尺度连接的权重化、动态拓扑潜力三个核心思路,但自身在大规模训练中遇到稳定性瓶颈和受限的可扩展性[6] - **DeepSeek推出mHC实现突破**:mHC在继承HC架构优势的同时,通过引入Sinkhorn-Knopp算法施加流形约束,将HC的广义空间投影回特定流形,恢复了残差网络至关重要的恒等映射特性,解决了HC在超大规模训练时的不稳定性[7] - **mHC的工程价值**:提出了更高效的内核优化,使该范式从理论实验走向了万亿级参数规模的工业级应用,在27B模型等大规模训练中表现出卓越的可扩展性[7] 条件存储与知识检索的创新 - **解决核心问题**:Conditional Memory旨在解决标准Transformer缺乏原生知识查找原语的问题,为模型配备一个名为Engram的“小抄本”,通过N-gram哈希查表直接获取常见词组知识,节省算力用于更复杂推理[9] - **字节Seed的先行探索**:在OverEncoding方法中,字节Seed团队发现为模型配备巨大的N-gram词典能带来几乎“白捡”的性能提升,因为海量的嵌入参数稀疏激活,既不显著占用显存也不过多耗费算力,且词典越大性能越好[10] - **DeepSeek的理论升华与工程化**:DeepSeek将N-gram查表机制升华为“条件存储”这一与条件计算(MoE)并列的scaling law新轴线,并提出了“稀疏分配”问题,实验发现将约20%-25%的参数分配给Engram效果优于全押MoE[12][13] - **系统性技术改良**:在架构上将Engram模块注入到模型中间层;在交互机制上引入“上下文感知门控”;在系统优化上通过分词器压缩和提高存储效率,并利用硬件预取技术解决延迟问题,具备了大规模工业落地能力[13] - **性能对比**:在相同参数预算下,DeepSeek的Engram比字节Seed的OverEncoding方法具有更高的缩放效率[14] 其他值得关注的底层技术探索 - **字节Seed的UltraMem架构**:通过分布式多层级联内存结构、Tucker分解检索与隐式参数扩展优化,有效解决了传统MoE架构在推理阶段的高额访存问题,并验证了其优越的Scaling Law扩展特性[19] - **更多前沿范式尝试**:包括系统验证离散扩散技术路线的Seed Diffusion Preview;舍弃文本编码器、直接用原始文本分词作为多分类标签并在视觉任务上效果优于CLIP的SuperClass;以及引入傅里叶原理思想以弥补Transformer在周期性建模方面缺陷的新型神经网络架构FAN[20]