DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?

公司技术研究进展 - 公司于1月12日晚发布了一篇与北京大学合作完成的新论文,聚焦大模型的条件记忆模块 [4] - 论文名称为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,作者列包含公司创始人梁文锋 [4] - 论文核心观察是,大模型包含需要深度动态计算的组合推理和检索静态知识两种性质完全不同的任务,而现有Transformer架构缺乏原生知识查找机制,导致效率低下 [4] - 为解决该问题,团队引入了条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算与静态记忆之间的权衡关系 [4] - 团队发现了U型缩放定律,表明混合稀疏容量分配严格优于纯MoE基准模型 [5] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益 [5] - 论文本质是对大模型进行“分工优化”,让专门模块处理固定知识和复杂推理,并按最佳比例分配资源,旨在提升模型效率与性能 [6] - 公司在论文结论中认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [1][6] 下一代模型发布预期 - 此前有爆料称公司下一代大模型V4将在春节前后发布,结合近期研究,业内猜测此次论文提出的条件记忆可能就是V4的技术架构路线图 [4][6] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [6] - 报道提及发布计划可能会根据实际情况进行调整,公司目前未对相关消息进行回应 [6] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本 [6] - V3.2版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro [6] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点 [6]