DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块
论文核心研究成果 - 公司发布与北京大学联合完成的论文,提出“条件记忆”作为下一代稀疏大模型中不可或缺的核心建模原语 [1][4] - 论文核心洞察指出,大模型承担着组合推理与静态知识检索两类性质迥异的任务,而现有Transformer架构缺乏原生知识查找机制,导致调用固定知识时仍需低效计算,耗时且占用资源 [4] - 公司团队提出通过名为Engram的条件记忆模块来优化神经计算(MoE)与静态记忆之间的权衡关系,旨在为大模型实现“分工优化”,由Engram模块负责固定知识存储,推理模块专注复杂思考 [5] - 团队发现了“U型缩放定律”,表明在MoE专家与Engram记忆之间进行混合稀疏容量分配,效果显著优于纯MoE基准模型 [5] - 尽管记忆模块设计初衷是提升知识检索效率,但团队在通用推理、代码及数学等领域均观察到更为显著的性能提升 [5] 下一代模型V4的行业预期 - 结合此前“DeepSeek下一代旗舰模型V4将于春节前后发布”的爆料,业内普遍猜测近期连续披露的研究成果或已勾勒出V4模型的核心研究路线图 [1] - 公司在论文中强调条件记忆将成为下一代稀疏模型的核心建模原语,让行业进一步猜测该技术或正是DeepSeek V4模型的核心技术架构 [5] - 此前报道称,公司计划于2月发布新一代旗舰模型V4,内部初步测试显示其编程能力已超越市场现有顶级模型,但发布计划可能根据实际情况调整 [6] - 自2024年底发布V3模型后,其下一代旗舰模型备受行业关注,去年底推出的V3.2小版本更新曾在多个基准测试中超越OpenAI的GPT-5及Google的Gemini 3.0 Pro [6] - 业内普遍认为,V4模型的正式推出有望成为行业焦点事件 [6]