公司研究:深度求索(DeepSeek)技术进展与产品规划 - 公司于1月12日晚发布与北京大学合作完成的新论文,聚焦大模型的条件记忆模块[2] - 论文核心观点认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语[2][7] - 论文作者包括公司创始人梁文锋,论文名称为《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》[5] 技术架构创新:条件记忆与Engram模块 - 论文核心观察指出,大模型包含两种任务:需要深度动态计算的组合推理和检索静态知识[5] - 现有Transformer架构缺乏原生知识查找机制,检索静态知识时需浪费算力重新推导,效率低下[5] - 为解决此问题,团队引入条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算(MoE)与静态记忆(Engram)之间的权衡[5] - 团队发现了U型缩放定律,表明MoE专家和Engram记忆之间的混合稀疏容量分配严格优于纯MoE基准模型[6] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益[6] - 技术本质是给大模型做“分工优化”,让专门模块处理固定知识(记忆本)和复杂思考(推理模块),并按最佳比例分配资源,使模型更高效[6] 产品路线与市场预期 - 结合近期研究,业内猜测此次论文揭示的技术或许是公司下一代大模型DeepSeek V4的研究路线图[5] - 有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构[7] - 此前有爆料称,DeepSeek下一代大模型V4将在春节前后发布[5] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型[7] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro[7] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点[7]
梁文锋署名,DeepSeek论文上新