Seek .-传DeepSeek曝新模型，梁文锋再放“王炸”？

下一代模型发布预期与线索 - 在R1发布一周年之际，DeepSeek的代码库更新中意外曝光了一个名为“Model1”的新模型，该模型拥有与DeepSeek-V3.2并列的独立文件，可能意味着其未沿用V3系列架构，是一条全新的技术路径[1][6] - 业界推测公司可能在今年春节复刻去年发布R1的“核爆”式发布，主要线索包括：外媒报道称DeepSeek预计将于2月中旬推出下一代人工智能模型V4[3][8]，以及2025年底至2026年初公司发表了两篇关键论文为下一代模型扫清技术障碍[5][10] - 根据The Information报道，有DeepSeek员工的内部测试表明，V4在编码任务方面可以胜过Anthropic的Claude和OpenAI的GPT系列等竞争对手[4][9] 近期模型迭代与性能提升 - 自2025年3月以来，公司以“小步快跑”方式持续迭代V3模型，重点优化复杂推理、编程能力和工具调用[3][8] - 2025年3月25日，DeepSeek V3升级为V3-0324，生成的代码可用性更高，中文写作升级，在数学、代码能力上超过GPT-4.5[4][9] - 2025年5月29日，DeepSeek-R1完成小版本升级，更新后的模型在数学、编程与通用逻辑上已接近o3与Gemini-2.5-Pro，幻觉率降低了45~50%左右[4][9] - 2025年8月21日发布DeepSeek-V3.1，相比R1能在更短时间内给出答案，有更强的Agent能力，API接口调用价格为输入0.5元/百万tokens（缓存命中）、4元/百万tokens（缓存未命中），输出12元/百万tokens[4][9] - 2025年9月29日发布DeepSeek-V3.2-Exp，引入了DeepSeek Sparse Attention（一种稀疏注意力机制），API接口调用价格降至输入0.2元/百万tokens（缓存命中）、2元/百万tokens（缓存未命中），输出3元/百万tokens[4][9] - 2025年12月1日发布DeepSeek-V3.2正式版，其推理能力达到了GPT-5的水平，仅略低于Gemini-3.0-Pro，并将思考融入工具使用的模型，同时支持思考与非思考模式的工具调用[4][9] 下一代模型的关键技术突破 - 公司于2025年12月底至2026年1月发表了两篇有梁文锋署名的论文，旨在解决大模型基础架构中训练稳定性与知识检索效率两大瓶颈[5][10] - 论文《mHC: Manifold-Constrained Hyper-Connections》提出了“流形约束超连接”（mHC）框架，通过数学上的流形投影将残差连接空间约束在特定流形上，在保留强大表达能力的同时强制恢复网络的恒等映射特性，从根源上保障训练稳定性[5][10] - 与北大合作的论文《Conditional Memory via Scalable Lookup》提出了“条件记忆”模块（Engram），将高频静态知识以嵌入表形式注入Transformer层，通过解耦知识存储与神经计算，证明用基于哈希的查找表替代约20%的混合专家（MoE）参数，可显著提升推理与知识任务性能[5][11]