传DeepSeek曝新模型,梁文锋再放“王炸”?
Seek .Seek .(US:SKLTY) 新浪财经·2026-01-21 15:55

下一代模型发布预期与线索 - 在R1发布一周年之际,DeepSeek的代码库更新中意外曝光了一个名为“Model1”的新模型,该模型拥有与DeepSeek-V3.2并列的独立文件,可能意味着其未沿用V3系列架构,是一条全新的技术路径[1][6] - 业界推测公司可能在今年春节复刻去年发布R1的“核爆”式发布,主要线索包括:外媒报道称DeepSeek预计将于2月中旬推出下一代人工智能模型V4[3][8],以及2025年底至2026年初公司发表了两篇关键论文为下一代模型扫清技术障碍[5][10] - 根据The Information报道,有DeepSeek员工的内部测试表明,V4在编码任务方面可以胜过Anthropic的Claude和OpenAI的GPT系列等竞争对手[4][9] 近期模型迭代与性能提升 - 自2025年3月以来,公司以“小步快跑”方式持续迭代V3模型,重点优化复杂推理、编程能力和工具调用[3][8] - 2025年3月25日,DeepSeek V3升级为V3-0324,生成的代码可用性更高,中文写作升级,在数学、代码能力上超过GPT-4.5[4][9] - 2025年5月29日,DeepSeek-R1完成小版本升级,更新后的模型在数学、编程与通用逻辑上已接近o3与Gemini-2.5-Pro,幻觉率降低了45~50%左右[4][9] - 2025年8月21日发布DeepSeek-V3.1,相比R1能在更短时间内给出答案,有更强的Agent能力,API接口调用价格为输入0.5元/百万tokens(缓存命中)、4元/百万tokens(缓存未命中),输出12元/百万tokens[4][9] - 2025年9月29日发布DeepSeek-V3.2-Exp,引入了DeepSeek Sparse Attention(一种稀疏注意力机制),API接口调用价格降至输入0.2元/百万tokens(缓存命中)、2元/百万tokens(缓存未命中),输出3元/百万tokens[4][9] - 2025年12月1日发布DeepSeek-V3.2正式版,其推理能力达到了GPT-5的水平,仅略低于Gemini-3.0-Pro,并将思考融入工具使用的模型,同时支持思考与非思考模式的工具调用[4][9] 下一代模型的关键技术突破 - 公司于2025年12月底至2026年1月发表了两篇有梁文锋署名的论文,旨在解决大模型基础架构中训练稳定性与知识检索效率两大瓶颈[5][10] - 论文《mHC: Manifold-Constrained Hyper-Connections》提出了“流形约束超连接”(mHC)框架,通过数学上的流形投影将残差连接空间约束在特定流形上,在保留强大表达能力的同时强制恢复网络的恒等映射特性,从根源上保障训练稳定性[5][10] - 与北大合作的论文《Conditional Memory via Scalable Lookup》提出了“条件记忆”模块(Engram),将高频静态知识以嵌入表形式注入Transformer层,通过解耦知识存储与神经计算,证明用基于哈希的查找表替代约20%的混合专家(MoE)参数,可显著提升推理与知识任务性能[5][11]