报告行业投资评级 - 行业投资评级:强于大市(维持)[1] 报告核心观点 - 核心观点:DeepSeek预计在2026年2月中旬推出新一代旗舰AI模型DeepSeek V4,其编码能力将超越Claude和GPT系列,并可能对标市场预期中的R2模型[3]。该模型的发布预计将带来模型成本降低、继续开源并超越闭源模型、基于全新架构以及深化国产芯片融合等多重影响,有望深刻改变AI产业发展格局并利好下游应用与国产算力生态[4] 根据相关目录分别总结 1. DeepSeek最新进展 - 根据The Information报道,DeepSeek计划于2026年2月中旬推出新一代旗舰AI模型DeepSeek V4[3][11] - DeepSeek V4的编码能力据称将超越Claude和GPT系列[3][11] - 报告认为V4将直接对标市场此前预期在2025年5月发布的R2模型,因为DeepSeek在V3.1和V3.2的更新中已转向推出结合基础与推理能力的混合模型,而非沿用V3与R1分离的模式[11] - 此前,DeepSeek在适配国产芯片方面取得进展,例如V3.1采用UE8M0 FP8缩放格式面向下一代国产芯片设计,V3.2-Exp发布当日即获得华为昇腾和寒武纪的零日适配,并通过开源TileLang和CUDA两个版本的算子降低生态壁垒[12] - 在注意力机制上,DeepSeek提出了原生稀疏注意力(NSA)和DeepSeek稀疏注意力机制(DSA),将稀疏注意力从推理拓展至预训练阶段[15] - 在发展路径探索上,V3.2验证了扩大后训练强化学习能提升模型能力,其将相当于预训练成本10%以上的算力投入后训练强化学习,并计划加大预训练规模[17] - DeepSeek-V3.2在强化学习中使用合成数据,在Tau2Bench、MCP-Mark和MCP-Universe等基准测试中性能显著提升[17] 2. 稀疏化分配方案的引入(Engram) - 2026年1月12日,DeepSeek发布论文提出“条件记忆”新机制,引入名为“Engram”的条件记忆模块,通过稀疏查找检索静态知识嵌入,以解决大模型处理知识类问题时浪费推理资源模拟检索的问题[8][19] - Engram通过对文本进行哈希映射至可扩展的静态记忆表,实现常数时间复杂度的知识检索,查找复杂度与模型规模无关[22] - 实验表明,当20%-25%的稀疏参数预算分配给Engram(剩余部分留给MoE)时,模型整体性能达到最佳[22] - Engram的引入成为MoE的理想补充,不仅在知识密集型任务上,还在通用推理、代码、数学问题上带来显著改进,其优势在于减轻了主干网络早期重构静态知识的负担,增加了用于复杂推理的有效深度,并在长文本处理上展现出结构性优势[25] - 性能对比数据显示,在相同激活参数量(约38亿)和训练token数(2620亿)下,引入57亿Engram参数的27B Engram模型在多个基准测试上表现优于同规模的27B MoE模型和41B密集模型,例如MMLU准确率从574%提升至604%,GSM8K准确率从584%提升至606%[26] - Engram架构实现了计算与内存的解耦,允许将模型参数表卸载到主机内存而不带来显著效率损失,这缓解了GPU内存限制,为挂载TB级别超大规模记忆库提供路径,有望大幅缓解国产AI芯片厂商HBM供应受限的境况[8][29] 3. 模型层间信息传输方式的底层架构创新(mHC) - 2026年1月1日,DeepSeek发布论文提出名为mHC的新网络架构,旨在解决信息流动问题[8][30] - mHC架构建立在字节跳动此前发布的Hyper-Connections(HC)基础上,重点改进了ResNet架构信息通道宽度受限、计算冗余和内存占用的问题[8][30] - ResNet是当前Transformer及大模型的主流底层组件,但存在上述局限[30] - HC架构虽能提升性能,但会导致信号被持续放大,使模型训练不稳定,难以应用于大模型[31] - mHC引入类似“加权平均”的思路,通过凸组合保证信号不会被无限放大,解决了HC的稳定性和可扩展性问题[31] - 实验结果表明,在MoE模型上,mHC使得模型训练的收敛速度提升了约18倍[8][31] 4. 长文本输入:用图像承载文本信息,实现高效压缩 - DeepSeek在模型DeepSeek-OCR和DeepSeek-OCR2中,提出将视觉作为文本压缩媒介的新方法,将文本以图片方式输入,以极大减少输入所需token数量,解决长文本输入问题[8] - 实验数据显示,当文本token数在视觉token的10倍以内(压缩率<10×)时,模型解码精度可达97%;当压缩率达到20×时,解码准确率仍保持在约60%[34] - 在DeepSeek-OCR 2中,创新的DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力,为迈向统一的全模态编码器提供了新的发展路径[37] 5. R1论文更新与训练成本 - 2026年1月4日,DeepSeek将R1论文从22页更新至86页,增加了训练流程、基础设施、消融实验、中间检查点、失败尝试及模型不足等细节,展现了更高的公开透明度[8][38] - 根据论文披露的成本数据,DeepSeek-R1进行进一步训练的成本为294万美元,使得R1的总训练成本达到586万美元[8][39] - 该总成本远低于顶级模型训练动辄千万美元的门槛,其中预训练和后训练分别占总成本的95%和5%[8][39] 6. V4的潜在创新猜想和影响力预测 - 模型成本降低:基于Engram架构和mHC等新技术,V4的模型成本有望大幅降低,从而较大缓解目前国内缺芯的状况[4][40] - 继续开源且能力超越闭源模型:预计DeepSeek将继续坚持开源路线,同时V4模型能力有望实现较大超越,这可能对OpenAI、Anthropic等专注于闭源大模型的厂商形成较大的盈利冲击,深刻改变海外AI产业发展格局,并利好下游AI应用落地[4][41][45] - 基于独立于Transformer的全新架构:2026年1月20日DeepSeek代码库中意外曝光的名为“Model 1”的新模型,暗示V4可能采用全新的技术路径或基础架构,这将带来里程碑意义的技术突破,开启大模型发展新范式,帮助人类更快通往AGI[4][46] - 与国产芯片深度融合:考虑到2025年已实现的协同优化,2026年DeepSeek有望在国产适配方面取得更多进展,V4可能部分或全部采用国产芯片进行训练,利好国产算力的生态建设[4][47]
计算机行业分析报告:DeepSeek近期成果分析及V4影响力预测
中原证券·2026-01-29 17:41