文章核心观点 - 文章通过访谈两位AI从业者,深入解读了DeepSeek-V4的技术报告,认为其核心成就在于系统级的耦合工程优化,而非单一的技术范式突破[9][14] - 中国开源大模型团队(如 DeepSeek、Kimi、智谱等)在激烈的竞争和人才密度下,已成为全球开源生态中最活跃的投入者,其发展路径更侧重于极致的工程优化和性价比[4][11][57] - 行业正从追求“范式变化”转向在现有Transformer范式下进行深度的、系统性的工程优化,以解决计算瓶颈和成本问题,这将成为未来一两年的竞争主旋律[14][58] 模型架构与技术创新 - 注意力机制革新:DeepSeek-V4放弃了此前被视为先进架构的MLA(多头潜在注意力),回归MQA(多查询注意力),并创新性地组合使用CSA(压缩稀疏注意力)和HCA(重度压缩注意力)两种token-wise压缩技术,实现4:1和128:1的大尺度压缩,以降低长上下文处理的计算和显存开销[5][6][7][26] - 残差连接改进:引入了mHC(流行约束超连接),在字节Seed提出的HC基础上加入Sinkhorn算法进行约束,改善了训练稳定性,与Kimi的Attention Residuals异曲同工,旨在增强层间的信息流动[35][36] - 优化器升级:在1.6T参数规模的MoE模型上成功应用了Muon优化器,这是一种矩阵级别的优化器,相比元素级的AdamW能更好地利用参数间的联系,其大规模稳定训练是工程能力的体现[9][28][29][32] - 训练精度突破:将训练精度从V3的FP8推进至FP4,通过量化感知训练等技术,在节省显存和带宽的同时保持了训练稳定性,使FP4成为工业级应用的标准[9][42][44][46] 工程实现与系统优化 - 系统级耦合挑战:V4一次性引入了混合注意力、mHC、Muon优化器和FP4训练等多个相互耦合的新技术,其组合复杂度呈爆炸式增长,系统级的耦合优化比单点创新更为困难,体现了团队极强的工程深度[9][12] - 极致的稀疏化与效率提升:通过HashTop-K MoE路由、提高稀疏比等技术,将激活参数比例降至业界最低水平。V4-Pro在1.6T总参数下,激活参数为49B,激活比仅为3.06%,低于Kimi K2.6的3.20%和V3的5.5%[21][23][24]。在百万级上下文中,其单token推理FLOPs降至V3.2的27%,KV缓存占用降至10%[19] - 底层设施与工具链:深度使用并推动了北大开源的TileLang等底层语言的发展,用于高效开发新算法对应的计算内核(kernel),降低了为新算法定制优化算子的边际成本[4][40][41] - 全平台与国产芯片适配:完成了对英伟达、AMD、NPU等全平台的推理适配,并在技术报告中验证了在华为昇腾芯片上的细粒度并行EP方案,为国产芯片生态做出贡献[8][12][13] 性能表现与行业定位 - 性能对标:在内部在线评测中,V4的性能大约在Claude Opus 4.5的水平,与Opus 4.6、GPT-5.5仍有差距。有9%的DeepSeek工程师表示不会将V4-Pro作为首选模型[16] - 评测排名:访谈时(4月28日),V4-Pro在Chatbot Arena上排名第23位,低于GLM-5.1和K2.6;在Artificial Analysis的Intelligence Index得分为52,也低于Kimi等模型。但至5月1日,其排名已超越K2.6,仍低于GLM-5.1[17] - 能力侧重点:明显加强了与智能体(Agent)相关能力的评测,如工具使用和多步规划,反映了行业从“答得对”向“能完成任务”的转向[16] - 成本叙事转变:V4技术报告未公布训练成本,这被视为一个信号,表明公司不再依靠“成本叙事”定义自己,而是转向以模型能力为核心[13][14] 行业发展与中美对比 - 版本号哲学差异:DeepSeek、Kimi的版本号更像“研究语言”,代表模型结构的重大改变;而OpenAI、Anthropic的版本号更像“产品语言”,代表功能和能力的迭代,这由组织结构和商业模式决定[11] - 发展路径差异:中国开源模型更追求工程优化、性价比和极致成本控制,例如在稀疏化、低激活比上做到极限。美国闭源模型更侧重于提出和开辟新的能力方向(如多模态、Agent),并在算力相对充裕的情况下优先冲击性能[11][57][58] - 竞争格局:开源模型架构和方法论在趋同(如基座转向MLA,优化器转向Muon),能力上都重视Agent方向。中国主要玩家如DeepSeek、Kimi在工程和创新上较为极限;GLM、Qwen、MiniMax在RL训练和长上下文落地扎实;小米MiMo-V2.5-Pro在部分评测中分数很高[53][54][55] - 行业阶段判断:AI行业“范式变化”(如Transformer、Scaling Law)是十年一遇的,当前阶段更关键的是在现有范式下探索优化空间上限,以及发现和提出新的模型能力领域(如长文本、Agent、幻觉控制)[14][15][51]
详解 DeepSeek V4:Infra 巨鲸 “四连击”,百万上下文走进现实
晚点LatePost·2026-05-02 19:46