详解 DeepSeek V4：Infra 巨鲸 “四连击”，百万上下文走进现实

文章核心观点 - 文章通过访谈两位AI从业者，深入解读了DeepSeek-V4的技术报告，认为其核心成就在于系统级的耦合工程优化，而非单一的技术范式突破[9][14] - 中国开源大模型团队（如 DeepSeek、Kimi、智谱等）在激烈的竞争和人才密度下，已成为全球开源生态中最活跃的投入者，其发展路径更侧重于极致的工程优化和性价比[4][11][57] - 行业正从追求“范式变化”转向在现有Transformer范式下进行深度的、系统性的工程优化，以解决计算瓶颈和成本问题，这将成为未来一两年的竞争主旋律[14][58] 模型架构与技术创新 - 注意力机制革新：DeepSeek-V4放弃了此前被视为先进架构的MLA（多头潜在注意力），回归MQA（多查询注意力），并创新性地组合使用CSA（压缩稀疏注意力）和HCA（重度压缩注意力）两种token-wise压缩技术，实现4:1和128:1的大尺度压缩，以降低长上下文处理的计算和显存开销[5][6][7][26] - 残差连接改进：引入了mHC（流行约束超连接），在字节Seed提出的HC基础上加入Sinkhorn算法进行约束，改善了训练稳定性，与Kimi的Attention Residuals异曲同工，旨在增强层间的信息流动[35][36] - 优化器升级：在1.6T参数规模的MoE模型上成功应用了Muon优化器，这是一种矩阵级别的优化器，相比元素级的AdamW能更好地利用参数间的联系，其大规模稳定训练是工程能力的体现[9][28][29][32] - 训练精度突破：将训练精度从V3的FP8推进至FP4，通过量化感知训练等技术，在节省显存和带宽的同时保持了训练稳定性，使FP4成为工业级应用的标准[9][42][44][46] 工程实现与系统优化 - 系统级耦合挑战：V4一次性引入了混合注意力、mHC、Muon优化器和FP4训练等多个相互耦合的新技术，其组合复杂度呈爆炸式增长，系统级的耦合优化比单点创新更为困难，体现了团队极强的工程深度[9][12] - 极致的稀疏化与效率提升：通过HashTop-K MoE路由、提高稀疏比等技术，将激活参数比例降至业界最低水平。V4-Pro在1.6T总参数下，激活参数为49B，激活比仅为3.06%，低于Kimi K2.6的3.20%和V3的5.5%[21][23][24]。在百万级上下文中，其单token推理FLOPs降至V3.2的27%，KV缓存占用降至10%[19] - 底层设施与工具链：深度使用并推动了北大开源的TileLang等底层语言的发展，用于高效开发新算法对应的计算内核（kernel），降低了为新算法定制优化算子的边际成本[4][40][41] - 全平台与国产芯片适配：完成了对英伟达、AMD、NPU等全平台的推理适配，并在技术报告中验证了在华为昇腾芯片上的细粒度并行EP方案，为国产芯片生态做出贡献[8][12][13] 性能表现与行业定位 - 性能对标：在内部在线评测中，V4的性能大约在Claude Opus 4.5的水平，与Opus 4.6、GPT-5.5仍有差距。有9%的DeepSeek工程师表示不会将V4-Pro作为首选模型[16] - 评测排名：访谈时（4月28日），V4-Pro在Chatbot Arena上排名第23位，低于GLM-5.1和K2.6；在Artificial Analysis的Intelligence Index得分为52，也低于Kimi等模型。但至5月1日，其排名已超越K2.6，仍低于GLM-5.1[17] - 能力侧重点：明显加强了与智能体（Agent）相关能力的评测，如工具使用和多步规划，反映了行业从“答得对”向“能完成任务”的转向[16] - 成本叙事转变：V4技术报告未公布训练成本，这被视为一个信号，表明公司不再依靠“成本叙事”定义自己，而是转向以模型能力为核心[13][14] 行业发展与中美对比 - 版本号哲学差异：DeepSeek、Kimi的版本号更像“研究语言”，代表模型结构的重大改变；而OpenAI、Anthropic的版本号更像“产品语言”，代表功能和能力的迭代，这由组织结构和商业模式决定[11] - 发展路径差异：中国开源模型更追求工程优化、性价比和极致成本控制，例如在稀疏化、低激活比上做到极限。美国闭源模型更侧重于提出和开辟新的能力方向（如多模态、Agent），并在算力相对充裕的情况下优先冲击性能[11][57][58] - 竞争格局：开源模型架构和方法论在趋同（如基座转向MLA，优化器转向Muon），能力上都重视Agent方向。中国主要玩家如DeepSeek、Kimi在工程和创新上较为极限；GLM、Qwen、MiniMax在RL训练和长上下文落地扎实；小米MiMo-V2.5-Pro在部分评测中分数很高[53][54][55] - 行业阶段判断：AI行业“范式变化”（如Transformer、Scaling Law）是十年一遇的，当前阶段更关键的是在现有范式下探索优化空间上限，以及发现和提出新的模型能力领域（如长文本、Agent、幻觉控制）[14][15][51]