DeepSeek V4登榜,全球开源前5都是中国模型了
第一财经·2026-04-25 15:45

DeepSeek-V4与Kimi K2.6模型发布 - 2026年4月24日,沉寂15个月的DeepSeek发布并开源全新一代模型DeepSeek-V4,该模型搭载百万词元超长上下文,在Agent能力、世界知识、推理性能方面大幅提升 [1] - DeepSeek V4 Pro(Max)在Artificial Analysis智能指数开源模型榜单上相比上一代模型V3.2提升了10分,以52分的成绩进入全球开源模型前两位 [1] - 2026年4月,Kimi发布万亿参数开源模型Kimi K2.6,在Artificial Analysis智能指数上获得54分,是全球排名前五的开源模型中同时支持图片和视频理解的多模态模型 [3] 中美AI开源阵营的竞争与战略 - DeepSeek与Kimi在2025年1月至2026年4月期间,在推理模型、注意力架构、数学推理及万亿参数大模型迭代上多次发生技术发布“撞车”,显示出对AGI技术顶峰的同向追逐 [4] - 两家公司的连续技术“撞车”被视为中国开源AI阵营抱团突围、直面美国闭源巨头的战略默契,旨在以“技术共生、互利互惠”的模式改写全球AI格局 [4] - 在定价策略上,OpenAI的GPT-5.5定价为每百万输出token 30美元,而DeepSeek V4 Pro的输出定价仅为每百万token 24元人民币(约3.4美元),约为GPT-5.5的十分之一,形成价格优势 [11] 关键技术突破与性能表现 - 2025年1月20日,DeepSeek发布R1推理模型,Kimi发布K1.5多模态思考模型,两家公司均致力于通过强化学习实现Long-CoT推理,复现OpenAI-o1的核心能力,并因此被OpenAI官方论文点名 [6] - 2025年2月,DeepSeek发布NSA原生稀疏注意力,Kimi发布MoBA混合块注意力,两者均旨在解决Transformer长上下文成本爆炸问题,大幅降低KV缓存占用和注意力计算量 [7] - DeepSeek V4-Pro在数学、STEM和竞赛型代码的评测中超越所有已公开开源模型 [11] - Kimi K2.6在Humanity's Last Exam全工具测试中以54.0%的得分登顶,在DeepSearchQA深度检索中以92.5%的得分领先于GPT-5.4、Gemini 3.1 Pro和Claude Opus 4.6 [11] 市场影响与行业地位 - 根据OpenRouter数据,Kimi K2.6在发布后迅速跃居每日榜单榜首,与DeepSeek一起位居全球前五 [12] - Meta发布新模型Muse Spark时,官方博客选择DeepSeek和Kimi作为基准模型进行对比 [14] - 英伟达CEO黄仁勋在GTC2026大会的主题演讲中,使用Kimi K2.5模型来展示下一代Blackwell Ultra芯片的性能,将中国开源模型作为衡量下一代GPU的标杆 [16] 国产芯片生态支持与算力战略 - DeepSeek V4明确支持华为昇腾950芯片,华为宣布昇腾超节点全系产品已完成对V4的适配与支持,通过芯模技术协同实现高吞吐、低时延的推理部署 [15] - DeepSeek官方预计,下半年昇腾950超节点批量上市后,Pro服务的价格会大幅下调 [15] - Kimi K2.6支持国产芯片混合推理,其技术路线强调端侧和云端协同运行,降低对英伟达CUDA生态的依赖,并从K2 Thinking开始加入INT4量化技术以提升对国产加速芯片的兼容性 [15] - 华为昇腾官方平台已完成Kimi K2.5在昇腾AI上的部署,实现了多模态推理性能的全面跃升 [15] 核心技术创新细节 - 2025年4月,Kimi推出Kimina-Prover Preview数学推理专项模型,随后DeepSeek发布Prover-V2,两者均采用“自验证”路线以提升数学推理的准确性和可靠性 [7] - 2026年初,DeepSeek发布mHC流形约束超链接,系统性改造传统残差连接结构;两个月后,Kimi发布“注意力残差”技术,将Transformer的核心原理“注意力”重新应用到残差连接上,获得业界关注 [8] - DeepSeek V4的训练方案引入了Muon优化器,该技术由Kimi在2025年2月的论文《Muon is Scalable for LLM Training》中率先验证了其在480亿参数模型上的效果,并在万亿参数模型K2上继续使用和改进,实现了相同训练量下2倍的token效率提升 [8] - Muon优化器成为DeepSeek V4在架构层的三项关键升级之一,提升了训练稳定性 [9]

DeepSeek V4登榜,全球开源前5都是中国模型了 - Reportify