大模型组织
搜索文档
DeepSeek V4终于发布,但它留下的5道主观题还没有答案
36氪· 2026-04-24 22:30
以下文章来源于智能涌现 ,作者周鑫雨 智能涌现 . 直击AI新时代下涌现的产业革命。36氪旗下账号。 DeepSeek是中国AI跻身全球一流的起点,但不会是终点。 文 | 周鑫雨 编辑 | 苏建勋 杨轩 来源| 智能涌现(ID: AIEmergence) 封面来源 | 视觉中国 靴子终于落地。 被调侃"Next Week"近3个月的DeepSeek V4,终于显露真身。 1.6T的最大参数量、1M的上下文窗口、针对Agent的性能优化,以及基于MoE(混合专家模型)和稀疏注意力机制DSA,降低计算和显存需求——这些曾被 外界纷纷猜测的参数和性能,随着V4的官宣,一锤定音。 姗姗来迟的原由,与V4将训练框架从英伟达迁移到华为昇腾上有关,也与DeepSeek内部的决策变动有关。我们得知,2025年年中,DeepSeek曾面临一次较 为严重的训练失败。 "当时,DeepSeek面临重新适配芯片的问题。"一名知情者提到,"内部有关训练方向的意见也不完全统一。梁文锋提出了一些自己的要求,但在执行层面很 难折中。" 不过,与外界关于"新模型支持多模态生成和理解"的猜测不同,V4依然是个语言模型。暂缓多模态生成的训练策略, ...