DeepSeek V4终于发布,但它留下的5道主观题还没有答案
36氪·2026-04-24 22:30

DeepSeek V4发布与公司动态 - 公司发布DeepSeek V4,最大参数量为1.6T,上下文窗口为1M,并针对Agent性能进行优化,采用MoE和稀疏注意力机制DSA以降低计算和显存需求[6] - V4的延迟发布与公司将训练框架从英伟达迁移至华为昇腾有关,同时公司内部在2025年年中经历了一次较为严重的训练失败,并面临训练方向上的内部意见分歧[8] - 公司暂缓多模态生成训练,V4仍为纯语言模型,主要受限于算力和现金[8] - 公司于2026年4月中旬开放对外融资窗口,旨在为训练更大参数规模模型及留住和招纳顶级人才提供资金支持[8] - 公司面临人才流失,如郭达雅、王炳宣等核心作者被字节、腾讯等大厂挖走[8] - 公司曾与某大商就独家注资进行商谈,但创始人梁文锋不同意出让20%股份的条件[9] - 公司自R1发布后,从偏非营利的理想主义技术组织转向重视产品与商业化的务实公司,并于2026年4月8日上线App改版,区分“专家模式”和“快速模式”[10] - 自2025年下半年起,公司开始重视产品打磨,并对产品策略/经理进行“开闸式招聘”[11] - 公司内部已组建数十人的产品团队,探索Agent及其他C端产品形态[13] - 公司通过招聘北大中文系学生进行人文领域数据标注和测评标准搭建,被视为重视模型人文性的信号[12] 行业竞争格局与市场反应 - 公司年度迭代已成为行业重要事件,导致其他模型厂商采取“错峰”发布策略以规避影响[16] - 智谱和MiniMax在春节前错峰发布新模型GLM 5和M 2.5,以减小对公司发布可能带来的股价影响[17][18][19] - 阶跃星辰在1月末宣布B+轮融资,并希望赶在公司更新前完成,以避免与投资人沟通成本升高[19] - 行业将公司视为“不确定性因素”,既带来竞争恐惧,也作为范式引领者推动行业反思与冲刺[19] - 公司改变了中国AI行业的诸多规则,奠定了近一年来大模型的组织文化与研发重点,被视为中国AI跻身全球一流的起点[20] - 随着公司V4发布,中国AI行业竞争格局进入相对稳定的中场[21] 后DeepSeek时代行业新命题 命题一:重新审视开源的性价比 - 公司带动的开源开放生态帮助中国模型在2025年快速建立全球知名度和技术口碑[29] - 当前营收最高的两家模型厂商OpenAI和Anthropic均采用闭源路线,其年化收入分别超过250亿美元和190亿美元[26] - 国内厂商如MiniMax 2025年总收入为7903.8万美元,智谱为7.24亿元,与海外闭源巨头存在数量级差距[26] - 行业观点认为,靠开源快速“冷启动”建立口碑的阶段已过,当前重点是如何将技术口碑转化为商业收入[29] - 阿里千问技术负责人林俊旸的离职,凸显了开源生态利益与商业公司营利性之间的矛盾[24][25] 命题二:投流大战暂停,精细化投放开打 - 公司“0投流,App上线7天用户破亿”的成绩,推翻了此前行业依赖的激进投流增长路径[32] - 月之暗面在2025年2月战略会上决定大幅削减Kimi的投流预算,从千万元/天降至数万元/天[34] - 当前激进的投流补贴大战主要存在于财力雄厚的大厂之间,如2026年春节阿里千问投入30亿元,腾讯元宝和字节豆包各投入10亿元[36] - 缺乏流量入口的模型厂商转向更精细化的增长方式,聚焦目标用户而非建立大盘认知,例如在特定垂直领域App进行投放[36] 命题三:回归基模,选实用,还是选研究? - 公司R1的成功证明,坚持正确的研发大方向能获得性能正反馈,促使行业聚焦基模研发[38] - 智谱在R1发布后,为应对客户转向部署公司模型的情况,决定训练集推理、Coding和Agentic能力于一体的实用模型GLM 4.5[39][40] - 大厂如字节和腾讯内部也强调“不刷榜单,聚焦模型能力本身”,并重建测评体系以反映真实水平[41] - 在商业化压力下,“实用派”占据主导,AI Lab等研究机构正在后退或消亡,研发资源向实用方向聚集[42][43] - 但公司案例证明突破性技术常源自非功利性研究,仍有厂商如字节Seed内部设立“Seed Edge”虚拟组织,支持长期基础研究[44] 命题四:大模型组织,顶层扁平高效,基层人海战术 - 公司采取扁平化和“学院派”管理方式,研究小组内无固定分工和上下级,以适配创新业务[46] - 创业公司对扩张规模持谨慎态度,追求更高效和聚焦[47] - 大厂正尝试将模型研发与AI创新业务规整为相对独立的扁平化组织,例如腾讯整合核心研发资源至AI Infra部和大语言模型部[50] - 模型底层算法进入平台期,数据质量成为性能迭代关键,导致数据、评测等支持团队激进扩张[52] - 字节Seed总规模较年初翻约2倍,豆包某模型仅负责智商评测的就有5人,策略产品有五六十人,性能优势依赖人力堆砌[52] - 当前模型组织呈“金字塔结构”:顶层是少数顶尖大脑,底层数据与评测工作仍需人海战术[53] 命题五:年轻人和“一把手工程” - 公司提升了行业对年轻AI人才的渴求程度[55] - 抢人成为各大公司的“一把手工程”,例如张一鸣亲自赴新加坡引进人才,刘炽平亲自在顶会现场招募[57] - 腾讯姚顺雨加入后的重要任务之一是招人,他已面试近百人,并亲自面试每位校招生[57] - 公司促使行业自上而下对齐“AI是top mission”的认知[58] 行业未来展望与厂商差异化路径 - 行业对公司的态度从景仰转向暗含超越的野心[61] - 腾讯元宝计划在2026年摆脱对公司模型的依赖,建立自有用户心智,其新模型Hy3 preview的目标是跟上以公司和阿里为代表的第一梯队[62][63] - 各主要厂商已找到差异化发展路径:字节和阶跃星辰聚焦全模态;月之暗面和智谱打磨Coding和Agentic能力;MiniMax在保持语言模型竞争力的同时突出视频生成优势[64] - 行业共识是每家厂商都将沿自己的路线发展,终点不会是任何一家现有公司,包括公司本身[65]

DeepSeek V4终于发布,但它留下的5道主观题还没有答案 - Reportify