万亿参数大模型
搜索文档
不只是DeepSeek V4,还有个万亿级大模型,训推全程国产芯片
机器之心· 2026-04-30 13:45
事件概述 - 2026年4月24日,DeepSeek与美团同日发布新一代万亿参数大模型预览版,引发行业关注 [1] - DeepSeek发布并开源DeepSeek-V4系列预览版,总参数规模迈入万亿级,支持百万字超长上下文 [1] - 美团发布并内测了基于全国产算力集群训练的万亿参数大模型LongCat-2.0系列预览版 [2] 美团LongCat-2.0-Preview的核心突破 - 该模型总参数规模约1.6T(万亿),平均激活参数约48B(十亿),支持1M(百万)级超长上下文 [22] - 关键突破在于其训练与推理全流程实现了“英伟达含量为0”,这在业内尚属首次 [3] - 此举明确回答了行业核心问题:万亿参数级模型可以依靠国产芯片稳定、高效地运行 [4] 技术路径与工程方法论 - 此次突破基于此前开源的LongCat-Flash大模型(5600亿参数)所验证的方法论 [7] - LongCat-Flash训练阶段未使用英伟达GPU,其技术报告实为一份国产算力训练经验总结 [9][12][20] - 团队在国产芯片上进行了大量底层算子自研与优化,例如自研高性能确定性FlashAttention反向梯度算子,将性能损失控制在5%左右,优于国产芯片厂商的官方版本 [17] - 团队对Scatter类算子进行重构,设计确定性并行算法,性能提升数十倍 [17] - 对GEMM等高耗时模块采用确定性Tiling策略与深度调优,实现高性能与确定性双重目标 [18] - 通过“整网确定性训练”确保了计算结果的精确复现和异常快速定位,这在工具链不完善阶段是排障刚需 [19] 模型架构创新 - 模型采用MoE架构,在架构层面进行了核心创新以降低硬件负担、提升效率 [23] - 延续并增强了N-gram Embedding路线,将部分专家层参数前移至embedding层,引入词组级建模能力,使高频语言模式可直接匹配,降低了对逐层计算的依赖,从而控制了推理成本 [24][26][27] - 在注意力机制层面引入轻量稀疏注意力机制,并叠加“跨层流感知索引”设计,减少了重复的全量attention计算,使模型能稳定支持1M上下文,同时控制推理延迟与计算成本 [28][29] 超大规模国产算力集群部署 - 训练阶段调用的国产加速卡规模达到5万至6万张,刷新了国产算力支撑超大模型训练的规模上限 [32] - 在万卡规模上,对专家并行、张量并行与流水线并行进行了重新组合与解构,以完成整体训练部署 [34] - 针对国产芯片单卡HBM容量与带宽的差距,进行了极其精细的显存切分与调度优化 [33] - 构建了一套容错与恢复体系,包括链路感知、自动重调度与多层异常检测机制,以应对数万卡规模下的硬件掉线、通信抖动等稳定性挑战 [36] - 针对国产硬件特点对训练框架和模型结构做了亲和设计,提升了计算性能 [37] - 最终在计算正确性、数值精度及长周期训练稳定性等核心指标上追平国际水平,足以支撑万亿级MoE模型全流程训推 [37] 行业意义与影响 - 此次突破标志着国产算力正从“能用”迈向“好用”,跨过了从“可替代”到“可承担顶级任务”的关键门槛 [38][40] - 为整个国产AI基础设施积累了公共能力,那些攻克过的工程难题将沉淀为行业经验 [40] - 当国产芯片开始承载前沿大模型并获得验证,为国产生态注入了信心,也为更深层的结构性变革打开了空间 [41] - 公司战略上,此举呼应了其将美团App升级成AI-powered App的目标,是战略预判的结果 [5] 当前状态与未来展望 - LongCat-2.0-Preview目前处于受邀内测阶段,每天提供1000万token免费额度 [6][43] - 该模型大概率将延续开源路线,具体的开源方式与时间有待公布 [42][43]