万亿参数大模型 - 财报，业绩电话会，研报，新闻

万亿参数大模型

搜索文档

机器之心· 2026-04-30 13:45

事件概述 - 2026年4月24日，DeepSeek与美团同日发布新一代万亿参数大模型预览版，引发行业关注 [1] - DeepSeek发布并开源DeepSeek-V4系列预览版，总参数规模迈入万亿级，支持百万字超长上下文 [1] - 美团发布并内测了基于全国产算力集群训练的万亿参数大模型LongCat-2.0系列预览版 [2] 美团LongCat-2.0-Preview的核心突破 - 该模型总参数规模约1.6T（万亿），平均激活参数约48B（十亿），支持1M（百万）级超长上下文 [22] - 关键突破在于其训练与推理全流程实现了“英伟达含量为0”，这在业内尚属首次 [3] - 此举明确回答了行业核心问题：万亿参数级模型可以依靠国产芯片稳定、高效地运行 [4] 技术路径与工程方法论 - 此次突破基于此前开源的LongCat-Flash大模型（5600亿参数）所验证的方法论 [7] - LongCat-Flash训练阶段未使用英伟达GPU，其技术报告实为一份国产算力训练经验总结 [9][12][20] - 团队在国产芯片上进行了大量底层算子自研与优化，例如自研高性能确定性FlashAttention反向梯度算子，将性能损失控制在5%左右，优于国产芯片厂商的官方版本 [17] - 团队对Scatter类算子进行重构，设计确定性并行算法，性能提升数十倍 [17] - 对GEMM等高耗时模块采用确定性Tiling策略与深度调优，实现高性能与确定性双重目标 [18] - 通过“整网确定性训练”确保了计算结果的精确复现和异常快速定位，这在工具链不完善阶段是排障刚需 [19] 模型架构创新 - 模型采用MoE架构，在架构层面进行了核心创新以降低硬件负担、提升效率 [23] - 延续并增强了N-gram Embedding路线，将部分专家层参数前移至embedding层，引入词组级建模能力，使高频语言模式可直接匹配，降低了对逐层计算的依赖，从而控制了推理成本 [24][26][27] - 在注意力机制层面引入轻量稀疏注意力机制，并叠加“跨层流感知索引”设计，减少了重复的全量attention计算，使模型能稳定支持1M上下文，同时控制推理延迟与计算成本 [28][29] 超大规模国产算力集群部署 - 训练阶段调用的国产加速卡规模达到5万至6万张，刷新了国产算力支撑超大模型训练的规模上限 [32] - 在万卡规模上，对专家并行、张量并行与流水线并行进行了重新组合与解构，以完成整体训练部署 [34] - 针对国产芯片单卡HBM容量与带宽的差距，进行了极其精细的显存切分与调度优化 [33] - 构建了一套容错与恢复体系，包括链路感知、自动重调度与多层异常检测机制，以应对数万卡规模下的硬件掉线、通信抖动等稳定性挑战 [36] - 针对国产硬件特点对训练框架和模型结构做了亲和设计，提升了计算性能 [37] - 最终在计算正确性、数值精度及长周期训练稳定性等核心指标上追平国际水平，足以支撑万亿级MoE模型全流程训推 [37] 行业意义与影响 - 此次突破标志着国产算力正从“能用”迈向“好用”，跨过了从“可替代”到“可承担顶级任务”的关键门槛 [38][40] - 为整个国产AI基础设施积累了公共能力，那些攻克过的工程难题将沉淀为行业经验 [40] - 当国产芯片开始承载前沿大模型并获得验证，为国产生态注入了信心，也为更深层的结构性变革打开了空间 [41] - 公司战略上，此举呼应了其将美团App升级成AI-powered App的目标，是战略预判的结果 [5] 当前状态与未来展望 - LongCat-2.0-Preview目前处于受邀内测阶段，每天提供1000万token免费额度 [6][43] - 该模型大概率将延续开源路线，具体的开源方式与时间有待公布 [42][43]