蚂蚁携手人大!发布行业首个原生MoE扩散语言模型
新浪科技·2025-09-12 10:27

模型发布与核心创新 - 蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型“LLaDA-MoE” [1] - 新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能,挑战了“语言模型必须自回归”的主流认知 [1] 模型性能与效率 - LLaDA-MoE模型在代码、数学、Agent等任务上性能领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型Qwen2.5-3B-Instruct [1] - 模型仅激活1.4B参数即可实现等效3B稠密模型的性能 [1] 技术研发与训练细节 - 蚂蚁与人大团队攻关3个月,在LLaDA-1.0基础上重写训练代码 [1] - 研发基于蚂蚁自研分布式框架ATorch提供的EP并行等一系列并行加速技术,并基于蚂蚁Ling2.0基础模型的训练数据 [1] - 团队在负载均衡、噪声采样漂移等核心难题上取得突破 [1] - 最终采用7B-A1B(总7B、激活1.4B)的MOE架构完成约20T数据的高效训练 [1]