蚂蚁携手人大！发布行业首个原生MoE扩散语言模型

模型发布与核心创新 - 蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型“LLaDA-MoE” [1] - 新模型通过非自回归的掩码扩散机制，首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能，挑战了“语言模型必须自回归”的主流认知 [1] 模型性能与效率 - LLaDA-MoE模型在代码、数学、Agent等任务上性能领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型，接近或超越了自回归模型Qwen2.5-3B-Instruct [1] - 模型仅激活1.4B参数即可实现等效3B稠密模型的性能 [1] 技术研发与训练细节 - 蚂蚁与人大团队攻关3个月，在LLaDA-1.0基础上重写训练代码 [1] - 研发基于蚂蚁自研分布式框架ATorch提供的EP并行等一系列并行加速技术，并基于蚂蚁Ling2.0基础模型的训练数据 [1] - 团队在负载均衡、噪声采样漂移等核心难题上取得突破 [1] - 最终采用7B-A1B（总7B、激活1.4B）的MOE架构完成约20T数据的高效训练 [1]