大语言模型架构发展 - 近年来大语言模型领域的研究热点集中在取代Transformer的高效模型架构及预训练 主要包括线性序列建模和混合专家(MoE)两部分 但两者的结合研究较少 Linear-MoE架构的开源实现此前完全缺失 [1] - 近期广受好评的MiniMax-01模型(使用Lightning Attention-MoE)和腾讯混元TurboS模型(使用Mamba2-MoE)均属于Linear-MoE架构 [1] - 上海人工智能实验室团队最新成果Linear-MoE首次系统性地实现了线性序列建模与MoE的高效结合 并开源了完整技术框架 包括Modeling和Training两大部分 支持层间混合架构 [1] 线性序列建模技术进展 - 线性序列建模技术核心优势在于线性时间复杂度的训练和恒定内存占用的推理 主要分为线性注意力(Linear Attention) 状态空间模型(SSM)和线性RNN(Linear RNN)三大类 [5] - 代表性工作包括Lightning Attention GLA Mamba2 RWKV等 研究表明这些模型可通过统一的递归形式表达 反映出技术流派逐渐收敛至统一表达形式 [5] 混合专家(MoE)技术应用 - 国际上的GPT-4系列 Gemini系列 Claude系列以及国内的DeepSeek系列 Qwen系列 腾讯混元LLM 字节豆包 MiniMax-01 Moonshot-Kimi等都在All in MoE [8] Linear-MoE架构设计 - Linear-MoE支持线性序列建模层与MoE层的灵活组合 同时兼容传统Softmax Attention Transformer层 形成混合架构 [10] - 模块化架构包括LSM层(支持Lightning Attention Gated-DeltaNet Mamba2等方法)和MoE层(集成Qwen-MoE DeepSeek-MoE Mixtral-MoE等实现) [10] - 高效训练技术基于Megatron-Core框架开发 支持张量并行 流水线并行 专家并行 LASP和MegaBlocks等优化技术 [10] Linear-MoE性能验证 - 混合模型(线性+Softmax Attention)比纯线性模型表现出更稳定的训练曲线 [13] - 借助专家并行和MegaBlocks 系统在超大参数规模下仍保持高吞吐量 [13] - 线性模型推理速度比传统架构快2-5倍 内存占用降低50%以上 [13] - 在不同规模基准测试中 Linear-MoE展现出良好的性能线性增长 [13] 开源生态与未来方向 - Linear-MoE已全面开源 支持多种主流线性序列建模方法和MoE实现 填补了技术空白 提供可复现的高效训练方案 [13] - 未来将探索Linear-MoE在长上下文理解 Vision-Language模型架构中的应用潜力 [13]
Linear-MoE:线性注意力遇上混合专家的开源实践
机器之心·2025-05-29 19:38