扩散大语言模型
搜索文档
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA
机器之心· 2025-12-31 16:11
核心观点 - 上海交通大学DENG Lab与华为联合提出一种名为LoPA的无训练解码算法,通过前瞻并行解码机制,显著提升了扩散大语言模型的推理并行度和吞吐量,突破了现有解码策略的效率瓶颈 [2][7][18] 技术原理与创新 - **核心问题**:现有扩散大语言模型普遍采用置信度驱动采样,其贪婪的填词顺序限制了模型的并行潜力,导致单步生成通常局限于1-3个Token [13][14] - **算法创新**:LoPA引入前瞻并行解码机制,通过并行探索多个填词顺序分支并验证其未来置信度,主动选择最优路径,从而提升单步生成Token数 [9][16][18] - **关键特性**:该算法具有极高的并行度、无需训练、即插即用,并能通过分支并行最大化硬件利用率 [7][8][10] 性能提升数据 - **并行度提升**:在GSM8K基准上,LoPA将D2F-Dream模型的单步生成Token数从3.1提升至10.1,并行度提升超过3倍 [3][28][29] - **吞吐量表现**:配合自研的LoPA-Dist分布式推理系统,在华为Ascend 910C平台上实现了1073.9 tokens/s的单样本峰值吞吐量,在MBPP和GSM8K基准上的平均吞吐量分别达到1073.86和856.46 tokens/s [3][6][33][34] - **质量保持**:在MBPP、HumanEval等多个基准测试中,LoPA在显著提升TPF的同时,保持了与基线模型相当的精度得分 [29][30][31] 系统实现与优化 - **分布式系统**:为承载LoPA的多分支计算,团队设计了LoPA-Dist分布式推理系统,引入了分支并行策略,可与张量并行等现有机制混合使用 [24][25] - **硬件平台优化**:系统针对NVIDIA CUDA和华为Ascend平台进行了定制优化,分别面向低延迟和高吞吐场景,采用了不同的键值缓存管理协议和并行策略 [23][26][34] 应用与影响 - **模型适用性**:该研究在SOTA扩散语言模型D2F上进行了成功验证,未来计划进一步探索在SDAR等更多dLLM架构上的应用 [28][36] - **行业意义**:该工作通过算法与系统的协同设计,证明了非自回归模型在保持高性能的同时,能够实现远超传统自回归模型的推理速度,推动了高效生成模型的落地 [36]
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力
机器之心· 2025-08-25 17:10
大语言模型效率挑战与架构演进 - 大语言模型(LLMs)如GPT、Claude、Gemini等在语言理解、生成、代码生成等任务取得突破,但模型规模和数据量快速扩张导致算力和存储资源消耗急剧增加,训练与推理成本居高不下成为应用瓶颈 [2] - Transformer架构的自注意力机制存在O(N²)计算复杂度问题,在长序列任务中成本高昂,FFN部分的密集MLP层也面临效率问题 [3] - 新兴应用场景如RAG、智能体、长链推理和多模态进一步放长了序列需求,加剧了效率与性能之间的矛盾 [3] 高效架构研究综述 - 上海AI Lab联合多家机构总结440余篇论文,形成82页综述论文《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》,系统梳理LLM高效架构最新进展 [5][7] - 综述将高效架构分为7大类:线性序列建模、稀疏序列建模、高效全注意力、稀疏专家模型、混合模型架构、扩散语言模型和其他模态应用 [6][8] - 研究目标是在算力受限条件下持续推动AI发展,涉及方法类别和代表性论文已形成完整组织架构 [8][10] 线性序列建模技术 - 线性序列建模是研究热点方向,包括Mamba、Lighting Attention、RWKV等代表性工作,通过降低注意力训练和推理复杂度,无需KV Cache开销 [6][11] - 这些方法可概括为统一建模数学形式,通过线性化过程将预训练模型的Softmax Attention架构转为Linear Sequence Modeling架构,实现效率大幅提升 [11] - 具体分为线性注意力、线性RNN、状态空间模型和测试时推理RNN四类,从记忆视角和优化器视角进行统一对比 [12][14][15] - 线性化技术进一步细分为基于微调的线性化和基于蒸馏的线性化 [15] - 硬件高效实现方法包括Blelloch Scan、Chunk-wise Parallel和Recurrent for Inferences三种范式 [17] 稀疏序列建模方法 - 稀疏序列建模利用Attention Map天然稀疏性加速计算,分为静态稀疏注意力、动态稀疏注意力和免训练稀疏注意力三类 [21][24] - 代表性方法包括Global Attention、Window Attention、Dilated Attention等,通过不同稀疏模式降低计算与显存需求 [21][23] 高效全注意力优化 - 高效全注意力在保持完整注意力前提下优化内存访问与KV存储,分为IO-Aware Attention、Grouped Attention、Mixture of Attention和Quantized Attention四类 [22][25] - IO-Aware Attention包含广泛使用的Flash Attention系列,Grouped Attention包含GQA、MLA等全注意力变体 [22][28] 稀疏混合专家系统 - 稀疏混合专家(MoE)已成为语言和多模态大模型架构事实标准,通过对FFN模块改进大幅提升模型容量而不增加计算成本 [26][27] - 分为路由机制、专家架构和MoE转换三个方向,路由机制包括Token-choice和Expert-choice两类 [27][29][31] - 专家结构创新包括共享专家、细粒度专家、零专家、深度路由等 [31][33] - MoE转换通过Split、Copy、Merge等手段构造专家 [33] 混合架构设计 - 混合架构在线性/稀疏注意力和全注意力间取得平衡,分为层间混合和层内混合两种形式,在效率与效果间找到最佳平衡点 [34][35][37] 扩散语言模型进展 - 扩散大语言模型将扩散模型从视觉生成迁移至语言任务,在生成速度上取得大幅进步,分为非自回归扩散LLM、桥接扩散与自回归LLM以及扩展至多模态三类 [38][39][40][42] 多模态应用扩展 - 高效架构已扩展至视觉、音频和多模态领域,以Mamba为代表的线性模型在分类、检测、分割、生成、医疗、自动驾驶等多个视觉任务取得优秀表现 [43][44] - 在音频领域应用于理解、增强与生成任务,多模态领域涵盖理解与统一模型 [43][44] - 应用案例包括InsectMamba、V-MoE、Audio mamba、MaTAV等众多模型 [44]