Workflow
扩散大语言模型
icon
搜索文档
让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减
量子位· 2026-03-02 17:09
文章核心观点 - 中国人民大学团队提出DLLM-Searcher,首次成功将扩散大语言模型应用于搜索智能体,通过创新的两阶段训练和P-ReAct并行推理方案,解决了传统自回归模型在搜索任务中因串行等待导致的效率低下问题,实现了“边等边想”的并行化,在保持高准确率的同时显著加速了推理过程[5][28] 当前搜索智能体的技术瓶颈 - 主流搜索智能体基于ReAct框架,其“思考-调用工具-等待结果”的流程是严格串行的,导致模型在等待搜索引擎返回结果时完全空闲,多轮累积造成严重的端到端延迟,损害用户体验[8] - 自回归语言模型因其因果注意力机制,无法在输出工具调用后继续输出思考内容,实验表明强行改变顺序会导致模型性能显著下降,例如Qwen3系列模型准确率明显降低[10] 扩散大语言模型的技术原理与初始挑战 - 扩散大语言模型与自回归模型的核心区别在于其并行去噪的生成方式,所有位置的文本同时生成,这使其理论上具备自由生成顺序和潜在推理能力,在解码前就已“知道”答案[12][13] - 然而,未经调教的原始扩散模型直接用作搜索智能体时表现极差,在HotpotQA的500条测试题中成功率为0%,主要失败模式包括直接输出结束符(31.2%)、忘记调工具(28.4%)、标签不完整(17.8%)和格式非法(7%)[14][15][16] DLLM-Searcher的训练方法 - 训练分为两个阶段:第一阶段为Agentic SFT(监督微调),使用强模型生成的高质量轨迹对dLLM进行训练,并通过创新的Agentic Noising技术防止模型在训练时偷看同一块内的未来搜索结果,确保训练与推理的一致性[18][19] - 第二阶段为Agentic VRPO(方差缩减的偏好优化),通过偏好学习进一步区分正确与错误的推理路径,使用2237组有效训练对,使模型在所有数据集上的性能再提升3个百分点以上[20] P-ReAct并行推理加速方案 - P-ReAct是一种无需额外训练的推理加速方案,核心思路是预填充工具调用区域的边界标记,并给该区域的token置信度添加一个正偏置(α=0.5),从而人为提高工具调用的解码优先级[22][23] - 该方案使模型能几乎100%优先完成工具调用并发送给搜索引擎,然后在等待结果返回的间隙继续填充思考部分,实现了真正的“先行动后思考”,案例显示在第32步时工具调用已解码完成而思考部分仍是空白[24] - P-ReAct带来了14.77%到22.08%的端到端推理加速,且性能几乎没有损失[26] 模型性能与影响 - 在HotpotQA、2WikiMultiHopQA、Bamboogle、Musique四个多跳问答基准测试中,DLLM-Searcher的平均准确率达到57.0 (ACC_R) / 56.6(ACC_L),全面超越传统RAG方法,并与顶尖的自回归搜索智能体R1Searcher持平或小幅领先[25] - 模型展现出强大的泛化能力,仅用不到8000条数据训练,就在域外数据集Bamboogle上取得了68.8的高分[27] - 该研究首次证明,经过针对性训练的扩散大语言模型不仅能达到自回归模型的推理水平,更能利用其并行生成的结构性优势,实现自回归模型无法做到的“等待时保持思考”,为搜索智能体的效率优化开辟了新路径[26][28]
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA
机器之心· 2025-12-31 16:11
核心观点 - 上海交通大学DENG Lab与华为联合提出一种名为LoPA的无训练解码算法,通过前瞻并行解码机制,显著提升了扩散大语言模型的推理并行度和吞吐量,突破了现有解码策略的效率瓶颈 [2][7][18] 技术原理与创新 - **核心问题**:现有扩散大语言模型普遍采用置信度驱动采样,其贪婪的填词顺序限制了模型的并行潜力,导致单步生成通常局限于1-3个Token [13][14] - **算法创新**:LoPA引入前瞻并行解码机制,通过并行探索多个填词顺序分支并验证其未来置信度,主动选择最优路径,从而提升单步生成Token数 [9][16][18] - **关键特性**:该算法具有极高的并行度、无需训练、即插即用,并能通过分支并行最大化硬件利用率 [7][8][10] 性能提升数据 - **并行度提升**:在GSM8K基准上,LoPA将D2F-Dream模型的单步生成Token数从3.1提升至10.1,并行度提升超过3倍 [3][28][29] - **吞吐量表现**:配合自研的LoPA-Dist分布式推理系统,在华为Ascend 910C平台上实现了1073.9 tokens/s的单样本峰值吞吐量,在MBPP和GSM8K基准上的平均吞吐量分别达到1073.86和856.46 tokens/s [3][6][33][34] - **质量保持**:在MBPP、HumanEval等多个基准测试中,LoPA在显著提升TPF的同时,保持了与基线模型相当的精度得分 [29][30][31] 系统实现与优化 - **分布式系统**:为承载LoPA的多分支计算,团队设计了LoPA-Dist分布式推理系统,引入了分支并行策略,可与张量并行等现有机制混合使用 [24][25] - **硬件平台优化**:系统针对NVIDIA CUDA和华为Ascend平台进行了定制优化,分别面向低延迟和高吞吐场景,采用了不同的键值缓存管理协议和并行策略 [23][26][34] 应用与影响 - **模型适用性**:该研究在SOTA扩散语言模型D2F上进行了成功验证,未来计划进一步探索在SDAR等更多dLLM架构上的应用 [28][36] - **行业意义**:该工作通过算法与系统的协同设计,证明了非自回归模型在保持高性能的同时,能够实现远超传统自回归模型的推理速度,推动了高效生成模型的落地 [36]
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力
机器之心· 2025-08-25 17:10
大语言模型效率挑战与架构演进 - 大语言模型(LLMs)如GPT、Claude、Gemini等在语言理解、生成、代码生成等任务取得突破,但模型规模和数据量快速扩张导致算力和存储资源消耗急剧增加,训练与推理成本居高不下成为应用瓶颈 [2] - Transformer架构的自注意力机制存在O(N²)计算复杂度问题,在长序列任务中成本高昂,FFN部分的密集MLP层也面临效率问题 [3] - 新兴应用场景如RAG、智能体、长链推理和多模态进一步放长了序列需求,加剧了效率与性能之间的矛盾 [3] 高效架构研究综述 - 上海AI Lab联合多家机构总结440余篇论文,形成82页综述论文《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》,系统梳理LLM高效架构最新进展 [5][7] - 综述将高效架构分为7大类:线性序列建模、稀疏序列建模、高效全注意力、稀疏专家模型、混合模型架构、扩散语言模型和其他模态应用 [6][8] - 研究目标是在算力受限条件下持续推动AI发展,涉及方法类别和代表性论文已形成完整组织架构 [8][10] 线性序列建模技术 - 线性序列建模是研究热点方向,包括Mamba、Lighting Attention、RWKV等代表性工作,通过降低注意力训练和推理复杂度,无需KV Cache开销 [6][11] - 这些方法可概括为统一建模数学形式,通过线性化过程将预训练模型的Softmax Attention架构转为Linear Sequence Modeling架构,实现效率大幅提升 [11] - 具体分为线性注意力、线性RNN、状态空间模型和测试时推理RNN四类,从记忆视角和优化器视角进行统一对比 [12][14][15] - 线性化技术进一步细分为基于微调的线性化和基于蒸馏的线性化 [15] - 硬件高效实现方法包括Blelloch Scan、Chunk-wise Parallel和Recurrent for Inferences三种范式 [17] 稀疏序列建模方法 - 稀疏序列建模利用Attention Map天然稀疏性加速计算,分为静态稀疏注意力、动态稀疏注意力和免训练稀疏注意力三类 [21][24] - 代表性方法包括Global Attention、Window Attention、Dilated Attention等,通过不同稀疏模式降低计算与显存需求 [21][23] 高效全注意力优化 - 高效全注意力在保持完整注意力前提下优化内存访问与KV存储,分为IO-Aware Attention、Grouped Attention、Mixture of Attention和Quantized Attention四类 [22][25] - IO-Aware Attention包含广泛使用的Flash Attention系列,Grouped Attention包含GQA、MLA等全注意力变体 [22][28] 稀疏混合专家系统 - 稀疏混合专家(MoE)已成为语言和多模态大模型架构事实标准,通过对FFN模块改进大幅提升模型容量而不增加计算成本 [26][27] - 分为路由机制、专家架构和MoE转换三个方向,路由机制包括Token-choice和Expert-choice两类 [27][29][31] - 专家结构创新包括共享专家、细粒度专家、零专家、深度路由等 [31][33] - MoE转换通过Split、Copy、Merge等手段构造专家 [33] 混合架构设计 - 混合架构在线性/稀疏注意力和全注意力间取得平衡,分为层间混合和层内混合两种形式,在效率与效果间找到最佳平衡点 [34][35][37] 扩散语言模型进展 - 扩散大语言模型将扩散模型从视觉生成迁移至语言任务,在生成速度上取得大幅进步,分为非自回归扩散LLM、桥接扩散与自回归LLM以及扩展至多模态三类 [38][39][40][42] 多模态应用扩展 - 高效架构已扩展至视觉、音频和多模态领域,以Mamba为代表的线性模型在分类、检测、分割、生成、医疗、自动驾驶等多个视觉任务取得优秀表现 [43][44] - 在音频领域应用于理解、增强与生成任务,多模态领域涵盖理解与统一模型 [43][44] - 应用案例包括InsectMamba、V-MoE、Audio mamba、MaTAV等众多模型 [44]