扩散大语言模型 - 财报，业绩电话会，研报，新闻

扩散大语言模型

搜索文档

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

量子位· 2026-03-02 17:09

GSAI IIR & GSAI-ML 团队投稿量子位 | 公众号 QbitAI 传统的搜索Agent有个问题：想完了才去搜，搜的时候干等着，等完了再接着想。就像你去餐厅点菜，非要把菜单研究透了才叫服务员，服务员去下单的时候你又呆坐着发愣，菜上了你才开始想下一道点什么。正常人不是这样吃饭的。你会一边看菜单一边叫服务员，服务员去下单的时候你继续研究下一道菜点什么。中国人民大学团队在论文DLLM-Searcher中，第一次让扩散大语言模型（dLLM）学会了这种"一心二用"的本事。先说清楚问题出在哪目前主流的搜索Agent，不管是Search-R1还是R1Searcher，用的都是ReAct框架。这个框架的执行流程是严格串行的：想→调工具→等结果→再想→再调工具→再等…… 每一轮里，"想"和"调工具"是模型一个token一个token从左到右吐出来的，等搜索引擎返回结果的时候模型完全闲着。多轮下来，延迟叠延迟，用户体验直接拉胯。团队算了笔账：在多跳问答任务里，这种串行等待吃掉了大量的端到端时间。那能不能让模型在等搜索结果的时候，继续想下一步？自回归模型做不到。因为它的注意力是因果的，必 ...

扩散大语言模型

搜索Agent

P-ReAct

Artificial Intelligence

Artificial Intelligence

DLLM-Searcher

7B扩散语言模型单样例1000+ tokens/s！上交大联合华为推出LoPA

机器之心· 2025-12-31 16:11

核心观点 - 上海交通大学DENG Lab与华为联合提出一种名为LoPA的无训练解码算法，通过前瞻并行解码机制，显著提升了扩散大语言模型的推理并行度和吞吐量，突破了现有解码策略的效率瓶颈 [2][7][18] 技术原理与创新 - **核心问题**：现有扩散大语言模型普遍采用置信度驱动采样，其贪婪的填词顺序限制了模型的并行潜力，导致单步生成通常局限于1-3个Token [13][14] - **算法创新**：LoPA引入前瞻并行解码机制，通过并行探索多个填词顺序分支并验证其未来置信度，主动选择最优路径，从而提升单步生成Token数 [9][16][18] - **关键特性**：该算法具有极高的并行度、无需训练、即插即用，并能通过分支并行最大化硬件利用率 [7][8][10] 性能提升数据 - **并行度提升**：在GSM8K基准上，LoPA将D2F-Dream模型的单步生成Token数从3.1提升至10.1，并行度提升超过3倍 [3][28][29] - **吞吐量表现**：配合自研的LoPA-Dist分布式推理系统，在华为Ascend 910C平台上实现了1073.9 tokens/s的单样本峰值吞吐量，在MBPP和GSM8K基准上的平均吞吐量分别达到1073.86和856.46 tokens/s [3][6][33][34] - **质量保持**：在MBPP、HumanEval等多个基准测试中，LoPA在显著提升TPF的同时，保持了与基线模型相当的精度得分 [29][30][31] 系统实现与优化 - **分布式系统**：为承载LoPA的多分支计算，团队设计了LoPA-Dist分布式推理系统，引入了分支并行策略，可与张量并行等现有机制混合使用 [24][25] - **硬件平台优化**：系统针对NVIDIA CUDA和华为Ascend平台进行了定制优化，分别面向低延迟和高吞吐场景，采用了不同的键值缓存管理协议和并行策略 [23][26][34] 应用与影响 - **模型适用性**：该研究在SOTA扩散语言模型D2F上进行了成功验证，未来计划进一步探索在SDAR等更多dLLM架构上的应用 [28][36] - **行业意义**：该工作通过算法与系统的协同设计，证明了非自回归模型在保持高性能的同时，能够实现远超传统自回归模型的推理速度，推动了高效生成模型的落地 [36]

扩散大语言模型

前瞻并行解码

Software and Services

Software and Services

LoPA

LoPA-Dist

Ascend 910C

唯快不破：上海AI Lab 82页综述带你感受LLM高效架构的魅力

机器之心· 2025-08-25 17:10

大语言模型效率挑战与架构演进 - 大语言模型（LLMs）如GPT、Claude、Gemini等在语言理解、生成、代码生成等任务取得突破，但模型规模和数据量快速扩张导致算力和存储资源消耗急剧增加，训练与推理成本居高不下成为应用瓶颈 [2] - Transformer架构的自注意力机制存在O(N²)计算复杂度问题，在长序列任务中成本高昂，FFN部分的密集MLP层也面临效率问题 [3] - 新兴应用场景如RAG、智能体、长链推理和多模态进一步放长了序列需求，加剧了效率与性能之间的矛盾 [3] 高效架构研究综述 - 上海AI Lab联合多家机构总结440余篇论文，形成82页综述论文《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》，系统梳理LLM高效架构最新进展 [5][7] - 综述将高效架构分为7大类：线性序列建模、稀疏序列建模、高效全注意力、稀疏专家模型、混合模型架构、扩散语言模型和其他模态应用 [6][8] - 研究目标是在算力受限条件下持续推动AI发展，涉及方法类别和代表性论文已形成完整组织架构 [8][10] 线性序列建模技术 - 线性序列建模是研究热点方向，包括Mamba、Lighting Attention、RWKV等代表性工作，通过降低注意力训练和推理复杂度，无需KV Cache开销 [6][11] - 这些方法可概括为统一建模数学形式，通过线性化过程将预训练模型的Softmax Attention架构转为Linear Sequence Modeling架构，实现效率大幅提升 [11] - 具体分为线性注意力、线性RNN、状态空间模型和测试时推理RNN四类，从记忆视角和优化器视角进行统一对比 [12][14][15] - 线性化技术进一步细分为基于微调的线性化和基于蒸馏的线性化 [15] - 硬件高效实现方法包括Blelloch Scan、Chunk-wise Parallel和Recurrent for Inferences三种范式 [17] 稀疏序列建模方法 - 稀疏序列建模利用Attention Map天然稀疏性加速计算，分为静态稀疏注意力、动态稀疏注意力和免训练稀疏注意力三类 [21][24] - 代表性方法包括Global Attention、Window Attention、Dilated Attention等，通过不同稀疏模式降低计算与显存需求 [21][23] 高效全注意力优化 - 高效全注意力在保持完整注意力前提下优化内存访问与KV存储，分为IO-Aware Attention、Grouped Attention、Mixture of Attention和Quantized Attention四类 [22][25] - IO-Aware Attention包含广泛使用的Flash Attention系列，Grouped Attention包含GQA、MLA等全注意力变体 [22][28] 稀疏混合专家系统 - 稀疏混合专家（MoE）已成为语言和多模态大模型架构事实标准，通过对FFN模块改进大幅提升模型容量而不增加计算成本 [26][27] - 分为路由机制、专家架构和MoE转换三个方向，路由机制包括Token-choice和Expert-choice两类 [27][29][31] - 专家结构创新包括共享专家、细粒度专家、零专家、深度路由等 [31][33] - MoE转换通过Split、Copy、Merge等手段构造专家 [33] 混合架构设计 - 混合架构在线性/稀疏注意力和全注意力间取得平衡，分为层间混合和层内混合两种形式，在效率与效果间找到最佳平衡点 [34][35][37] 扩散语言模型进展 - 扩散大语言模型将扩散模型从视觉生成迁移至语言任务，在生成速度上取得大幅进步，分为非自回归扩散LLM、桥接扩散与自回归LLM以及扩展至多模态三类 [38][39][40][42] 多模态应用扩展 - 高效架构已扩展至视觉、音频和多模态领域，以Mamba为代表的线性模型在分类、检测、分割、生成、医疗、自动驾驶等多个视觉任务取得优秀表现 [43][44] - 在音频领域应用于理解、增强与生成任务，多模态领域涵盖理解与统一模型 [43][44] - 应用案例包括InsectMamba、V-MoE、Audio mamba、MaTAV等众多模型 [44]