Workflow
扩散语言模型Agent
icon
搜索文档
华为发布业界首个扩散语言模型Agent,部分场景提速8倍!
新浪财经· 2026-02-10 14:44
研究核心发现 - 在严格对照实验中,仅将智能体(Agent)的生成范式从自回归(AR)更换为扩散式大语言模型(DLLM),即可系统性地改变其规划与行为模式,使其执行效率显著提升 [2][29] - 研究发现,DLLM Agent 在端到端执行速度上平均提升 **30%** 以上,在部分复杂任务中甚至达到传统 AR 模型效率的 **8倍** [2][29] - 效率提升的核心原因并非仅源于并行解码速度,而是 DLLM 在 Agent 级别的规划与决策行为上更具优势,表现为“走得更直”,即用更短的路径和更少的交互完成任务 [4][26][32] 实验设计与对照 - 实验采用了“极端公平”的对照设计,唯一变量是生成范式(AR vs DLLM),确保了 Agent 框架、工具接口、训练数据、上下文长度上限(**32K**)等所有其他条件完全一致 [6][30][36] - 使用的 AR 模型为 openpangu 7b-v1,DLLM 模型为基于前者续训得到的 openpangu diffusion 7b,两者基础推理能力相似,排除了模型能力差异的干扰 [3][36] - 为避免干扰,研究针对 DLLM 在多轮长链交互场景进行了针对性训练调整,采用了 Mask 策略和 Attention 裁剪策略以提升训练和推理的一致性 [3][23] 基准测试性能表现 - 在包含 **110条** 任务的 BrowseComp-zh 基准测试中,DLLM Agent 与 AR Agent 的准确率持平,均为 **15.5%** [7][34] - 在准确率持平的前提下,DLLM Agent 平均工具调用次数从 **7.5次** 降至 **6.7次**,交互轮次从 **14.8轮** 降至 **13.0轮** [7][34] - DLLM Agent 展现出更强的规划能力,表现为更早收敛到正确轨迹、回溯和冗余更少,但原生 DLLM 的结构化工具调用错误率更高,为 **6.4%**,而 AR Agent 为 **1.9%** [7][34] 典型案例分析 - 在一个多约束检索的典型案例中,DLLM Agent 与 AR Agent 均得出正确答案,但端到端耗时存在 **8.18倍** 的巨大差异:DLLM Agent 仅需 **140.95秒**,而 AR Agent 需要 **1152.68秒** [10][12][38] - 效率差异源于执行逻辑:AR Agent 路径为“多轮规划、反复验证、生成多个中间文档”,而 DLLM Agent 为“一次明确任务拆解,极短工具调用路径” [12][38] - 案例表明,DLLM Agent 通过更高质量的规划,在部分任务上获得了远超基础模型效率差异的端到端性能收益 [13][39] DLLM 的规划优势原理 - **规划阶段**:DLLM Planner 表现出“先全局、后细节”的两阶段特征,能并行提取关键信息(如用户问题中的 **4个** 核心约束可在 **1–2个** 扩散步内识别),再逐步细化,这与 AR 必须按 token 顺序“边想边写”的模式形成对比 [15][41] - **工具调用阶段**:DLLM 的生成模式更稳定,会先确定调用工具,再并行生成参数与细节,将整个工具调用视为一个可反复优化的“动作块”;而 AR 是线性的流水线模式,一旦前面 token 出错则难以原地修正 [16][21][42][47] - **注意力机制**:DLLM 在生成过程中,高不确定性集中在决策早期,一旦高层决策形成,后续细节生成收敛速度极快;其注意力机制呈现“全局→局部”的协调模式,不同于 AR 的 token 级局部最优决策 [30][53] 行业意义与未来方向 - 该研究为 Agent 领域提供了全新视角,表明生成范式本身会深刻塑造 Agent 的行为方式,使其成为一个全新的设计维度 [25][51] - 要充分发挥 DLLM 在 Agent 场景的潜力,不能将其简单作为 AR 的替代品,而需要针对交互场景重新对齐接口与训练目标 [24][50] - 通过设计训练与推理一致的策略(如上下文清洁破坏和跨度感知注意力掩码),可以进一步提升 DLLM Agent 的推理性能,克服其对结构化输出更敏感的不足 [23][49]
华为发布业界首个扩散语言模型Agent,部分场景提速8倍!
量子位· 2026-02-10 13:33
文章核心观点 - 研究表明,在保持其他所有条件一致的情况下,仅将智能体(Agent)的底层语言模型生成范式从自回归(AR)更换为扩散模型(DLLM),就能系统性提升智能体的规划与执行效率,使其成为构建高效智能体的全新设计维度[3][25][30] 实验设计与核心结论 - 研究团队进行了一项极端公平的对照实验,唯一变量是智能体背后的生成范式(AR vs DLLM),确保了框架、工具、数据、训练方式、上下文长度上限(32K)等完全一致[4] - 核心结论显示,在准确率基本持平的前提下,DLLM Agent的端到端执行速度平均提升30%以上,使用更少的交互轮次和工具调用,并展现出更强的规划能力[4] 基准测试性能表现 - 在包含110条任务的BrowseComp-zh中文多轮Web浏览基准测试中,DLLM Agent在准确率(15.5%)与AR Agent(15.4%)基本持平的情况下,平均工具调用次数(6.7次 vs 7.5次)和交互轮次(13.0轮 vs 14.8轮)更少[8][11] - 实验同时暴露了原生DLLM更容易产生结构化工具调用错误的问题[8] 典型案例效率差异 - 在一个典型的多约束检索案例中,DLLM Agent与AR Agent均得出正确答案,但DLLM Agent的端到端耗时仅为140.95秒,是AR Agent(1152.68秒)的8.18倍,展现出巨大的速度优势[13] - DLLM Agent通过一次明确的任务拆解和极短的工具调用路径完成任务,而AR Agent则经历了多轮规划、反复验证并生成了多个中间文档[13] DLLM作为强规划者的原理分析 - **规划阶段**:DLLM Planner表现出先全局后细节的两阶段特征,能在1-2个扩散步骤内并行提取用户问题中的多个核心约束,形成全局框架后再细化,避免了AR模型顺序生成导致的早期偏差和冗余规划[16][18] - **工具调用阶段**:DLLM会首先确定调用哪个工具,然后并行生成参数与细节,将整个工具调用视为一个可反复优化的整体“动作块”,而AR Agent则按顺序生成,一旦前面出错需依赖下一轮调用补救[19][22] - **注意力机制**:DLLM在决策早期集中处理高不确定性,一旦高层决策形成,后续细节生成会高速收敛,注意力呈现从“全局到局部”的协调模式,这与AR追求局部最优的决策模式形成对比[28] 技术挑战与优化 - 扩散模型在处理智能体场景时,对结构化输出更敏感,容易产生工具调用错误[8][23] - 通过设计训练与推理一致的掩码策略(如context-clean corruption)和注意力对齐策略(如span-aware attention mask),可以提升DLLM Agent的推理性能和一致性[5][23] 行业意义与影响 - 该研究揭示生成范式本身会深刻塑造智能体的行为方式,扩散模型不再仅是另一种生成模型,而是构建高效智能体的一个全新设计维度[25][30] - 要充分发挥DLLM潜力,不能将其简单作为AR的替代品,而需要针对智能体的交互场景重新对齐接口与训练目标[24]