华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

研究核心发现 - 在严格对照实验中，仅将智能体（Agent）的生成范式从自回归（AR）更换为扩散式大语言模型（DLLM），即可系统性地改变其规划与行为模式，使其执行效率显著提升 [2][29] - 研究发现，DLLM Agent 在端到端执行速度上平均提升 30% 以上，在部分复杂任务中甚至达到传统 AR 模型效率的 8倍 [2][29] - 效率提升的核心原因并非仅源于并行解码速度，而是 DLLM 在 Agent 级别的规划与决策行为上更具优势，表现为“走得更直”，即用更短的路径和更少的交互完成任务 [4][26][32] 实验设计与对照 - 实验采用了“极端公平”的对照设计，唯一变量是生成范式（AR vs DLLM），确保了 Agent 框架、工具接口、训练数据、上下文长度上限（32K）等所有其他条件完全一致 [6][30][36] - 使用的 AR 模型为 openpangu 7b-v1，DLLM 模型为基于前者续训得到的 openpangu diffusion 7b，两者基础推理能力相似，排除了模型能力差异的干扰 [3][36] - 为避免干扰，研究针对 DLLM 在多轮长链交互场景进行了针对性训练调整，采用了 Mask 策略和 Attention 裁剪策略以提升训练和推理的一致性 [3][23] 基准测试性能表现 - 在包含 110条 任务的 BrowseComp-zh 基准测试中，DLLM Agent 与 AR Agent 的准确率持平，均为 15.5% [7][34] - 在准确率持平的前提下，DLLM Agent 平均工具调用次数从 7.5次 降至 6.7次，交互轮次从 14.8轮 降至 13.0轮 [7][34] - DLLM Agent 展现出更强的规划能力，表现为更早收敛到正确轨迹、回溯和冗余更少，但原生 DLLM 的结构化工具调用错误率更高，为 6.4%，而 AR Agent 为 1.9% [7][34] 典型案例分析 - 在一个多约束检索的典型案例中，DLLM Agent 与 AR Agent 均得出正确答案，但端到端耗时存在 8.18倍 的巨大差异：DLLM Agent 仅需 140.95秒，而 AR Agent 需要 1152.68秒 [10][12][38] - 效率差异源于执行逻辑：AR Agent 路径为“多轮规划、反复验证、生成多个中间文档”，而 DLLM Agent 为“一次明确任务拆解，极短工具调用路径” [12][38] - 案例表明，DLLM Agent 通过更高质量的规划，在部分任务上获得了远超基础模型效率差异的端到端性能收益 [13][39] DLLM 的规划优势原理 - 规划阶段：DLLM Planner 表现出“先全局、后细节”的两阶段特征，能并行提取关键信息（如用户问题中的 4个核心约束可在 1–2个 扩散步内识别），再逐步细化，这与 AR 必须按 token 顺序“边想边写”的模式形成对比 [15][41] - 工具调用阶段：DLLM 的生成模式更稳定，会先确定调用工具，再并行生成参数与细节，将整个工具调用视为一个可反复优化的“动作块”；而 AR 是线性的流水线模式，一旦前面 token 出错则难以原地修正 [16][21][42][47] - 注意力机制：DLLM 在生成过程中，高不确定性集中在决策早期，一旦高层决策形成，后续细节生成收敛速度极快；其注意力机制呈现“全局→局部”的协调模式，不同于 AR 的 token 级局部最优决策 [30][53] 行业意义与未来方向 - 该研究为 Agent 领域提供了全新视角，表明生成范式本身会深刻塑造 Agent 的行为方式，使其成为一个全新的设计维度 [25][51] - 要充分发挥 DLLM 在 Agent 场景的潜力，不能将其简单作为 AR 的替代品，而需要针对交互场景重新对齐接口与训练目标 [24][50] - 通过设计训练与推理一致的策略（如上下文清洁破坏和跨度感知注意力掩码），可以进一步提升 DLLM Agent 的推理性能，克服其对结构化输出更敏感的不足 [23][49]