华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

文章核心观点 - 研究表明，在保持其他所有条件一致的情况下，仅将智能体（Agent）的底层语言模型生成范式从自回归（AR）更换为扩散模型（DLLM），就能系统性提升智能体的规划与执行效率，使其成为构建高效智能体的全新设计维度[3][25][30] 实验设计与核心结论 - 研究团队进行了一项极端公平的对照实验，唯一变量是智能体背后的生成范式（AR vs DLLM），确保了框架、工具、数据、训练方式、上下文长度上限（32K）等完全一致[4] - 核心结论显示，在准确率基本持平的前提下，DLLM Agent的端到端执行速度平均提升30%以上，使用更少的交互轮次和工具调用，并展现出更强的规划能力[4] 基准测试性能表现 - 在包含110条任务的BrowseComp-zh中文多轮Web浏览基准测试中，DLLM Agent在准确率（15.5%）与AR Agent（15.4%）基本持平的情况下，平均工具调用次数（6.7次 vs 7.5次）和交互轮次（13.0轮 vs 14.8轮）更少[8][11] - 实验同时暴露了原生DLLM更容易产生结构化工具调用错误的问题[8] 典型案例效率差异 - 在一个典型的多约束检索案例中，DLLM Agent与AR Agent均得出正确答案，但DLLM Agent的端到端耗时仅为140.95秒，是AR Agent（1152.68秒）的8.18倍，展现出巨大的速度优势[13] - DLLM Agent通过一次明确的任务拆解和极短的工具调用路径完成任务，而AR Agent则经历了多轮规划、反复验证并生成了多个中间文档[13] DLLM作为强规划者的原理分析 - 规划阶段：DLLM Planner表现出先全局后细节的两阶段特征，能在1-2个扩散步骤内并行提取用户问题中的多个核心约束，形成全局框架后再细化，避免了AR模型顺序生成导致的早期偏差和冗余规划[16][18] - 工具调用阶段：DLLM会首先确定调用哪个工具，然后并行生成参数与细节，将整个工具调用视为一个可反复优化的整体“动作块”，而AR Agent则按顺序生成，一旦前面出错需依赖下一轮调用补救[19][22] - 注意力机制：DLLM在决策早期集中处理高不确定性，一旦高层决策形成，后续细节生成会高速收敛，注意力呈现从“全局到局部”的协调模式，这与AR追求局部最优的决策模式形成对比[28] 技术挑战与优化 - 扩散模型在处理智能体场景时，对结构化输出更敏感，容易产生工具调用错误[8][23] - 通过设计训练与推理一致的掩码策略（如context-clean corruption）和注意力对齐策略（如span-aware attention mask），可以提升DLLM Agent的推理性能和一致性[5][23] 行业意义与影响 - 该研究揭示生成范式本身会深刻塑造智能体的行为方式，扩散模型不再仅是另一种生成模型，而是构建高效智能体的一个全新设计维度[25][30] - 要充分发挥DLLM潜力，不能将其简单作为AR的替代品，而需要针对智能体的交互场景重新对齐接口与训练目标[24]