华为发布业界首个扩散语言模型Agent,部分场景提速8倍!
量子位·2026-02-10 13:33

文章核心观点 - 研究表明,在保持其他所有条件一致的情况下,仅将智能体(Agent)的底层语言模型生成范式从自回归(AR)更换为扩散模型(DLLM),就能系统性提升智能体的规划与执行效率,使其成为构建高效智能体的全新设计维度[3][25][30] 实验设计与核心结论 - 研究团队进行了一项极端公平的对照实验,唯一变量是智能体背后的生成范式(AR vs DLLM),确保了框架、工具、数据、训练方式、上下文长度上限(32K)等完全一致[4] - 核心结论显示,在准确率基本持平的前提下,DLLM Agent的端到端执行速度平均提升30%以上,使用更少的交互轮次和工具调用,并展现出更强的规划能力[4] 基准测试性能表现 - 在包含110条任务的BrowseComp-zh中文多轮Web浏览基准测试中,DLLM Agent在准确率(15.5%)与AR Agent(15.4%)基本持平的情况下,平均工具调用次数(6.7次 vs 7.5次)和交互轮次(13.0轮 vs 14.8轮)更少[8][11] - 实验同时暴露了原生DLLM更容易产生结构化工具调用错误的问题[8] 典型案例效率差异 - 在一个典型的多约束检索案例中,DLLM Agent与AR Agent均得出正确答案,但DLLM Agent的端到端耗时仅为140.95秒,是AR Agent(1152.68秒)的8.18倍,展现出巨大的速度优势[13] - DLLM Agent通过一次明确的任务拆解和极短的工具调用路径完成任务,而AR Agent则经历了多轮规划、反复验证并生成了多个中间文档[13] DLLM作为强规划者的原理分析 - 规划阶段:DLLM Planner表现出先全局后细节的两阶段特征,能在1-2个扩散步骤内并行提取用户问题中的多个核心约束,形成全局框架后再细化,避免了AR模型顺序生成导致的早期偏差和冗余规划[16][18] - 工具调用阶段:DLLM会首先确定调用哪个工具,然后并行生成参数与细节,将整个工具调用视为一个可反复优化的整体“动作块”,而AR Agent则按顺序生成,一旦前面出错需依赖下一轮调用补救[19][22] - 注意力机制:DLLM在决策早期集中处理高不确定性,一旦高层决策形成,后续细节生成会高速收敛,注意力呈现从“全局到局部”的协调模式,这与AR追求局部最优的决策模式形成对比[28] 技术挑战与优化 - 扩散模型在处理智能体场景时,对结构化输出更敏感,容易产生工具调用错误[8][23] - 通过设计训练与推理一致的掩码策略(如context-clean corruption)和注意力对齐策略(如span-aware attention mask),可以提升DLLM Agent的推理性能和一致性[5][23] 行业意义与影响 - 该研究揭示生成范式本身会深刻塑造智能体的行为方式,扩散模型不再仅是另一种生成模型,而是构建高效智能体的一个全新设计维度[25][30] - 要充分发挥DLLM潜力,不能将其简单作为AR的替代品,而需要针对智能体的交互场景重新对齐接口与训练目标[24]

华为发布业界首个扩散语言模型Agent,部分场景提速8倍! - Reportify