研究核心发现 - 在严格对照实验中,仅将智能体(Agent)的生成范式从自回归(AR)更换为扩散式大语言模型(DLLM),即可系统性地改变其规划与行为模式,使其执行效率显著提升 [2][29] - 研究发现,DLLM Agent 在端到端执行速度上平均提升 30% 以上,在部分复杂任务中甚至达到传统 AR 模型效率的 8倍 [2][29] - 效率提升的核心原因并非仅源于并行解码速度,而是 DLLM 在 Agent 级别的规划与决策行为上更具优势,表现为“走得更直”,即用更短的路径和更少的交互完成任务 [4][26][32] 实验设计与对照 - 实验采用了“极端公平”的对照设计,唯一变量是生成范式(AR vs DLLM),确保了 Agent 框架、工具接口、训练数据、上下文长度上限(32K)等所有其他条件完全一致 [6][30][36] - 使用的 AR 模型为 openpangu 7b-v1,DLLM 模型为基于前者续训得到的 openpangu diffusion 7b,两者基础推理能力相似,排除了模型能力差异的干扰 [3][36] - 为避免干扰,研究针对 DLLM 在多轮长链交互场景进行了针对性训练调整,采用了 Mask 策略和 Attention 裁剪策略以提升训练和推理的一致性 [3][23] 基准测试性能表现 - 在包含 110条 任务的 BrowseComp-zh 基准测试中,DLLM Agent 与 AR Agent 的准确率持平,均为 15.5% [7][34] - 在准确率持平的前提下,DLLM Agent 平均工具调用次数从 7.5次 降至 6.7次,交互轮次从 14.8轮 降至 13.0轮 [7][34] - DLLM Agent 展现出更强的规划能力,表现为更早收敛到正确轨迹、回溯和冗余更少,但原生 DLLM 的结构化工具调用错误率更高,为 6.4%,而 AR Agent 为 1.9% [7][34] 典型案例分析 - 在一个多约束检索的典型案例中,DLLM Agent 与 AR Agent 均得出正确答案,但端到端耗时存在 8.18倍 的巨大差异:DLLM Agent 仅需 140.95秒,而 AR Agent 需要 1152.68秒 [10][12][38] - 效率差异源于执行逻辑:AR Agent 路径为“多轮规划、反复验证、生成多个中间文档”,而 DLLM Agent 为“一次明确任务拆解,极短工具调用路径” [12][38] - 案例表明,DLLM Agent 通过更高质量的规划,在部分任务上获得了远超基础模型效率差异的端到端性能收益 [13][39] DLLM 的规划优势原理 - 规划阶段:DLLM Planner 表现出“先全局、后细节”的两阶段特征,能并行提取关键信息(如用户问题中的 4个 核心约束可在 1–2个 扩散步内识别),再逐步细化,这与 AR 必须按 token 顺序“边想边写”的模式形成对比 [15][41] - 工具调用阶段:DLLM 的生成模式更稳定,会先确定调用工具,再并行生成参数与细节,将整个工具调用视为一个可反复优化的“动作块”;而 AR 是线性的流水线模式,一旦前面 token 出错则难以原地修正 [16][21][42][47] - 注意力机制:DLLM 在生成过程中,高不确定性集中在决策早期,一旦高层决策形成,后续细节生成收敛速度极快;其注意力机制呈现“全局→局部”的协调模式,不同于 AR 的 token 级局部最优决策 [30][53] 行业意义与未来方向 - 该研究为 Agent 领域提供了全新视角,表明生成范式本身会深刻塑造 Agent 的行为方式,使其成为一个全新的设计维度 [25][51] - 要充分发挥 DLLM 在 Agent 场景的潜力,不能将其简单作为 AR 的替代品,而需要针对交互场景重新对齐接口与训练目标 [24][50] - 通过设计训练与推理一致的策略(如上下文清洁破坏和跨度感知注意力掩码),可以进一步提升 DLLM Agent 的推理性能,克服其对结构化输出更敏感的不足 [23][49]
华为发布业界首个扩散语言模型Agent,部分场景提速8倍!
新浪财经·2026-02-10 14:44