自回归模型(AR)
搜索文档
华为发布业界首个扩散语言模型Agent,部分场景提速8倍!
新浪财经· 2026-02-10 14:44
研究核心发现 - 在严格对照实验中,仅将智能体(Agent)的生成范式从自回归(AR)更换为扩散式大语言模型(DLLM),即可系统性地改变其规划与行为模式,使其执行效率显著提升 [2][29] - 研究发现,DLLM Agent 在端到端执行速度上平均提升 **30%** 以上,在部分复杂任务中甚至达到传统 AR 模型效率的 **8倍** [2][29] - 效率提升的核心原因并非仅源于并行解码速度,而是 DLLM 在 Agent 级别的规划与决策行为上更具优势,表现为“走得更直”,即用更短的路径和更少的交互完成任务 [4][26][32] 实验设计与对照 - 实验采用了“极端公平”的对照设计,唯一变量是生成范式(AR vs DLLM),确保了 Agent 框架、工具接口、训练数据、上下文长度上限(**32K**)等所有其他条件完全一致 [6][30][36] - 使用的 AR 模型为 openpangu 7b-v1,DLLM 模型为基于前者续训得到的 openpangu diffusion 7b,两者基础推理能力相似,排除了模型能力差异的干扰 [3][36] - 为避免干扰,研究针对 DLLM 在多轮长链交互场景进行了针对性训练调整,采用了 Mask 策略和 Attention 裁剪策略以提升训练和推理的一致性 [3][23] 基准测试性能表现 - 在包含 **110条** 任务的 BrowseComp-zh 基准测试中,DLLM Agent 与 AR Agent 的准确率持平,均为 **15.5%** [7][34] - 在准确率持平的前提下,DLLM Agent 平均工具调用次数从 **7.5次** 降至 **6.7次**,交互轮次从 **14.8轮** 降至 **13.0轮** [7][34] - DLLM Agent 展现出更强的规划能力,表现为更早收敛到正确轨迹、回溯和冗余更少,但原生 DLLM 的结构化工具调用错误率更高,为 **6.4%**,而 AR Agent 为 **1.9%** [7][34] 典型案例分析 - 在一个多约束检索的典型案例中,DLLM Agent 与 AR Agent 均得出正确答案,但端到端耗时存在 **8.18倍** 的巨大差异:DLLM Agent 仅需 **140.95秒**,而 AR Agent 需要 **1152.68秒** [10][12][38] - 效率差异源于执行逻辑:AR Agent 路径为“多轮规划、反复验证、生成多个中间文档”,而 DLLM Agent 为“一次明确任务拆解,极短工具调用路径” [12][38] - 案例表明,DLLM Agent 通过更高质量的规划,在部分任务上获得了远超基础模型效率差异的端到端性能收益 [13][39] DLLM 的规划优势原理 - **规划阶段**:DLLM Planner 表现出“先全局、后细节”的两阶段特征,能并行提取关键信息(如用户问题中的 **4个** 核心约束可在 **1–2个** 扩散步内识别),再逐步细化,这与 AR 必须按 token 顺序“边想边写”的模式形成对比 [15][41] - **工具调用阶段**:DLLM 的生成模式更稳定,会先确定调用工具,再并行生成参数与细节,将整个工具调用视为一个可反复优化的“动作块”;而 AR 是线性的流水线模式,一旦前面 token 出错则难以原地修正 [16][21][42][47] - **注意力机制**:DLLM 在生成过程中,高不确定性集中在决策早期,一旦高层决策形成,后续细节生成收敛速度极快;其注意力机制呈现“全局→局部”的协调模式,不同于 AR 的 token 级局部最优决策 [30][53] 行业意义与未来方向 - 该研究为 Agent 领域提供了全新视角,表明生成范式本身会深刻塑造 Agent 的行为方式,使其成为一个全新的设计维度 [25][51] - 要充分发挥 DLLM 在 Agent 场景的潜力,不能将其简单作为 AR 的替代品,而需要针对交互场景重新对齐接口与训练目标 [24][50] - 通过设计训练与推理一致的策略(如上下文清洁破坏和跨度感知注意力掩码),可以进一步提升 DLLM Agent 的推理性能,克服其对结构化输出更敏感的不足 [23][49]