扩散语言模型Agent - 财报，业绩电话会，研报，新闻

扩散语言模型Agent

搜索文档

新浪财经· 2026-02-10 14:44

研究核心发现 - 在严格对照实验中，仅将智能体（Agent）的生成范式从自回归（AR）更换为扩散式大语言模型（DLLM），即可系统性地改变其规划与行为模式，使其执行效率显著提升 [2][29] - 研究发现，DLLM Agent 在端到端执行速度上平均提升 **30%** 以上，在部分复杂任务中甚至达到传统 AR 模型效率的 **8倍** [2][29] - 效率提升的核心原因并非仅源于并行解码速度，而是 DLLM 在 Agent 级别的规划与决策行为上更具优势，表现为“走得更直”，即用更短的路径和更少的交互完成任务 [4][26][32] 实验设计与对照 - 实验采用了“极端公平”的对照设计，唯一变量是生成范式（AR vs DLLM），确保了 Agent 框架、工具接口、训练数据、上下文长度上限（**32K**）等所有其他条件完全一致 [6][30][36] - 使用的 AR 模型为 openpangu 7b-v1，DLLM 模型为基于前者续训得到的 openpangu diffusion 7b，两者基础推理能力相似，排除了模型能力差异的干扰 [3][36] - 为避免干扰，研究针对 DLLM 在多轮长链交互场景进行了针对性训练调整，采用了 Mask 策略和 Attention 裁剪策略以提升训练和推理的一致性 [3][23] 基准测试性能表现 - 在包含 **110条** 任务的 BrowseComp-zh 基准测试中，DLLM Agent 与 AR Agent 的准确率持平，均为 **15.5%** [7][34] - 在准确率持平的前提下，DLLM Agent 平均工具调用次数从 **7.5次** 降至 **6.7次**，交互轮次从 **14.8轮** 降至 **13.0轮** [7][34] - DLLM Agent 展现出更强的规划能力，表现为更早收敛到正确轨迹、回溯和冗余更少，但原生 DLLM 的结构化工具调用错误率更高，为 **6.4%**，而 AR Agent 为 **1.9%** [7][34] 典型案例分析 - 在一个多约束检索的典型案例中，DLLM Agent 与 AR Agent 均得出正确答案，但端到端耗时存在 **8.18倍** 的巨大差异：DLLM Agent 仅需 **140.95秒**，而 AR Agent 需要 **1152.68秒** [10][12][38] - 效率差异源于执行逻辑：AR Agent 路径为“多轮规划、反复验证、生成多个中间文档”，而 DLLM Agent 为“一次明确任务拆解，极短工具调用路径” [12][38] - 案例表明，DLLM Agent 通过更高质量的规划，在部分任务上获得了远超基础模型效率差异的端到端性能收益 [13][39] DLLM 的规划优势原理 - **规划阶段**：DLLM Planner 表现出“先全局、后细节”的两阶段特征，能并行提取关键信息（如用户问题中的 **4个** 核心约束可在 **1–2个** 扩散步内识别），再逐步细化，这与 AR 必须按 token 顺序“边想边写”的模式形成对比 [15][41] - **工具调用阶段**：DLLM 的生成模式更稳定，会先确定调用工具，再并行生成参数与细节，将整个工具调用视为一个可反复优化的“动作块”；而 AR 是线性的流水线模式，一旦前面 token 出错则难以原地修正 [16][21][42][47] - **注意力机制**：DLLM 在生成过程中，高不确定性集中在决策早期，一旦高层决策形成，后续细节生成收敛速度极快；其注意力机制呈现“全局→局部”的协调模式，不同于 AR 的 token 级局部最优决策 [30][53] 行业意义与未来方向 - 该研究为 Agent 领域提供了全新视角，表明生成范式本身会深刻塑造 Agent 的行为方式，使其成为一个全新的设计维度 [25][51] - 要充分发挥 DLLM 在 Agent 场景的潜力，不能将其简单作为 AR 的替代品，而需要针对交互场景重新对齐接口与训练目标 [24][50] - 通过设计训练与推理一致的策略（如上下文清洁破坏和跨度感知注意力掩码），可以进一步提升 DLLM Agent 的推理性能，克服其对结构化输出更敏感的不足 [23][49]

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

量子位· 2026-02-10 13:33

文章核心观点 - 研究表明，在保持其他所有条件一致的情况下，仅将智能体（Agent）的底层语言模型生成范式从自回归（AR）更换为扩散模型（DLLM），就能系统性提升智能体的规划与执行效率，使其成为构建高效智能体的全新设计维度[3][25][30] 实验设计与核心结论 - 研究团队进行了一项极端公平的对照实验，唯一变量是智能体背后的生成范式（AR vs DLLM），确保了框架、工具、数据、训练方式、上下文长度上限（32K）等完全一致[4] - 核心结论显示，在准确率基本持平的前提下，DLLM Agent的端到端执行速度平均提升30%以上，使用更少的交互轮次和工具调用，并展现出更强的规划能力[4] 基准测试性能表现 - 在包含110条任务的BrowseComp-zh中文多轮Web浏览基准测试中，DLLM Agent在准确率（15.5%）与AR Agent（15.4%）基本持平的情况下，平均工具调用次数（6.7次 vs 7.5次）和交互轮次（13.0轮 vs 14.8轮）更少[8][11] - 实验同时暴露了原生DLLM更容易产生结构化工具调用错误的问题[8] 典型案例效率差异 - 在一个典型的多约束检索案例中，DLLM Agent与AR Agent均得出正确答案，但DLLM Agent的端到端耗时仅为140.95秒，是AR Agent（1152.68秒）的8.18倍，展现出巨大的速度优势[13] - DLLM Agent通过一次明确的任务拆解和极短的工具调用路径完成任务，而AR Agent则经历了多轮规划、反复验证并生成了多个中间文档[13] DLLM作为强规划者的原理分析 - **规划阶段**：DLLM Planner表现出先全局后细节的两阶段特征，能在1-2个扩散步骤内并行提取用户问题中的多个核心约束，形成全局框架后再细化，避免了AR模型顺序生成导致的早期偏差和冗余规划[16][18] - **工具调用阶段**：DLLM会首先确定调用哪个工具，然后并行生成参数与细节，将整个工具调用视为一个可反复优化的整体“动作块”，而AR Agent则按顺序生成，一旦前面出错需依赖下一轮调用补救[19][22] - **注意力机制**：DLLM在决策早期集中处理高不确定性，一旦高层决策形成，后续细节生成会高速收敛，注意力呈现从“全局到局部”的协调模式，这与AR追求局部最优的决策模式形成对比[28] 技术挑战与优化 - 扩散模型在处理智能体场景时，对结构化输出更敏感，容易产生工具调用错误[8][23] - 通过设计训练与推理一致的掩码策略（如context-clean corruption）和注意力对齐策略（如span-aware attention mask），可以提升DLLM Agent的推理性能和一致性[5][23] 行业意义与影响 - 该研究揭示生成范式本身会深刻塑造智能体的行为方式，扩散模型不再仅是另一种生成模型，而是构建高效智能体的一个全新设计维度[25][30] - 要充分发挥DLLM潜力，不能将其简单作为AR的替代品，而需要针对智能体的交互场景重新对齐接口与训练目标[24]