文章核心观点 - 一项由南洋理工大学、东南大学和阿里巴巴联合发布的综合评测报告揭示,扩散语言模型在智能体工作流中存在系统性缺陷,其因果推理和反思能力显著弱于同规模的自回归语言模型,导致在具身智能和工具调用任务上表现不佳[2] - 尽管扩散语言模型通过并行解码机制实现了更高的生成效率,但这削弱了其执行长链推理和精确格式化输出的能力,在智能体任务上呈现出“效率与能力的权衡”问题[2][15] - 研究团队提出了多智能体评测框架DiffuAgent,通过模块化评估发现,扩散语言模型在记忆、自验证等静态任务上表现良好,但在需要动态推理和精确格式化的任务上存在短板,揭示了其“能力不均衡”的特性[19][29] 具身智能体任务表现 - 在AlfWorld、ScienceWorld和BabyAI三个具身智能任务上,扩散语言模型的平均成功率(Success Rate)和平均任务进度(Progress Rate)均远低于自回归模型[7] - 具体数据:自回归模型Qwen-8B的平均成功率为45.0%,平均进度为62.1%;而扩散模型Llada-8B的平均成功率仅为7.5%,平均进度为16.4%,Dream-7B的平均成功率仅为3.2%,平均进度为8.7%[7] - 扩散模型难以进行因果推理和实时反思,频繁陷入重复性操作循环,而自回归模型则极少出现此类问题[12] 工具调用智能体任务表现 - 在伯克利函数调用基准(BFCL v3)评估中,扩散语言模型在单轮与多轮工具调用场景中均显著落后于自回归模型[10][13] - 具体数据:在非实时(Non-Live)任务中,自回归模型Qwen-8B平均得分为87.5,而扩散模型Llada-8B为23.0,Dream-7B为4.2;在多轮(Multi-Turn)任务中,扩散模型几乎无法成功完成一次完整调用,得分均为0.0[10] - 扩散模型更容易产生格式不规范、语义模糊的调用输出,在要求严格的结构化输出场景下表现尤其差[14] 多智能体框架下的模块化能力评估 - 当扩散语言模型作为记忆模块时,其对智能体准确性的影响与自回归模型相当,甚至更优:例如,使用Llada-8B作为记忆模块时,Qwen-8B主控智能体在AlfWorld任务上的成功率从36.6%提升至67.2%[22] - 当扩散语言模型作为自验证模块时,其终止判断比自回归模型更加可靠稳定,不易过早终止任务[23][25] - 当扩散语言模型应用于工具调用任务时,能有效完成工具选择,但由于并行生成机制带来的模糊性,在需要精确格式的格式修正任务上表现欠佳[26][28] 对扩散语言模型研究的启示与未来方向 - 训练层面:应在预训练和微调阶段引入强因果关系数据(如多步推理任务轨迹)并大幅增加结构化内容(如JSON代码、API调用)的比重,以提升模型对格式规范的理解和因果依赖的敏感性[31] - 解码层面:应探索自适应的混合生成策略,对关键推理步骤采用自回归解码以确保因果连贯,对静态任务和长文本生成采用并行解码以提升效率,并可在解码过程中引入格式约束和校正[31] - 评估层面:应建立面向智能体应用的基准体系,避免过度依赖MMLU、GSM8K等通用基准,需报告模型在智能体评估框架(如DiffuAgent)中的结果,建立覆盖真实应用场景的评估体系[31]
速度提升,能力却暴跌?扩散模型做智能体的残酷真相
机器之心·2026-02-12 12:00