让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

文章核心观点 - 中国人民大学团队提出DLLM-Searcher，首次成功将扩散大语言模型应用于搜索智能体，通过创新的两阶段训练和P-ReAct并行推理方案，解决了传统自回归模型在搜索任务中因串行等待导致的效率低下问题，实现了“边等边想”的并行化，在保持高准确率的同时显著加速了推理过程[5][28] 当前搜索智能体的技术瓶颈 - 主流搜索智能体基于ReAct框架，其“思考-调用工具-等待结果”的流程是严格串行的，导致模型在等待搜索引擎返回结果时完全空闲，多轮累积造成严重的端到端延迟，损害用户体验[8] - 自回归语言模型因其因果注意力机制，无法在输出工具调用后继续输出思考内容，实验表明强行改变顺序会导致模型性能显著下降，例如Qwen3系列模型准确率明显降低[10] 扩散大语言模型的技术原理与初始挑战 - 扩散大语言模型与自回归模型的核心区别在于其并行去噪的生成方式，所有位置的文本同时生成，这使其理论上具备自由生成顺序和潜在推理能力，在解码前就已“知道”答案[12][13] - 然而，未经调教的原始扩散模型直接用作搜索智能体时表现极差，在HotpotQA的500条测试题中成功率为0%，主要失败模式包括直接输出结束符(31.2%)、忘记调工具(28.4%)、标签不完整(17.8%)和格式非法(7%)[14][15][16] DLLM-Searcher的训练方法 - 训练分为两个阶段：第一阶段为Agentic SFT（监督微调），使用强模型生成的高质量轨迹对dLLM进行训练，并通过创新的Agentic Noising技术防止模型在训练时偷看同一块内的未来搜索结果，确保训练与推理的一致性[18][19] - 第二阶段为Agentic VRPO（方差缩减的偏好优化），通过偏好学习进一步区分正确与错误的推理路径，使用2237组有效训练对，使模型在所有数据集上的性能再提升3个百分点以上[20] P-ReAct并行推理加速方案 - P-ReAct是一种无需额外训练的推理加速方案，核心思路是预填充工具调用区域的边界标记，并给该区域的token置信度添加一个正偏置(α=0.5)，从而人为提高工具调用的解码优先级[22][23] - 该方案使模型能几乎100%优先完成工具调用并发送给搜索引擎，然后在等待结果返回的间隙继续填充思考部分，实现了真正的“先行动后思考”，案例显示在第32步时工具调用已解码完成而思考部分仍是空白[24] - P-ReAct带来了14.77%到22.08%的端到端推理加速，且性能几乎没有损失[26] 模型性能与影响 - 在HotpotQA、2WikiMultiHopQA、Bamboogle、Musique四个多跳问答基准测试中，DLLM-Searcher的平均准确率达到57.0 (ACC_R) / 56.6(ACC_L)，全面超越传统RAG方法，并与顶尖的自回归搜索智能体R1Searcher持平或小幅领先[25] - 模型展现出强大的泛化能力，仅用不到8000条数据训练，就在域外数据集Bamboogle上取得了68.8的高分[27] - 该研究首次证明，经过针对性训练的扩散大语言模型不仅能达到自回归模型的推理水平，更能利用其并行生成的结构性优势，实现自回归模型无法做到的“等待时保持思考”，为搜索智能体的效率优化开辟了新路径[26][28]