前瞻治理 - 财报，业绩电话会，研报，新闻

前瞻治理

搜索文档

ACL 2026｜世界模型能让智能体「预知未来」？这篇新范式研究给了一个反直觉的答案

机器之心· 2026-05-04 09:39

文章核心观点 - 当前世界模型赋能智能体的主流范式存在瓶颈，即使提供100%准确的前瞻信号，大多数智能体也无法稳定、有效地利用它来提升决策表现，问题的根源在于缺乏“前瞻治理”能力[3][4][37] 世界模型与智能体的关系及研究范式 - 世界模型与智能体在理论上构成互补闭环：世界模型接收动作并预测环境状态，智能体根据环境状态输出动作，世界模型对智能体的赋能称为“前瞻”[2][3] - 研究提出将世界模型“工具化”的范式，智能体在每一步行动前可自行选择是否调用世界模型进行前瞻模拟[6][7][9] 实验任务与评测模式 - 研究探索两类任务：1) **智能体任务**（如推箱子、寻物），使用环境模拟器提供100%准确的前瞻信号；2) **视觉推理任务**（VQA），使用开源模型WAN2.1进行Rollout来模拟前瞻预测[11] - 采用三种评测模式：1) **原始模式**：不调用世界模型；2) **正常模式**：可自由选择调用；3) **强制模式**：每一步必须调用世界模型[12][18] 主要研究发现 - **发现一：世界模型的赋能不可靠，甚至可能降低表现**。在智能体任务中，即使前瞻信号100%准确，引入后平均表现反而更差（例如，GPT-4o平均分从0.40降至0.36，GPT-5-mini从0.41升至0.43但增幅有限）[15][16][17] - **发现二：智能体调用世界模型的意愿普遍偏低**。在视觉推理任务中，许多模型的世界模型调用率不足0.1，GPT-5的调用率甚至为0.00000[19][20][21] - **发现三：调用行为存在模型差异，但与效果提升无必然联系**。Llama系列调用积极（如Llama-4-Maverick在智能体任务调用率达0.9956）但收益不明显；小模型（如GPT-4o-mini）更爱调用，大模型（如GPT-5）更自信；调用率高低与表现好坏无稳定关联[19][23][24] 前瞻治理的框架与瓶颈 - 有效的前瞻治理包含三个阶段：1) **前瞻制定**：智能体决定何时及请求何种模拟；2) **模拟生成**：世界模型保证模拟的真实性与质量；3) **解释与整合**：智能体有效利用前瞻信号指导行动[29][32][34] - 成功的前瞻治理需要三方面能力：1) **技巧性的前瞻请求策略**；2) **对模拟结果的语义把握**；3) **对后续动作的有效指导**[31][35] - 前瞻治理失败的常见模式包括：过度重复请求、无效调用、对结果的模糊与误解、以及推理失焦导致行动循环[36][42] - 当前智能体与世界模型交互的**主导瓶颈是前瞻治理的稳定性**，而非单纯的模型能力不足[37] 对行业发展的启示 - 智能体需要先学会判断调用世界模型的时机与价值，而非单纯将其接入工具箱[39] - 世界模型应提供能被智能体当作有效证据使用的前瞻信号，而非仅是更长的状态描述[40] - 未来研究的重点应是让智能体建立起稳定的前瞻治理能力，包括如何提出更好的请求、理解结果并转化为行动[41]