像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境
机器之心·2026-02-02 14:14

文章核心观点 - 研究团队提出名为Agent2World的多智能体框架,旨在解决自动生成可执行、可验证的符号世界模型(如PDDL或环境代码)的难题 [4] - 该框架采用“知识合成→世界模型实现→评估驱动精炼”的三阶段闭环,模拟软件工程团队协作,以稳定产出高质量世界模型 [4][12] - Agent2World在三大基准测试中均取得领先性能,并证明其可作为高质量数据合成引擎,通过微调显著提升模型性能,平均相对性能提升30.95% [4][34] 传统方法的困境 - 现有自动生成方法普遍存在三重困局:脚本式工作流、知识边界封闭、表示覆盖单一 [3] - 传统“生成—修复”脚本主要依赖静态校验,难以捕捉交互执行中才暴露的行为级错误(如状态更新不一致、目标不可达) [3] - 当任务规格含糊或缺失关键规则时,系统缺乏主动检索机制,只能依赖模型记忆“猜”,容易产生幻觉 [3][13] - 既有研究往往只覆盖一种世界模型表示(如只做PDDL或只做代码),导致验证闭环与改进经验难以在不同符号表达间共享,限制了通用性与可扩展性 [3][9] Agent2World框架方法 - 框架核心是将世界模型生成拆分为软件工程式的三阶段,由不同智能体角色协作完成 [12] - Deep Researcher阶段:负责主动打破知识壁垒,将任务描述拆解为待澄清问题,并利用网络搜索和检索工具迭代补充缺失信息,输出结构化的中间表示 [16] - Model Developer阶段:负责生成目标世界模型(如PDDL或可执行代码),核心约束是“能执行、接口连通、与规格一致”,并在受控沙盒中进行基础运行检查与增量修复 [17] - Testing Team阶段:引入动态、行为级的双重验证机制,专门捕捉交互中暴露的逻辑错误 [18] - Unit Tester:自动生成单元测试用例,验证接口契约、谓词逻辑和不变式 [21] - Simulation Tester:基于ReAct框架的智能体,通过交互采集轨迹诊断深层问题(如动力学错误、奖励函数失效) [21] - 测试发现问题后,会输出包含错误分析和修复建议的结构化报告,驱动Developer进行针对性修复,形成迭代闭环 [19] 实验性能与数据 - Text2World (PDDL)基准:以GPT-4.1-mini为底座,Agent2World Multi实现了93.1%的代码可执行率,相比强基线Text2World (EC=3)的78.2%提升了14.9个百分点 [25] - 在衡量语义正确性的Component-wise F1指标上,Agent2World Multi达到75.4,相比基线60.1提升了15.3分 [25] - CWMB (MuJoCo)基准:评估仿真代码的预测准确性和作为世界模型支撑下游规划的能力 [27] - 在GPT-4o-mini上,Agent2World Multi的Overall Normalized Return (R)达到0.4811,相比此前最强基线GIF-MCTS的0.3488提升了+0.132 [27] - 在离散动作空间的预测准确率上与强基线持平(0.917 vs 0.914) [27] - ByteSized32 (文本游戏)基准:在极度依赖常识推理的文本游戏中测试 [29] - Agent2World Multi在“物理现实对齐度”指标上取得0.4768的高分,相比单智能体版本(0.1920)大幅提升了0.2848 [29] - 模型生成的游戏代码初始化成功率接近99% [29] 数据合成与模型微调 - 框架本质是一个全自动的高质量数据合成引擎,通过“任务合成—轨迹筛选—经验蒸馏”流程,将多智能体协作中的有效修复策略蒸馏为单体模型的生成与修复偏好 [20] - 采用“验证器引导的拒绝采样”机制,从海量生成结果中筛选出1526条既通过沙盒运行、又通过双重测试校验的高质量轨迹,构成训练数据集 [22] - 使用仅包含Model Developer交互轨迹的数据集对Llama-3.1-8B-Instruct进行监督微调,训练模型学习“如何理解模糊规格”以及“如何根据测试反馈修复代码” [22] - 微调后的模型在未见过的测试任务上,平均相对性能提升了30.95% [34] - 在Text2World任务中,微调后模型生成的代码可执行率(Executability)从27.7%提升至44.6%,绝对提升达16.9个百分点 [26][34] 消融实验分析 - 在CWMB任务上的消融实验证实,Deep Researcher与Testing Team均是构建高可靠世界模型不可或缺的组件 [36] - 移除Deep Researcher(知识引擎缺失):模型生成的模拟器在整体归一化回报(Overall R)上出现显著下滑,从0.4811降至0.2936,表明缺乏主动检索会导致环境规则“失真” [36][38] - 移除Simulation Tester:整体归一化回报(R)从0.4811降至0.3039,离散动作空间准确率从0.9174降至0.8920,表明缺乏动态交互反馈难以修正深层动力学错误 [36][38] - 移除Unit Tester:对性能影响最为严重,离散动作空间准确率从0.9174骤降至0.6166,整体归一化回报(R)从0.4811降至0.2423 [36]