Workflow
生成式世界模型
icon
搜索文档
北大World-in-World:闭环下的具身世界模型评估框架!
自动驾驶之心· 2025-10-27 08:03
文章核心观点 - 当前生成式世界模型的评估体系存在缺陷,过度关注视频生成质量而忽略了其在真实具身任务中的决策辅助能力 [5] - 约翰・霍普金斯大学和北京大学等团队推出了“World-in-World”平台,首次采用闭环交互方式评估世界模型在具身任务中的实用性 [2] - 实验结果表明,对于具身智能体而言,世界模型的“动作-预测对齐”能力比画面逼真度更为重要,且通过特定任务数据微调小模型比使用大参数模型更具成本效益 [18][21] 世界模型评估的现有问题 - 现有评估基准如VBench和WorldModelBench是开环的,仅评估视频清晰度和场景合理性,不测试模型辅助智能体完成实际任务的能力 [5] - 存在“视觉质量”与“任务有用性”的脱节,例如模型能生成超清晰画面但动作指令与预测画面不匹配,导致其无法有效帮助机器人导航或抓取物体 [5] World-in-World平台设计 - 平台设计了一套完整的闭环体系,使智能体、世界模型和环境形成“观测→决策→执行→再观测”的循环 [6] - 通过统一动作API解决模型兼容性问题,将智能体的原始动作转换成不同世界模型能理解的格式 [7] - 决策流程分为三步:提案阶段智能体生成候选动作序列,模拟阶段世界模型预测执行后的未来画面,修正阶段智能体根据预测评分选择最优方案执行 [8][13] - 决策过程通过数学公式整合候选动作、预测结果、当前观测和任务目标四要素,确保决策有据 [12] 实验任务与核心发现 - 平台选用四类真实具身任务进行测试:主动识别、图像导航、具身问答和机械臂操作 [16] - 画面逼真度与任务成功率无正相关关系,经过后训练的SVD†模型视觉质量中等但主动识别任务成功率可达61%,而视觉质量高的Wan2.1模型成功率仅为57% [18] - 模型的可控性是关键,可控性指标与任务成功率呈正相关,1-LPIPS值越高代表动作对齐越好,成功率也越高 [20] - 使用任务数据微调小模型性价比高,1.5B参数的SVD†模型用80K数据微调后,主动识别成功率从56.3%提升至61%,效果优于未微调的14B参数Wan2.2†模型,且成本仅为训练新大模型的1/10以下 [21] - 增加推理时的模拟次数可提升成功率,SVD†模型模拟次数从3次增加到11次后,主动识别任务成功率从53.4%升至61%,且平均路径长度缩短12% [23] - 当前世界模型在机械臂操作任务中表现不佳,最佳模型SVD†的成功率仅为46.5%,因模型缺乏物理规律建模,导致预测画面与实际操作结果不符 [25] 未来发展方向 - 世界模型的研发重点应从提升画面逼真度转向提升可控性,确保模型能精准响应动作指令 [26] - 利用少量任务数据进行微调是低成本提升模型效果的有效途径 [26] - 需补强物理建模能力,使模型能够理解碰撞、摩擦力等物理规律,以更好地辅助操作任务 [26]