文章核心观点 - 当前生成式世界模型的评估体系存在缺陷,过度关注视频生成质量而忽略了其在具身智能任务中的实际决策辅助能力 [1][2] - 约翰・霍普金斯大学和北京大学等团队推出的World-in-World平台首次采用闭环交互方式评估世界模型,将焦点从“画面逼真度”转向“任务实用性” [1][3] - 实验证明,对具身任务而言,模型的动作-预测对齐能力(可控性)比视觉质量更重要,且通过任务数据微调小模型比直接使用大模型更具成本效益 [16][17][18] 评估体系痛点 - 现有评估基准如VBench和WorldModelBench均为开环测试,只评估视频清晰度和场景合理性,不测试模型帮助智能体完成实际任务的能力 [2] - 生成式世界模型技术已能实现分钟级视频生成和动态3D场景变化,但评估体系与具身任务所需的“动作和预测对齐”需求严重脱节 [2] - 在示例中,能生成超清晰画面但动作预测错误的模型A,反而比画面稍模糊但预测精准的模型B获得更高评分,凸显了评估标准的不合理 [2] 平台设计框架 - 平台通过统一动作API解决模型兼容性问题,将智能体的原始动作转换成不同世界模型能理解的格式(如文本提示、相机位姿序列) [6] - 采用三步闭环决策流程:提案阶段生成候选动作序列,模拟阶段预测执行后未来画面,修正阶段根据任务目标评分选择最优方案执行 [7][13] - 决策公式融合了候选动作、预测结果、当前观测和任务目标四要素,确保每一步决策都有依据 [9] 任务测试范围 - 平台选取四类真实具身任务进行测试:主动识别、图像导航、具身问答和机械臂操作 [10][14] - 针对预训练视频生成模型,平台设计了后训练机制,使用任务相关的动作-画面数据进行微调,且训练与测试场景分离防止过拟合 [12] 实验关键发现 - 模型可控性(1-LPIPS衡量)与任务成功率呈正相关,证明“听话”比“好看”更重要 [16] - 1.5B参数的SVD模型经80K数据微调后,主动识别成功率从56.3%提升至61%,而14B参数的Wan2.2模型未微调时成功率低于微调后的SVD [17] - 增加推理时模拟的候选动作数量可提升成功率,SVD模型模拟次数从3次增至11次,主动识别成功率从53.4%升至61%,且平均路径长度缩短12% [20] - 在机械臂操作任务中,表现最佳的SVD模型成功率仅为46.5%,仅比基础策略高2个百分点,暴露出现有模型缺乏物理建模能力的短板 [21][22] 未来发展方向 - 世界模型研发应聚焦提升可控性,确保模型能精准响应动作指令 [23] - 利用少量任务数据微调是低成本提升模型效果的高性价比路径 [17][23] - 需补强物理建模能力,使模型能够理解碰撞、摩擦力等物理规律,以胜任机械臂操作等精细任务 [22][23]
World-in-World:约翰霍普金斯 × 北大联合提出闭环下的具身世界模型评估框架!
具身智能之心·2025-10-26 12:02