Workflow
Model-based RL
icon
搜索文档
具身智能领域最新世界模型综述:250篇paper带大家梳理主流框架与任务
具身智能之心· 2025-10-30 08:03
文章核心观点 - 世界模型是具身智能体的“内部模拟器”,负责捕捉环境动态,支持智能体对未来状态进行推理和行动规划 [1] - 随着生成模型的发展,世界模型研究日趋繁荣但缺乏统一梳理,该综述首次提出一个基于功能、时序建模和空间表征的三轴分类法,为领域建立清晰框架 [2][6] 三轴分类法 - **功能定位轴**:区分决策耦合型(为特定决策任务优化)与通用目的型(构建任务无关的通用模拟器) [6] - **时序建模轴**:区分顺序序列模拟(自回归方式逐步建模)和整体差分预测(并行捕捉未来时间步映射关系) [6] - **空间表征轴**:涵盖四种主流空间状态建模策略,包括全局潜变量、Token特征序列、空间潜在网格、分解式渲染 [6] 功能定位分析 - **决策耦合型世界模型**:属于任务驱动型,与策略优化紧密耦合,在模型“想象”的轨迹中直接优化策略,代表模型如Dreamer系列,优势在于任务表现通常出色,但学习的表征可能过度贴合任务而难以泛化 [15] - **通用目的型世界模型**:定位为任务无关的环境模拟器,着眼于对环境动态的广泛预测和高保真生成,优势在于泛化能力强且表示能力丰富,但计算复杂度高,实时推理成本较高 [16] 时序建模分析 - **顺序推理型**:逐步模拟未来世界演化的时间建模方式,便于理解和规划,典型架构包括RNN、Mamba、自回归方式以及思维链和LLM支持的目标分解,优势是时序因果一致,适合闭环控制,但长时预测需多次迭代,容易误差累计且并行性较差 [20] - **全局预测型**:并行地预测整段未来序列的时间建模方式,常见做法包括掩码/JEPA的特征预测与并行扩散视频生成,优势是降低误差累积,并行计算效率高且便于添加全局约束,但闭环交互性较弱,局部动力学细节不足 [23] 空间表征方式 - **全局潜变量**:将场景/世界状态压缩为一个低维变量并在该紧凑表示上进行动力学建模,优势是计算/时延友好,适配实时控制且模型/内存开销小,但细粒度时空信息可能损失 [28] - **Token特征序列**:将世界状态表示为一组离散token的特征序列,便于建模token间依赖关系,优势是与注意力机制耦合,能细粒度表示复杂场景和多模态信息,但需要大量数据训练且常依赖大参数量模型,推理开销高 [29] - **空间潜在网格**:将空间信息注入场景或将场景编码到空间网格中,是自动驾驶领域主流方式,优势是保留空间局部拓扑,易于多视角融合和地图生成,但表示规模大,分辨率受限且对非结构化环境适应性差 [34] - **分解式渲染表示**:将场景拆解为一组可渲染基本要素,再通过渲染流程或生成模型构建观察空间,优势是能生成视角一致的高保真图像并支持物体级别操作,但对动态场景扩展性差,建模和推理成本高,难以实时更新场景中变化部分 [35] 数据资源与评价指标 - **数据资源分类**:具身智能数据资源可划分为四类,包括仿真平台(如MuJoCo、CARLA、Habitat)、交互式基准(如DeepMind Control套件、Atari游戏、Meta-World)、离线数据集(如RT-1、Open X-Embodiment、nuScenes)以及真实机器人平台(如Franka Emika机械臂、Unitree Go1四足机器人) [37][39] - **评价指标层级**:针对世界模型的不同侧重有三层抽象水平评价指标,包括像素级生成质量(如FID、FVD、SSIM、PSNR)、状态/语义一致性(如mIoU、mAP、Displacement Error)以及任务绩效指标(如累积奖励、成功率、碰撞率),新近评测倾向于设计物理合规性、因果一致性等指标弥补传统不足 [40] 性能对比 - **视频生成性能**:在nuScenes数据集上的视频生成性能对比显示,不同方法的FID和FVD指标存在差异,例如Vista方法的FID为6.9,FVD为89.4,而DrivePhysica方法的FID为4.0,FVD为38.1 [41] - **4D占据预测性能**:在Occ3D-nuScenes基准上的4D占据预测性能对比中,DTT-O方法在mIoU指标上1秒预测达到37.69%,2秒预测达到29.77%,3秒预测达到25.10%,平均为30.85% [41] - **控制任务性能**:在连续控制任务中,Dreamer方法在5M训练步数下于Reacher Easy任务获得935的回合回报,Cheetah Run任务获得86?的回合回报,Finger Spin任务获得499的回报,Walker Walk任务获得962的回报,平均为823 [42] - **机器人操作成功率**:在机器人操作任务中,VidMan方法在Stack Blocks任务成功率为48%,Close Jar为88%,Open Drawer为94%,Sweep to Dustpan为?%,Slide Block为98%,平均成功率为67% [43] - **自动驾驶规划性能**:在nuScenes验证集上的开环规划性能显示,SSR方法在1秒、2秒、3秒预测的L2距离分别为0.24m、0.65m、1.36m,平均为0.75m,碰撞率分别为0.00%、0.10%、0.36%,平均为0.15% [43] 挑战与展望 - **数据与评估挑战**:领域缺乏统一的大规模多模态数据集,评估指标往往偏重像素重构误差,忽视了物理合理性、动态一致性和因果关系,未来需要构建跨领域数据集和测试基准 [46] - **计算效率与实时性**:先进世界模型推理开销巨大,难以满足实时控制要求,未来需要在不过度损失性能前提下提高模型推理速度和效率,可能借助模型压缩、稀疏计算及更高效的时序建模方法 [46] - **建模策略与平衡**:在序列自回归和全局并行两种时间建模、不同空间表示之间寻求最佳折中依旧困难,结合两者优点或是一条有效出路,例如利用分层模型或引入显式记忆和层次规划 [46]