Workflow
多模态语言推理
icon
搜索文档
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025
机器之心· 2025-07-05 13:53
研究团队与背景 - 第一作者吴怡琳为卡内基梅隆大学机器人学院博士生,研究方向为开放世界物体操控与机器人终身学习,曾获ICRA最佳论文等荣誉[1] - 第二作者田然是UC Berkeley博士生兼NVIDIA研究科学家,专注于机器人基础模型的安全与偏好对齐研究,获多项国际奖项[2] - 该研究获2025 ICLR World Model Workshop最佳论文奖,并被2025 Robotics: Science and Systems会议接收[3] 研究核心问题 - 当前具身智能模型在真实部署中面临"学得像但用不好"的困境,面对环境扰动时成功率常低于30%[3][21] - 核心难题在于如何让机器人在部署阶段具备"推理能力"(Test-Time Intelligence),无需额外数据即可预判风险并调整策略[5] FOREWARN框架设计 - 采用"预见(Foresight)"与"深思(Forethought)"双模块架构,分解为"模拟未来"和"评估未来"两大任务[11] - 世界模型在低维隐空间预测候选动作的环境状态变化,通过离线学习实现高效未来推演[11] - 多模态语言模型将隐空间预测解码为自然语言,结合任务目标与用户意图进行语义评估[12] 系统工作流程 1 候选动作采样与聚类:保留K个代表性动作[16] 2 隐空间未来预测:世界模型预测动作的未来演化[16] 3 语义转译:多模态语言模型将预测转为自然语言描述[16] 4 最优方案筛选:基于语义评估选择最契合意图的动作[16] 创新亮点 - 首次实现世界模型隐空间与多模态语言模型语义空间的对齐[18] - 实现端到端自动化决策,无需人工示范即可实时筛选最优方案[19] - 在基础操作和复杂任务中均展现卓越泛化能力[20] 实验结果 - 引入FOREWARN后成功率从30%提升至70%-80%[21] - 在任务指令变化或感知干扰时仍能维持60%-80%成功率[21] - 有效弥合离线训练与在线部署的能力鸿沟[21] 未来挑战 - 需提升底层生成策略的多样性与泛化能力[23] - 世界模型对大规模数据依赖较强,数据稀缺时性能可能下降[23] - 需优化大模型设定下的推理效率与算力成本[23]