CMU最新!跨实体世界模型助力小样本机器人学习
具身智能之心·2025-08-12 08:03
研究方法 - 通过模仿学习训练视觉运动策略的有效性已被证实 但性能依赖大量现实世界数据收集[2] - 研究目标是利用现成或低成本数据(如公开机器人数据集和人类摆弄物体数据集)减少数据收集工作量[2] - 采用光流作为具身无关的动作表示 在跨多个具身数据集上预训练世界模型 再用少量目标具身数据进行微调[3] - 提出潜在策略引导(LPS)方法 通过在世界模型潜在空间中搜索更优动作序列改进策略输出[3] 实验成果 - 结合预训练世界模型后 仅用30次示范数据可使策略性能相对提升超过50%[3][9] - 使用50次示范数据时策略性能相对提升超过20%[3][9] - 预训练数据源包括Open X-embodiment数据集(两千个片段)和低成本人类玩耍数据集[3] 技术优势 - 光流能够打破不同机器人实体间的差异[12] - 世界模型比策略模型更适合进行跨实体预训练和新实体微调[12] - 潜在策略引导方法有效利用世界模型提升策略模型性能[12] 行业痛点 - 机器人学习成本高昂 单个任务常需数小时数据采集[11] - 不同机器人实体差异给模型预训练带来挑战[11] - 现有方法可有效利用已有数据减少新数据采集需求[11]