ThinkAct

搜索文档
NVIDIA最新!ThinkAct:复杂的具身任务中实现少样本适应、长时程规划
具身智能之心· 2025-07-24 17:53
核心观点 - ThinkAct提出了一种双系统框架,通过强化视觉潜在规划将高层推理与低层动作执行连接起来,显著提升了复杂具身AI任务中的少样本适应、长时程规划和ego修正能力 [4][9] - 该方法通过动作对齐视觉奖励(目标奖励和轨迹奖励)引导MLLM生成具身推理planning,并将其压缩为视觉planning潜变量,为下游动作模型提供条件 [14][17][18] - 在机器人操作和具身推理基准测试中,ThinkAct表现优于现有方法,如在SimplerEnv上比基准动作模型DiT-Policy最高提升16.9%,在LIBERO基准上以84.4%成功率位居榜首 [25][26] 方法架构 双系统设计 - 高层推理系统:MLLM生成具身推理planning,通过强化学习(GRPO)优化,奖励函数结合目标完成度(r_goal)和轨迹一致性(r_trail) [12][19][20] - 低层执行系统:基于Transformer的动作模型以视觉planning潜变量为条件,实现异步"慢思考-快控制"执行模式 [21][22] 关键技术 - 动作对齐视觉反馈:目标奖励(式1)评估起始/结束位置匹配度,轨迹奖励(式2)通过DTW距离规范轨迹分布 [17] - 强化微调:采用GRPO算法,从M组响应中选择最优解,KL散度约束防止模型偏离原始分布 [19] - 潜变量压缩:将文本推理抽象为紧凑的视觉planning潜变量,捕捉时空规划意图 [20][23] 性能表现 定量结果 - 机器人操作: - SimplerEnv-Google-VM任务中Pick Coke Can子任务达到92%成功率,比Magma提升8.3% [25] - LIBERO-Long任务成功率70.9%,显著优于CoT-VLA(69%)和DiT-Policy(57.6%) [25] - 具身推理: - EgoPlan-Bench2总体得分48.2%,超越GPT-4V(32.6%)和Qwen2.5-VL*(45.7%) [27] - RoboVQA的BLEU-4得分52.4%,比次优方法高4.4分 [27] 定性优势 - 长时程规划:将"拿起书放入后部隔间"分解为3个子任务,可视化轨迹显示gripper严格遵循推理planning [30] - Ego修正:在物体掉落场景中,通过视频context识别故障并生成重新抓取的修正planning [37] 创新价值 - 行业突破:首次实现强化学习驱动的视觉-语言-动作联合推理,解决端到端模型在长时程规划中的局限性 [6][7] - 技术复用性:潜变量设计兼容不同动作模型(如Diffusion Policy),支持跨平台部署 [21][23] - 数据效率:仅需10个演示样本即可在新环境(LIBERO-Spatial)实现9.5%的少样本性能提升 [35]