文章核心观点 - 文章介绍了一种名为LIFT的新框架,旨在解决人形机器人从仿真预训练到真实世界部署后持续强化学习的关键难题[2][9] - 该框架的核心是通过离策略强化学习算法SAC进行大规模高效预训练,并结合物理信息增强的世界模型,在真实世界进行安全、样本高效的微调,从而弥合仿真与现实的差距[2][12][18] - LIFT方法在实验中展现出显著优势,包括预训练收敛快、真机零样本部署可行,以及仅需少量真实世界交互数据即可实现高效微调和持续适应[16][20][31] 背景与动机 - 当前人形机器人主流采用Sim2Real路线,策略在部署后即被冻结,难以适应真实世界的变化,且缺乏安全、经济的持续学习能力[2] - 在策略算法PPO虽在仿真中收敛快,但其依赖随机探索且无法有效复用旧数据,使其在真实人形机器人上进行微调或持续学习几乎不可行[7] - 传统强化学习方案(如离策略RL和基于世界模型的RL)直接应用于人形机器人时,面临数据采集确定性导致的不稳定、世界模型误差积累等新瓶颈[14] LIFT框架设计洞察 - 洞察一:SAC在数据受限时更具优势。相比PPO,SAC的离策略特性使其在数据量和多样性不足时样本效率更高,其随机策略也能促进世界模型内的探索,生成更多样有效的训练数据[12][15] - 洞察二:SAC大规模预训练策略可实现真机零样本部署。通过系统优化,SAC在行走预训练任务上的收敛时间能从7小时降至半小时以内,且无需复杂技巧即可获得可直接在真机部署的稳定基础策略[16] - 洞察三:物理信息增强的世界模型能提升性能。将集成网络与人形机器人动力学模型结合,提升了世界模型的预测准确性,使得微调时只需在真实世界用确定性动作采集少量数据,而将高风险探索留在世界模型内进行[16][18] 实验结果 - 预训练收敛与零样本部署:在MuJoCo Playground任务上,LIFT的预训练回报与PPO、FastTD3相当或更高,且预训练策略可直接零样本部署到真机[20] - 微调样本效率:在Brax仿真器中,LIFT在分布内、长尾分布和分布外三种场景下,均能在约 4×10⁴ 个环境样本(约真实世界800秒)内收敛并准确跟踪目标速度[23][24] - 真机微调效果:在Booster T1真机上,LIFT以仿真预训练后迁移失败的策略为起点,仅用约 80–590 秒的真实数据,通过多轮迭代即可修正不稳定行为[31] - 消融实验验证:实验表明,去除世界模型预训练会显著降低收敛速度;完全去除预训练则易陷入局部最优;物理信息增强的世界模型相比纯集成网络模型,在有限数据下预测更稳健、不易产生物理不合理输出[32][39] 技术路径与未来展望 - 当前技术路径表明,通过可控的真实数据采集并将高风险探索转移至世界模型,是使强化学习在真人形机器人上可行的方向[41] - 要实现规模化应用,仍需突破观测与状态估计(如摆脱对外部动捕的依赖)、安全与重置机制自动化、以及提升系统吞吐量以实现异步持续学习等瓶颈[41]
人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式
机器之心·2026-02-07 15:00