文章核心观点 - 丰田公司通过强化学习与Sim2Real(仿真到现实)相结合的技术路线,致力于解决人形机器人“走得稳、学得快、能从仿真顺利落地现实”的核心难题,并已在CUE篮球机器人的行走、站立乃至运球等动态交互能力上取得进展 [1] - 该技术路线旨在构建一个通用的人形机器人控制框架,最终目标是打造能够应对多样任务、适应复杂环境的通用平台 [29] 强化学习与Sim2Real技术路径 - 丰田认为强化学习是让人形机器人自主掌握复杂动作的最有效路径,其核心是让AI在环境中试错并根据奖励机制调整行为,最终收敛到最优策略 [4] - Sim2Real(仿真到现实)是实现该方案工程价值的关键,先在虚拟环境中进行海量场景与极端工况训练,再将模型迁移到实体机器人,这能大幅减少真机损耗、缩短训练周期 [5] - 公司的技术思路与行业头部企业一致,即用仿真补足数据不足,再通过产品迭代解决仿真偏差问题 [6] 行走能力的训练与挑战 - 行走是人形机器人的基本功,但工程实现困难,丰田团队将强化学习完整嵌入行走控制 [7] - 在仿真环境中设置简单奖励规则(如朝目标速度走加分,滑倒失衡扣分),并并行运行上千个机器人实例以加速训练,虚拟机器人仅用1-2小时就学会了前进、后退、转弯等基本行走能力 [9][10] - 模型迁移到真机后出现“仿真-现实差距”,表现为抖动、拖脚甚至失稳,为解决此问题,团队采用了两套技术方案 [11][12] - 第一套是域随机化,通过给传感器加噪声、随机改变地面摩擦力,让机器人在“不完美环境”中训练以提升策略鲁棒性 [15] - 第二套是Real2Sim,利用真机关节电机的实际运行数据反向校准仿真模型,通过黑箱优化匹配摩擦、转动惯量等参数,使虚拟执行器行为无限贴近真实硬件 [14][15] - 真机验证是一个漫长的循环过程,需要不断测试、分析问题、修改奖励函数并重新训练,经过多轮迭代后,原型机最终实现了稳定行走,甚至在受到推动时也能保持姿态 [16][18] 运球能力的进阶训练 - 运球相比行走难度更高,需要同时控制机器人自身和动态球体,对感知、预判和控制精度要求极高 [19] - 运球训练最初卡在奖励函数设计上,手工设计奖励不仅费劲,还容易导致动作僵硬不自然 [23] - 团队最终放弃手工设计奖励,改用模仿学习的思路:通过动作捕捉记录人类自然运球数据,并将关节角度、运动速度等映射到机器人,以人类动作为参考目标进行奖励,从而获得精准的触球时机,训练出的动作流畅且接近人类 [25] - 在运球的Sim2Real迁移中,视觉识别误差成为新挑战,现实中机器人依靠头部摄像头估算球的位置和速度,存在误差和延迟 [26] - 团队将现实中的视觉识别误差和延迟特性写入仿真的观测模型,使虚拟训练环境与现实保持一致,从而成功实现了运球动作从仿真到真机的迁移 [28] CUE篮球机器人项目与未来规划 - CUE是丰田的一款专用投篮机器人,项目始于2017年,现已迭代到CUE6,身高约2.08米,依靠全身动力学、力矩控制、MPC模型预测控制和AI视觉感知实现高精度投篮 [19][21] - CUE已凭借稳定的闭环控制获得两项吉尼斯纪录:连续罚球2020次命中和24.55米超远投篮命中 [21] - 近期目标是将已开发的行走和运球能力迁移到CUE篮球机器人上,实现稳定运球,并逐步提升动作的流畅度与观赏性 [29] - 长期目标是聚焦于打造通用的人形机器人控制框架,不局限于强化学习,而是融合多种技术,以构建能应对多样任务、适应复杂环境的通用平台 [29]
丰田CUE机器人新进展:通过强化学习+Sim2Real,即将Get走路、运球新技能!