亚马逊团队15分钟单GPU搞定人形机器人步态训练！Locomotion新方案

文章核心观点 - 亚马逊FAR实验室提出了一套“算法调优-极简奖励设计-大规模并行仿真”三位一体的快速强化学习方案，首次实现了在单GPU上仅用15分钟训练出鲁棒的人形机器人运动策略，并支持全身运动追踪任务的快速部署，彻底重构了人形机器人从仿真到现实的迭代范式 [2][3][21] 人形机器人强化学习的效率瓶颈 - 算法样本效率低：传统在线RL算法（如PPO）需丢弃大量历史数据，在高维人形机器人控制中样本利用率低，训练周期长达数小时甚至数天 [3] - 高维控制稳定性差：人形机器人（29自由度）动作空间复杂，关节限制、力矩平衡等约束导致离线RL算法易出现训练振荡，难以稳定收敛 [4] - 奖励设计冗余繁琐：传统方案依赖20多项奖励条款，增加调参难度且易导致策略过拟合特定场景，降低真实环境适配性 [5] - 域随机化适配难：真实场景中的地形变化、外力扰动等要求策略在强随机化仿真中学习，进一步加剧了训练难度与耗时 [6] 三位一体快速训练技术体系 - 第一层：算法优化：基于优化后的离线RL算法FastSAC和FastTD3，通过关节限制感知动作边界、双重归一化稳定训练、critic网络优化（采用Q值平均替代裁剪双Q学习，搭配C51分布式critic）以及探索与优化超参调优（如Adam优化器，学习率3e-4）等关键技术，实现高维控制的稳定与高效 [8] - 第二层：极简奖励设计：摒弃冗余奖励条款，设计仅包含核心要素的奖励函数（少于10项），兼顾策略鲁棒性与泛化能力 [10] - 第三层：大规模并行仿真：依托GPU加速仿真框架，通过环境并行化突破训练瓶颈；在Locomotion任务中采用单RTX 4090 GPU支持数千并行环境，在全身运动追踪任务中扩展至4×L40s GPU，并行环境数达16384；仿真中集成了动力学随机化、PD增益随机化、动作延迟、崎岖地形、推力扰动（每1-3秒一次强扰动）等强域随机化；并利用离线RL算法的数据复用机制，避免数据浪费 [10][11] 方案性能验证 - Locomotion任务：在Unitree G1（29自由度）与Booster T1（29自由度）机器人上验证；单RTX 4090 GPU仅需15分钟完成训练，线性速度追踪奖励显著超越PPO；在强推力扰动、崎岖地形场景下，PPO难以稳定收敛而FastSAC/TD3表现稳健；策略能适应平坦/崎岖地形、随机动力学参数、频繁推力扰动等多种场景，无需额外微调即可迁移；FastSAC在复杂场景下略优于FastTD3 [12][17] - 全身运动追踪任务：在舞蹈、搬箱子、推力抵抗等复杂任务中，在4×L40s GPU支持下，FastSAC/TD3训练速度远超PPO，舞蹈任务（时长超2分钟）的运动追踪奖励更快达到收敛阈值 [15][18] - 真实硬件部署：训练后的策略成功部署到真实Unitree G1硬件，无需额外微调即可稳定运行；成功复现仿真中的速度追踪步态，在轻微不平坦地面保持稳定；能精准执行舞蹈、搬箱子等复杂动作，抵抗环境中的轻微扰动 [18][19][21] 方案的局限与未来方向 - 复杂地形适配：当前主要验证平坦与崎岖地形，未来可扩展至台阶、斜坡等更复杂地形场景 [22] - 动态障碍物避障：未融入避障逻辑，需结合视觉感知扩展奖励函数，实现感知-控制一体化 [22] - 算法融合潜力：可集成最新离线RL优化技术（如样本效率提升、探索策略改进），进一步压缩训练时间 [22] - 多机器人适配：当前聚焦双足人形机器人，未来可扩展至四足、多臂等更广泛机器人形态 [22] 方案的行业影响 - 核心贡献在于建立了“离线RL算法-极简奖励-大规模并行仿真”的快速迭代范式，通过算法调优解决高维控制稳定性问题，通过极简奖励降低工程复杂度，通过并行仿真提升数据吞吐量 [21] - 其开源实现（Holosoma仓库）与硬件部署案例，为机器人研究者提供了开箱即用的快速开发工具，大幅降低人形机器人控制的研发门槛，加速了通用人形机器人从实验室走向真实应用的进程 [21]