文章核心观点 - 亚马逊FAR实验室团队提出了一套快速强化学习方案,通过“算法调优-极简奖励设计-大规模并行仿真”三位一体的技术体系,首次实现了在单GPU上仅用15分钟训练出鲁棒的人形机器人运动控制策略,并支持全身运动追踪任务的快速部署,彻底重构了人形机器人从仿真到现实的迭代范式 [3][4][23] 问题根源:人形机器人强化学习的效率瓶颈 - 算法样本效率低:传统在线RL算法(如PPO)需丢弃大量历史数据,在高维人形机器人控制中样本利用率低,训练周期长达数小时甚至数天 [6] - 高维控制稳定性差:人形机器人(29自由度)动作空间复杂,关节限制、力矩平衡等约束导致离线RL算法易出现训练振荡,难以稳定收敛 [7] - 奖励设计冗余繁琐:传统方案依赖20多项奖励塑造条款,增加调参难度且易导致策略“过拟合”特定场景,降低真实环境适配性 [8] - 域随机化适配难:真实场景中的地形变化、外力扰动、动力学参数波动等要求策略在强随机化仿真中学习,进一步加剧了训练难度与耗时 [9] 方案设计:三位一体的快速训练技术体系 - 第一层:算法优化——离线RL的规模化适配 - 基于优化的离线RL算法FastSAC(Soft Actor-Critic优化版)与FastTD3(TD3优化版)[11] - 采用关节限制感知动作边界,根据机器人关节极限与默认姿态的差值设定动作边界,减少调参成本并避免扭矩不足问题 [11] - 结合观测归一化与层归一化进行双重归一化,解决高维任务中的梯度爆炸问题,提升FastSAC在复杂场景下的稳定性 [11] - 采用Q值平均替代裁剪双Q学习,避免与层归一化的兼容性冲突,并搭配C51分布式critic网络提升价值估计精度 [11] - 优化探索与优化超参:FastSAC设置最大标准差1.0、初始温度0.001,采用自动温度调优;FastTD3使用混合噪声策略(σ_min=0.01, σ_max=0.05);优化器采用Adam(学习率3e-4,权重衰减0.001,β₂=0.95)[11] - 第二层:奖励设计——极简主义的鲁棒性导向 - 设计仅包含核心要素的奖励函数(少于10项),兼顾策略鲁棒性与泛化能力 [13] - 运动任务核心奖励包含:线速度/角速度追踪奖励、足高追踪奖励、默认姿态惩罚、足部朝向惩罚、躯干直立惩罚、动作速率惩罚以及存活奖励 [14] - 全身运动追踪奖励基于BeyondMimic框架,以运动追踪目标为主,辅以轻量化正则化,并新增速度推力扰动项提升仿真到现实的鲁棒性 [14] - 采用自适应课程学习,随着训练进程逐步提升惩罚项权重,降低探索难度,加速收敛 [14] - 通过对称数据增广鼓励机器人形成自然对称步态,进一步提升训练效率 [14] - 第三层:并行仿真——大规模环境的吞吐量提升 - 依托GPU加速仿真框架,通过环境并行化突破训练瓶颈 [13] - 运动任务采用单RTX 4090 GPU,支持数千并行环境;全身运动追踪任务扩展至4×L40s GPU,并行环境数达16384,大幅提升数据采集吞吐量 [14] - 仿真中集成强域随机化,包括动力学随机化(质量、摩擦、质心)、PD增益随机化、动作延迟、崎岖地形、推力扰动(每1-3秒一次强扰动)等,确保策略适配真实场景变异 [14] - 利用离线RL算法的核心优势,充分复用历史交互数据,避免在线算法的数据浪费,在同等环境吞吐量下实现更快收敛 [14] 验证逻辑:四级性能验证 - 运动任务:15分钟实现鲁棒步态 - 在Unitree G1(29自由度)与Booster T1(29自由度)机器人上,FastSAC与FastTD3表现突出 [16] - 单RTX 4090 GPU仅需15分钟即可完成训练,线性速度追踪奖励显著超越PPO [19] - 在强推力扰动、崎岖地形场景下,PPO难以稳定收敛而FastSAC/TD3表现稳健 [19] - 策略能适应平坦/崎岖地形、随机动力学参数、频繁推力扰动等多种场景,无需额外微调即可迁移,展现出强大泛化能力 [19] - FastSAC凭借最大熵探索机制,在复杂场景下略优于FastTD3,验证了高效探索对高维控制的价值 [19] - 全身运动追踪:复杂动作的快速学习 - 在舞蹈、搬箱子、推力抵抗等任务中,方案展现出强大的复杂动作学习能力 [18] - 在4×L40s GPU支持下,FastSAC/TD3训练速度远超PPO,舞蹈任务(时长超2分钟)的运动追踪奖励更快达到收敛阈值 [20] - 真实硬件部署:零微调的鲁棒迁移 - 训练后的策略成功部署到真实Unitree G1硬件,完成舞蹈、搬箱子、推力抵抗等复杂动作,验证了仿真到现实的迁移鲁棒性 [20] - 在真实Unitree G1机器人上,仿真训练的策略无需额外微调即可稳定运行 [21] - 成功复现仿真中的速度追踪步态,在轻微不平坦地面保持稳定 [24] - 全身运动追踪策略能精准执行舞蹈、搬箱子等复杂动作,抵抗环境中的轻微扰动,展现出强鲁棒性 [24] 局限与未来方向 - 复杂地形适配:当前主要验证平坦与崎岖地形,未来可扩展至台阶、斜坡等更复杂地形场景 [24] - 动态障碍物避障:未融入避障逻辑,需结合视觉感知扩展奖励函数,实现感知-控制一体化 [24] - 算法融合潜力:可集成最新离线RL优化技术(如样本效率提升、探索策略改进),进一步压缩训练时间 [24] - 多机器人适配:当前聚焦双足人形机器人,未来可扩展至四足、多臂等更广泛机器人形态 [24] 总结:快速迭代范式的行业影响 - 该方案的核心贡献不仅在于15分钟训练的效率突破,更在于建立了“离线RL算法-极简奖励-大规模并行仿真”的快速迭代范式 [23] - 通过算法调优解决高维控制稳定性问题,通过极简奖励降低工程复杂度,通过并行仿真提升数据吞吐量 [23] - 其开源实现(Holosoma仓库)与硬件部署案例,为机器人研究者提供了开箱即用的快速开发工具,大幅降低人形机器人控制的研发门槛,加速了通用人形机器人从实验室走向真实应用的进程 [23]
亚马逊团队15分钟单GPU搞定人形机器人步态训练!
具身智能之心·2025-12-29 08:04