核心观点 - SEEC框架通过“模型增强残差学习”方法,实现了人形机器人在动态行走中上肢的稳定控制,其核心是让上肢策略自动预判并抵消下肢运动带来的扰动[5] - 该框架将控制解耦为上下两层,上层策略通过模仿动力学模型推导的理想补偿力矩,在真实机器人上实现了零额外训练的稳健上肢控制[5][6] - 在仿真和真实机器人实验中,该框架显著提升了末端执行器的稳定性,并在多项任务中表现出色[30][33] 核心思路与创新点 - 控制范式创新:采用“模型增强残差学习”框架,将动力学模型与强化学习融合,使策略学习过程从“黑箱试错”转变为“物理引导的高效收敛”[7][23] - 扰动建模:构建“基座扰动生成器”,通过脚底冲击和身体重心摆动来模拟真实行走中的多种扰动[7][14] - 结构设计:采用上下肢分层独立训练的策略,提升了策略的迁移性和模块复用性[7] - 奖励机制:引入“力矩模仿奖励”,使强化学习策略能够对齐物理模型推导出的补偿信号,而非盲目试错[7][32] 算法实现细节 - 整体框架:框架包含扰动生成器、模型增强模块、上肢残差策略和任务控制器四个核心模块[12][13] - 扰动生成:采用等效力方法生成脉冲型(模拟脚底冲击)和周期型(模拟身体晃动)两类扰动信号,并通过随机化参数来增强泛化能力[14][15][21] - 模型增强:利用雅可比矩阵和惯量矩阵推导出理论上可抵消扰动的“补偿力矩”,为强化学习提供教师信号[17] - 强化学习训练:使用PPO算法和循环神经网络结构,奖励函数包含力矩模仿奖励、稳定性奖励和平滑性奖励[19][20] 仿真测试与结果分析 - 测试任务:在仿真环境中设计了四种步态任务进行测试,包括原地踏步、向前行走、侧向移动和旋转步态[27][28][30] - 性能对比:与多种基线方法对比,SEEC框架在所有任务中平均将末端线加速度降低60%以上,角加速度降低40%以上[30] - 消融实验:实验表明,去除任务控制力矩导致性能下降约36%,去除力矩模仿奖励导致性能下降约26%,验证了各组件的关键作用[31][32] 实机部署与结果 - 任务表现:在Booster T1真实人形机器人上成功完成了抓链行走、擦白板、端盘行走和提瓶行走等高难度任务[33] - 稳定性:在端盘行走任务中实现全程无倾斜、无抖动,在提瓶行走任务中液体波动显著减弱[33]
走路、擦板、端盘都不抖!SEEC框架:人形机器人也懂"物理补偿"
具身智能之心·2025-11-02 00:03