模型增强残差学习
搜索文档
走路、擦板、端盘都不抖!SEEC框架:人形机器人也懂"物理补偿"
具身智能之心· 2025-11-02 00:03
核心观点 - SEEC框架通过“模型增强残差学习”方法,实现了人形机器人在动态行走中上肢的稳定控制,其核心是让上肢策略自动预判并抵消下肢运动带来的扰动[5] - 该框架将控制解耦为上下两层,上层策略通过模仿动力学模型推导的理想补偿力矩,在真实机器人上实现了零额外训练的稳健上肢控制[5][6] - 在仿真和真实机器人实验中,该框架显著提升了末端执行器的稳定性,并在多项任务中表现出色[30][33] 核心思路与创新点 - **控制范式创新**:采用“模型增强残差学习”框架,将动力学模型与强化学习融合,使策略学习过程从“黑箱试错”转变为“物理引导的高效收敛”[7][23] - **扰动建模**:构建“基座扰动生成器”,通过脚底冲击和身体重心摆动来模拟真实行走中的多种扰动[7][14] - **结构设计**:采用上下肢分层独立训练的策略,提升了策略的迁移性和模块复用性[7] - **奖励机制**:引入“力矩模仿奖励”,使强化学习策略能够对齐物理模型推导出的补偿信号,而非盲目试错[7][32] 算法实现细节 - **整体框架**:框架包含扰动生成器、模型增强模块、上肢残差策略和任务控制器四个核心模块[12][13] - **扰动生成**:采用等效力方法生成脉冲型(模拟脚底冲击)和周期型(模拟身体晃动)两类扰动信号,并通过随机化参数来增强泛化能力[14][15][21] - **模型增强**:利用雅可比矩阵和惯量矩阵推导出理论上可抵消扰动的“补偿力矩”,为强化学习提供教师信号[17] - **强化学习训练**:使用PPO算法和循环神经网络结构,奖励函数包含力矩模仿奖励、稳定性奖励和平滑性奖励[19][20] 仿真测试与结果分析 - **测试任务**:在仿真环境中设计了四种步态任务进行测试,包括原地踏步、向前行走、侧向移动和旋转步态[27][28][30] - **性能对比**:与多种基线方法对比,SEEC框架在所有任务中平均将末端线加速度降低60%以上,角加速度降低40%以上[30] - **消融实验**:实验表明,去除任务控制力矩导致性能下降约36%,去除力矩模仿奖励导致性能下降约26%,验证了各组件的关键作用[31][32] 实机部署与结果 - **任务表现**:在Booster T1真实人形机器人上成功完成了抓链行走、擦白板、端盘行走和提瓶行走等高难度任务[33] - **稳定性**:在端盘行走任务中实现全程无倾斜、无抖动,在提瓶行走任务中液体波动显著减弱[33]