模型增强残差学习 - 财报，业绩电话会，研报，新闻

模型增强残差学习

搜索文档

具身智能之心· 2025-11-02 00:03

核心观点 - SEEC框架通过“模型增强残差学习”方法，实现了人形机器人在动态行走中上肢的稳定控制，其核心是让上肢策略自动预判并抵消下肢运动带来的扰动[5] - 该框架将控制解耦为上下两层，上层策略通过模仿动力学模型推导的理想补偿力矩，在真实机器人上实现了零额外训练的稳健上肢控制[5][6] - 在仿真和真实机器人实验中，该框架显著提升了末端执行器的稳定性，并在多项任务中表现出色[30][33] 核心思路与创新点 - **控制范式创新**：采用“模型增强残差学习”框架，将动力学模型与强化学习融合，使策略学习过程从“黑箱试错”转变为“物理引导的高效收敛”[7][23] - **扰动建模**：构建“基座扰动生成器”，通过脚底冲击和身体重心摆动来模拟真实行走中的多种扰动[7][14] - **结构设计**：采用上下肢分层独立训练的策略，提升了策略的迁移性和模块复用性[7] - **奖励机制**：引入“力矩模仿奖励”，使强化学习策略能够对齐物理模型推导出的补偿信号，而非盲目试错[7][32] 算法实现细节 - **整体框架**：框架包含扰动生成器、模型增强模块、上肢残差策略和任务控制器四个核心模块[12][13] - **扰动生成**：采用等效力方法生成脉冲型（模拟脚底冲击）和周期型（模拟身体晃动）两类扰动信号，并通过随机化参数来增强泛化能力[14][15][21] - **模型增强**：利用雅可比矩阵和惯量矩阵推导出理论上可抵消扰动的“补偿力矩”，为强化学习提供教师信号[17] - **强化学习训练**：使用PPO算法和循环神经网络结构，奖励函数包含力矩模仿奖励、稳定性奖励和平滑性奖励[19][20] 仿真测试与结果分析 - **测试任务**：在仿真环境中设计了四种步态任务进行测试，包括原地踏步、向前行走、侧向移动和旋转步态[27][28][30] - **性能对比**：与多种基线方法对比，SEEC框架在所有任务中平均将末端线加速度降低60%以上，角加速度降低40%以上[30] - **消融实验**：实验表明，去除任务控制力矩导致性能下降约36%，去除力矩模仿奖励导致性能下降约26%，验证了各组件的关键作用[31][32] 实机部署与结果 - **任务表现**：在Booster T1真实人形机器人上成功完成了抓链行走、擦白板、端盘行走和提瓶行走等高难度任务[33] - **稳定性**：在端盘行走任务中实现全程无倾斜、无抖动，在提瓶行走任务中液体波动显著减弱[33]