关键帧动画
搜索文档
斯坦福最新的全身运控方案,跨地形泛化!
具身智能之心· 2026-01-09 08:55
研究背景与核心挑战 - 传统类人机器人移动方法主要聚焦于腿部步态,但自然双足动物(包括人类)在复杂环境中会主动利用手、膝盖、肘部等肢体建立额外接触点,以增强稳定性和支撑力 [2] - 在低间隙椅子下方、及膝高度的墙壁/平台、陡峭楼梯等场景中,仅依赖脚部移动要么不可行,要么需要剧烈动作,而全身协同的爬行、攀爬等策略能更高效地克服障碍 [2] - 当前类人机器人全身移动面临两大核心挑战:一是复杂环境导航需解决“接触丰富”的运动规划与鲁棒控制问题,即如何协调多肢体接触以维持平衡;二是不同地形需要完全不同的运动技能,需实现技能的灵活切换与跨场景泛化 [3][5] 核心方法 - 斯坦福大学研究团队提出一套融合物理接地关键帧动画与强化学习的分层框架,通过九种核心运动技能的链结,实现机器人在极端复杂地形中的稳定移动 [3] - 系统核心架构包含四大组件,形成“关键帧生成→策略训练→技能选择→分层执行”的完整闭环 [4] - **物理接地关键帧运动生成**:采用基于MuJoCo物理引擎的GUI工具,允许用户交互式指定机器人姿态、执行顺序与到达时间,再通过线性插值生成完整轨迹,工具内置功能可快速验证单关键帧的静态稳定性与全轨迹的平滑性 [7] - **运动跟踪策略**:将策略分为移动技能、过渡技能和地形技能三类,所有策略均训练为以四种标准姿态(站立、爬行、俯卧、仰卧)启动和结束,确保技能间无缝过渡,采用PPO算法训练,并引入大量领域随机化以保障仿真到真实环境的零样本迁移 [9][10] - **视觉技能分类器**:实现基于环境感知的自主技能选择,核心是从深度图中识别适配的运动技能,模型采用ResNet,并通过TensorRT量化与分辨率下采样实现3.1Hz的实时推理,精度损失极小(像素级MAE从59mm增至62mm) [11][15] - **分层策略执行**:框架分离视觉规划与底层控制,高层视觉规划基于深度图与IMU数据,每3.1Hz输出技能预测;底层控制以50Hz运行的运动跟踪策略快速响应局部扰动;并设有通过IMU检测跌倒并自动触发恢复技能的故障恢复机制 [12][15] 实验验证 - **实验平台与设置**:使用开源类人机器人ToddlerBot(30个自由度)进行测试,测试障碍包括低间隙椅子(53cm高)、及膝平台(25cm高,腿长的44%)、及膝墙壁(25cm高,腿长的48%)、陡峭楼梯(每级16cm高,腿长的16%) [15] - **运动跟踪策略有效性**:实现了零样本仿真到真实迁移成功,机器人能完成钻椅子、翻墙壁、登平台、上下楼梯、跌倒恢复等所有场景,甚至通过几小时关键帧调优新增了“推车退出”技能 [18] - **视觉分类器性能**:在真实测试集上总体准确率达到93.9%,误分类主要发生在技能过渡时刻 [21] - **系统鲁棒性与泛化能力**:地形技能可泛化到设计尺寸外的障碍,例如为12cm墙设计的策略可泛化至9-14cm墙,为11cm平台设计的策略可泛化至8.5-13cm平台;在五种不同障碍顺序的测试中均实现了零样本成功穿越 [23][24] 结论与核心贡献 - 提出“关键帧+强化学习”的混合框架,既利用关键帧编码人类运动知识,又通过强化学习赋予自适应能力,解决了复杂地形的接触丰富型运动规划问题 [28] - 设计分层执行架构,分离视觉规划与底层控制,平衡了决策鲁棒性与扰动响应速度 [28] - 实现了类人机器人在极端复杂地形中的全身移动,验证了零样本仿真到真实的迁移能力,且系统完全开源 [28] - 该方法强调了全身多肢体接触,扩大支持多边形(地面接触点的凸包),从而提升了在复杂地形中的稳定性,与现有主要依赖腿部策略的类人机器人或四足机器人形成对比 [15]