智源&悉尼大学等出品！RoboGhost：文本到动作控制，幽灵般无形驱动人形机器人

文章核心观点 - 研究团队提出名为RoboGhost的创新方案旨在解决基于语言引导的人形机器人运动流程中存在的多阶段处理问题通过将文本驱动的人形机器人运动视为生成任务而非简单映射该方案无需显式的运动解码与重定向流程能够直接从噪声中解算出可执行动作在保持语义完整性的同时支持快速响应控制 [6][7][8] 技术方法与架构 - 团队设计了两阶段训练过程第一阶段采用连续自回归架构训练动作生成器第二阶段训练基于扩散模型的学生策略该策略以第一阶段的运动潜变量为条件引导运动降噪过程 [11] - 教师策略采用Mixture-of-experts架构提高泛化性并引入因果自适应采样方法动态调整动作序列采样概率以掌握更具挑战性的长运动序列 [11][13] - 推理阶段完全由潜变量驱动文本描述输入运动生成器获得潜运动表征后直接通过扩散模型生成可执行动作无需解码为显式运动序列消除了运动重定向需求 [13] 实验结果与性能 - 在HumanML3D数据集上 Ours-DDPM模型的R Precision Top 1达到0.639 Top 2达到0.808 Top 3达到0.867 FID为11.706 MM-Dist为15.978 Diversity为27.230 Ours-SiT模型的R Precision Top 1为0.641 Top 2为0.812 Top 3为0.870 FID为11.743 MM-Dist为15.972 Diversity为27.307 [16] - 在HumanML数据集上 Baseline方法的IsaacGym平台成功率为0.92 Empjpe为0.23 Empkpe为0.19 MuJoCo平台成功率为0.64 Empjpe为0.34 Empkpe为0.31 而Ours-DDPM方法在IsaacGym平台成功率提升至0.97 Empjpe降至0.12 Empkpe降至0.09 在MuJoCo平台成功率提升至0.74 Empjpe降至0.24 Empkpe降至0.20 [16] - 在Kungfu数据集上 Baseline方法的IsaacGym平台成功率为0.66 Empjpe为0.43 Empkpe为0.37 Ours-DDPM方法成功率提升至0.72 Empjpe降至0.34 Empkpe降至0.31 [16] - 与Baseline方法相比 RoboGhost将部署时间成本从17.850秒大幅降低至5.840秒同时成功率从92.0%提升至97.0% [17] - 在未见过的MotionUnion子集测试中基于扩散的策略相比多层感知机策略成功率从0.54提升至0.68 Empjpe从0.48降至0.42 Empkpe从0.45降至0.39 显示出更优的跟踪效果和鲁棒性 [18][19]