音频 - 运动生成
搜索文档
会跳舞、能演讲!RoboPerform 让人形机器人听懂声音,即兴解锁双重技能
具身智能之心· 2026-01-07 15:02
文章核心观点 - 北京智源人工智能研究院等机构的研究团队提出了一种名为RoboPerform的一体化音频-运动生成框架,旨在解决音频驱动人形机器人运动时存在的“音频与关节驱动弱耦合”及“多阶段流程信息损失”等行业痛点 [3][6] - 该框架通过“内容-风格”解耦机制,建立从音频到机器人关节动作的直接映射,无需经过“音频→人类运动→机器人动作”的传统重定向流程,从而实现了更精准、实时、泛化性强的即兴表演能力,如随乐起舞和配合语音生成自然手势 [7][22][24] 技术方案与架构 - 团队提出了“对齐-蒸馏-生成”三阶段训练流程,核心是“内容-风格”双潜表征与∆MoE混合专家教师策略 [11][13] - 音频适配模块基于6层Transformer与时序注意力,结合InfoNCE对比学习损失,使音频潜变量与运动潜变量在嵌入空间精准对齐,让机器人能捕捉音乐节拍、旋律起伏及语音重音、语调变化 [12] - ∆MoE混合专家教师策略通过嵌套条件子空间划分,让多个专家网络分别适配不同运动场景,并通过残差融合减少信息冗余,再通过DAgger式蒸馏将知识迁移至扩散模型学生网络 [13] - 采用x₀-prediction训练目标与两步DDIM采样技术,将单动作推理延迟压缩至5.3ms,整体部署时间仅需1.2s,满足实时控制要求 [14][19] 性能表现与实验结果 - 在音频-运动对齐能力上,模型在音乐-运动检索任务中的Top-1准确率达66.7%,Top-3准确率达83.5%;在语音-运动检索任务中,R@1与R@3分别达到64.6%和82.1% [17] - 在Beat Alignment Score指标上显著超越所有基线方案,证明其能精准捕捉音乐节拍与语音重音 [17] - 在运动追踪精度上,在IsaacGym和MuJoCo仿真平台及Unitree G1实机测试中,任务成功率最高达到99%,且Mean Per Joint Position Error与Mean Per Keypoint Position Error数值均显著低于传统重定向方案与vanilla MoE架构 [18] - 具体数据:在IsaacGym平台上使用BEAT2数据集,成功率为0.99,MPJPE为0.05,MPKPE为0.04;在MuJoCo平台上使用FineDance数据集,成功率为0.67,MPJPE为0.26,MPKPE为0.24 [19][23] - ∆MoE架构在各项指标上均优于Vanilla MoE,例如在IsaacGym平台使用BEAT2数据集时,成功率从0.97提升至0.99,MPJPE从0.14降至0.05 [23] 应用与演示 - 在实机演示中,Unitree G1机器人能够流畅跟随音乐节拍完成抬手、转身、踏步等连贯舞蹈动作,并能配合语音的抑扬顿挫做出自然手势与肢体姿态,实现端到端实时响应 [22][26][28] - 在泛化性验证中,面对未见过的音频信号,其运动追踪成功率与稳定性仍优于对比方案,长序列运动无失控情况 [22] - 在仿真环境中验证了策略的Freestyle能力,RoboPerform能做出稳定且语义丰富的舞蹈动作,而基线方法会出现摔倒及抖动现象 [34]