Workflow
RoboMirror
icon
搜索文档
智源&港科大等出品!RoboMirror:让机器人先 “读懂” 视频,再精准复刻每一个动作
具身智能之心· 2026-01-09 08:55
文章核心观点 - 提出了一种名为RoboMirror的新型具身智能框架,其核心创新在于将机器人模仿人类动作的模式从传统的“姿态复刻”转变为“意图生成”,实现了“先理解、后模仿”的新范式 [3][6] - 该框架通过视觉语言模型理解视频中的动作意图和环境语义,并利用扩散模型直接生成符合物理规律的机器人关节动作,无需依赖传统的姿态估计和重定向步骤,从而解决了延迟高、误差大、视角局限等行业痛点 [3][5][6][8] 技术架构与原理 - **两阶段“理解-重构-控制”架构**:第一阶段利用Qwen3-VL视觉语言模型理解视频中的动作意图,并通过流匹配扩散模型将其重构为包含运动学信息的运动潜变量 [6][12][14] - **Teacher-Student双策略控制**:第二阶段采用Teacher-Student策略架构,其中Teacher Policy由多个专家组成以确保动作多样性,轻量化的Student Policy则接收运动潜变量和机器人本体感知信息,通过两步DDIM采样快速生成可执行的关节动作,实现毫秒级推理延迟 [7][10][12] - **端到端映射**:整个流程从视频像素输入到机器人动作输出端到端完成,避免了传统流水线中因多步骤转换而导致的误差累积 [6][7][14] 性能与效果评估 - **定量分析表现卓越**:在Nymeria数据集上,RoboMirror的任务成功率达到了0.99,显著高于基线方法的0.92;其关节位置误差相比基线降低了近50%;端到端延迟从9.22秒大幅降低至1.84秒,效率提升约80% [13][16][17] - **定性分析展示精准理解**:框架不仅能复制动作,还能理解复杂动作的语义(如“交替出拳”、“战绳训练”),并生成合理且物理可行的全身运动,即使面对“像鸟一样张开手臂跑”等高度语义化指令也能有效应对 [9][16][24] - **仿真与真机验证**:在仿真环境中,其扩散策略相比MLP基础策略能生成更稳定、追踪更精准的动作 [19][22];真机部署演示进一步验证了该架构能够精准理解并复刻输入视频中的动作,证明了其实用性与优越性 [25][27][29] 行业意义与突破 - **解决传统技术瓶颈**:传统机器人模仿技术依赖“姿态估计→重定向→追踪”的繁琐流水线,存在只会机械复刻而不理解动作目的、处理延迟长达9秒以上、面对第一人称视角视觉盲区直接失效三大瓶颈 [5][8] - **开创无需重定向的新路径**:RoboMirror是首个无需重定向的视频到人形机器人运动控制框架,利用视觉语言模型的强大理解能力,直接跨越了“感知”与“控制”之间的隔离墙 [6][8] - **提升机器人模仿的智能水平**:通过让机器人像人类一样基于语义理解来生成动作,而非基于像素复刻,使机器人能够应对各种未见过的视频场景,包括第一人称和第三人称视角 [6][9][14]