人机相互模仿预训练
搜索文档
超越π0.5,MiVLA通过人机相互模仿预训练,破解 VLA 模型泛化与数据瓶颈
具身智能之心· 2025-12-22 09:22
文章核心观点 - 由同济大学、电子科技大学等团队提出的MiVLA模型,通过“人机相互模仿预训练”范式,首次实现了无需真实机器人数据,仅融合模拟机器人数据与人类视频数据进行训练,就能在机器人视觉-语言-动作模型领域取得超越现有顶尖模型的泛化能力,为通用机器人策略学习提供了低成本、高可扩展的新路径 [2][19] 当前VLA模型训练的困境与MiVLA的解决方案 - 当前VLA模型训练面临双重困境:依赖真实机器人数据受限于高昂的采集成本、有限的场景与机器人形态覆盖,导致数据规模难以扩大;依赖单一模拟数据或人类数据则分别受限于“模拟-现实鸿沟”和人机形态差异导致的动作知识迁移难题 [3] - 现有方案无法同时解决“数据稀缺”与“跨模态迁移”的核心矛盾,而优质的VLA预训练需要“数据规模、行为保真、跨模态适配”三者的统一 [3] - MiVLA模型通过“人机双向动作映射消除形态鸿沟,相互模仿预训练融合双源数据优势”,构建了兼顾通用性与实用性的VLA模型 [3] MiVLA模型的核心设计特性 - **核心特性1:双向人机动作空间映射**:通过选取人类拇指指节姿态与机器人末端执行器姿态作为核心参考点,结合逆运动学或解剖学先验,实现人类与机器人动作坐标系的双向精准转换,并将人机专属关节空间与通用末端执行器空间统一对齐 [7] - **核心特性2:人机相互模仿预训练**:采用“预测-模仿”双任务预训练范式,模型从单一模态数据中学习双模态动作知识,利用L2损失函数同时优化“模态内动作预测”与“跨模态动作模仿”,实现了模拟机器人数据的操控多样性与人类视频数据的行为保真度的优势互补 [8][9] - **核心特性3:扩散Transformer架构**:采用“多模态编码器+扩散解码器”的统一架构,通过流匹配迭代去噪生成连续动作序列,兼顾多模态信息融合与连续动作生成精度,支持长序列任务的精准控制 [8] - **核心特性4:轻量化高效训练**:预训练仅需4块A100 GPU,批量大小为128,使用约900小时混合数据(模拟机器人+人类视频)的训练效果,即可比肩需要10000+小时真实机器人数据训练的π系列模型 [8][9] 关键实验结果 - **模拟环境性能领先**:在RoboTwin-2.0基准的20项代表性任务中,MiVLA在Easy模式下的平均成功率为69%,在Hard模式(含域随机化)下为66%,大幅超越ACT、H-RDT等基线模型 [9][10] - **真实机器人跨形态泛化能力突出**:在3类异构机器人(单臂PiPER、单臂ARX-5、双足+双臂LocoMan)的真实任务测试中,MiVLA以中等规模混合数据实现了平均55%的成功率,比肩使用大规模真实数据预训练的基线模型 [11][13] - **对未知形态的适配性**:在双足+双臂复合机器人LocoMan上,MiVLA成功完成了长序列双臂协同任务,而所有基线模型均未见过此全新架构,证明了其强大的跨模态泛化能力 [13] - **数据效率与泛化能力**:仅需20条演示数据,MiVLA即可实现对未知位置、物体的有效适配,全量训练后平均泛化成功率达54% [15][17] 核心组件有效性与未来方向 - **消融实验验证核心组件**:实验表明,完整的人机相互模仿预训练是性能提升的关键,仅使用人类数据预训练或单向模仿,性能均不及双向模仿的完整模型 [14] - **未来优化方向**:计划融合视觉语言模型的语义推理能力以提升对抽象指令和未知物体的适配性;扩展融入触觉、声音等多模态数据以强化复杂物理交互的控制精度;扩大数据覆盖范围至高精度灵巧任务及更多人形机器人形态,以提升通用化水平 [18]