核心观点 - 提出名为MotionTrans的端到端、零样本、多任务的人类向机器人技能迁移框架,实现从观察人类行为到机器人执行的直接转化 [8] - 该框架无需同任务机器人演示数据,仅依靠人类VR数据即可让机器人学习新技能,并通过极少量机器人数据微调即可达到高成功率 [12] - 研究团队已开源完整技术报告、训练代码、权重及大规模数据集,推动相关领域发展 [3][26] 技术框架与实现 - 框架性质:业界纯端到端、零样本的RGB到动作技能迁移框架,与机器人模型架构解耦,已在Diffusion Policy和VLA两大主流范式上验证通用性 [8][12] - 数据采集:自研基于VR设备的人类数据采集系统,可便携式同步采集人类第一人称视频、头部运动、腕部位姿和手部动作 [9] - 数据处理:通过坐标系变换和手部重定向将人类数据转换为机器人格式,使用相对腕部动作表征缩小人机动作差距 [10][13] - 训练算法:提出人类-机器人统一动作归一化及赋权重的联合训练算法以优化迁移效果 [10] 性能表现 - 零样本迁移:在13个任务上平均成功率达20%,其中Pick-and-Place任务成功率60%-80%,VLA模型在“关电脑”任务上实现100%成功率 [17] - 小样本微调:仅用5条机器人轨迹微调即可将平均成功率从20%提升至约50%,使用20条轨迹可进一步提升至80% [20] - 对比优势:同时使用人类和机器人数据联合训练的MotionTrans方法显著优于对比基线方法 [21] 数据集与开源 - 数据集规模:采集包含3200+轨迹、15个机器人任务、15个人类任务及超过10个真实场景的大规模人类-机器人数据集 [14] - 开源内容:团队开源了完整技术报告、训练代码、模型权重及数据集,确保可复现性 [3][26]
清北联合推出Motion Transfer,比肩Gemini Robotics,让机器人直接从人类数据中端到端学习技能
机器之心·2025-11-05 12:15