Workflow
MotionTrans
icon
搜索文档
清北推出Motion Transfer,机器人直接从人类数据中端到端学习技能
具身智能之心· 2025-11-07 08:05
MotionTrans框架核心创新 - 提出业界首个纯端到端、零样本、多任务的人类→机器人技能迁移框架MotionTrans,实现从“看人会”到“我会做”的直接转化[4] - 核心能力包括零样本迁移(无需同任务机器人演示)和小样本精进(仅需5-20条机器人数据微调即可将成功率提升至80%)[7] - 框架采用架构无关设计,已在Diffusion Policy与VLA两大主流范式上验证即插即用特性[7] 技术实现细节 - 自研基于VR设备的人类数据采集系统,可便携式采集第一人称视频、头部运动、腕部位姿和手部动作[9] - 通过坐标系变换和手部重定向将人类数据转换为机器人格式,并使用统一动作归一化与加权联合训练算法优化迁移效果[10] - 采用相对腕部动作表征与Dex-Retargeting工具缩小人机动作差距,提升迁移精度[11] 数据集与实验表现 - 构建大规模人类-机器人数据集,包含3200+轨迹、15个机器人任务、15个人类任务及超过10个真实生活场景[10] - 零样本迁移在13个任务上平均成功率达20%,其中Pick-and-Place任务成功率60%-80%,VLA模型在“关电脑”任务实现100%成功率[14] - 小样本微调后平均成功率从20%跃升至50%(5条数据)和80%(20条数据),显著优于基线方法[17][18] 行业影响与开源贡献 - 证明人类VR数据可独立作为机器人技能学习主菜,改变人类数据仅作为辅助工具的认知[22] - 框架采用模块化设计,支持横向扩容,具备应对大规模数据集与参数量级模型的扩展性[22] - 团队全面开源技术报告、训练代码、权重及数据集,推动相关研究发展[6][23]
清北联合推出Motion Transfer,比肩Gemini Robotics,让机器人直接从人类数据中端到端学习技能
机器之心· 2025-11-05 12:15
核心观点 - 提出名为MotionTrans的端到端、零样本、多任务的人类向机器人技能迁移框架,实现从观察人类行为到机器人执行的直接转化 [8] - 该框架无需同任务机器人演示数据,仅依靠人类VR数据即可让机器人学习新技能,并通过极少量机器人数据微调即可达到高成功率 [12] - 研究团队已开源完整技术报告、训练代码、权重及大规模数据集,推动相关领域发展 [3][26] 技术框架与实现 - **框架性质**:业界纯端到端、零样本的RGB到动作技能迁移框架,与机器人模型架构解耦,已在Diffusion Policy和VLA两大主流范式上验证通用性 [8][12] - **数据采集**:自研基于VR设备的人类数据采集系统,可便携式同步采集人类第一人称视频、头部运动、腕部位姿和手部动作 [9] - **数据处理**:通过坐标系变换和手部重定向将人类数据转换为机器人格式,使用相对腕部动作表征缩小人机动作差距 [10][13] - **训练算法**:提出人类-机器人统一动作归一化及赋权重的联合训练算法以优化迁移效果 [10] 性能表现 - **零样本迁移**:在13个任务上平均成功率达20%,其中Pick-and-Place任务成功率60%-80%,VLA模型在“关电脑”任务上实现100%成功率 [17] - **小样本微调**:仅用5条机器人轨迹微调即可将平均成功率从20%提升至约50%,使用20条轨迹可进一步提升至80% [20] - **对比优势**:同时使用人类和机器人数据联合训练的MotionTrans方法显著优于对比基线方法 [21] 数据集与开源 - **数据集规模**:采集包含3200+轨迹、15个机器人任务、15个人类任务及超过10个真实场景的大规模人类-机器人数据集 [14] - **开源内容**:团队开源了完整技术报告、训练代码、模型权重及数据集,确保可复现性 [3][26]