Workflow
清北推出Motion Transfer,机器人直接从人类数据中端到端学习技能
具身智能之心·2025-11-07 08:05

MotionTrans框架核心创新 - 提出业界首个纯端到端、零样本、多任务的人类→机器人技能迁移框架MotionTrans,实现从“看人会”到“我会做”的直接转化[4] - 核心能力包括零样本迁移(无需同任务机器人演示)和小样本精进(仅需5-20条机器人数据微调即可将成功率提升至80%)[7] - 框架采用架构无关设计,已在Diffusion Policy与VLA两大主流范式上验证即插即用特性[7] 技术实现细节 - 自研基于VR设备的人类数据采集系统,可便携式采集第一人称视频、头部运动、腕部位姿和手部动作[9] - 通过坐标系变换和手部重定向将人类数据转换为机器人格式,并使用统一动作归一化与加权联合训练算法优化迁移效果[10] - 采用相对腕部动作表征与Dex-Retargeting工具缩小人机动作差距,提升迁移精度[11] 数据集与实验表现 - 构建大规模人类-机器人数据集,包含3200+轨迹、15个机器人任务、15个人类任务及超过10个真实生活场景[10] - 零样本迁移在13个任务上平均成功率达20%,其中Pick-and-Place任务成功率60%-80%,VLA模型在“关电脑”任务实现100%成功率[14] - 小样本微调后平均成功率从20%跃升至50%(5条数据)和80%(20条数据),显著优于基线方法[17][18] 行业影响与开源贡献 - 证明人类VR数据可独立作为机器人技能学习主菜,改变人类数据仅作为辅助工具的认知[22] - 框架采用模块化设计,支持横向扩容,具备应对大规模数据集与参数量级模型的扩展性[22] - 团队全面开源技术报告、训练代码、权重及数据集,推动相关研究发展[6][23]