Workflow
Human2LocoMan:通过人类预训练学习多功能四足机器人操控
自动驾驶之心·2025-07-04 18:27

四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,在6项家庭任务中成功率平均提升41.9%,分布外场景提升79.7% [5][6] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人微调,仅用一半机器人数据即可持续优于基线性能 [10][16] - 构建首个涵盖单手/双手模式的四足机器人操作数据集LocoMan,包含300+人类轨迹和150+机器人轨迹,30分钟可采集50条机器人轨迹 [8][25][30] 核心技术架构 - 采用XR头显实现动作映射:人类腕部→机器人末端执行器、头部→躯干、手部→抓手,建立统一参考框架对齐跨实体动作 [11][14] - MXT架构包含实体特定标记器/去标记器与共享Transformer主干,预训练后微调可使OOD场景成功率提升82.7% [16][18][29] - 全身控制器通过零空间投影和二次规划实现多操作模式协调,支持单手/双手模式下工具使用、可变形物体操作等复杂任务 [14][23] 性能验证与行业意义 - 在玩具收集、鞋架整理等任务中,预训练MXT成功率最高达95.8%,任务得分116分,显著优于HIT和HPT基线方法 [27][29][33] - 人类数据预训练使模型在长时序任务中保持83.3%成功率,较基线提升50%,凸显跨实体学习对工业场景的适用性 [29][37] - 系统已开源硬件/数据,为具身智能领域提供首个四足全栈学习方案,推动家庭服务、物流等场景的机器人应用落地 [7][38]