LocoMan 机器人

搜索文档
Human2LocoMan:通过人类预训练学习多功能四足机器人操控
自动驾驶之心· 2025-07-04 18:27
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,在6项家庭任务中成功率平均提升41.9%,分布外场景提升79.7% [5][6] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人微调,仅用一半机器人数据即可持续优于基线性能 [10][16] - 构建首个涵盖单手/双手模式的四足机器人操作数据集LocoMan,包含300+人类轨迹和150+机器人轨迹,30分钟可采集50条机器人轨迹 [8][25][30] 核心技术架构 - 采用XR头显实现动作映射:人类腕部→机器人末端执行器、头部→躯干、手部→抓手,建立统一参考框架对齐跨实体动作 [11][14] - MXT架构包含实体特定标记器/去标记器与共享Transformer主干,预训练后微调可使OOD场景成功率提升82.7% [16][18][29] - 全身控制器通过零空间投影和二次规划实现多操作模式协调,支持单手/双手模式下工具使用、可变形物体操作等复杂任务 [14][23] 性能验证与行业意义 - 在玩具收集、鞋架整理等任务中,预训练MXT成功率最高达95.8%,任务得分116分,显著优于HIT和HPT基线方法 [27][29][33] - 人类数据预训练使模型在长时序任务中保持83.3%成功率,较基线提升50%,凸显跨实体学习对工业场景的适用性 [29][37] - 系统已开源硬件/数据,为具身智能领域提供首个四足全栈学习方案,推动家庭服务、物流等场景的机器人应用落地 [7][38]
卡耐基梅隆大学!Human2LocoMan:通过人类预训练学习多功能四足机器人操控
具身智能之心· 2025-07-03 21:36
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,实验显示整体任务成功率平均提升41.9%,分布外场景提升79.7% [4] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人数据微调,预训练后成功率提升38.6%,分布外场景提升82.7%,且仅需50%机器人数据即可超越基线性能 [8][16] - 构建首个涵盖单手/双手模式的LocoMan操作数据集,包含6类家庭任务如玩具收集、鞋架整理等,30分钟内可收集超50条机器人轨迹和200条人类轨迹 [22][26] 技术创新与系统设计 - 采用XR头显实现人类动作捕捉与机器人视图传输,通过头部动作映射躯干运动扩展工作空间,腕部动作映射末端执行器 [9][12] - 建立统一参考框架对齐人类与机器人动作空间,采用SE(3)6D姿态转换和全身控制器实现协调运动 [12] - MXT架构包含实体特定标记器/去标记器和共享Transformer主干,支持多模态数据联合训练,验证损失比基线低15%-20% [16][34] 性能验证与行业应用 - 在铲取猫砂、倾倒乒乓球等工具使用任务中,预训练MXT成功率达87.5%-95.8%,OOD场景提升25-66.7个百分点 [27][29] - 对比实验显示MXT在数据效率上显著优于HIT和HPT基线,小数据集下成功率仍超70%,长时序任务完成度提升50% [28][32] - 系统已实现抓取/非抓取、可变形物体操作等多样化任务,但需优化头部控制直观性并扩展至机械臂/人形机器人平台 [37][38]