Workflow
模块化跨实体 Transformer(MXT)
icon
搜索文档
卡耐基梅隆大学!Human2LocoMan:通过人类预训练学习多功能四足机器人操控
具身智能之心· 2025-07-03 21:36
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,实验显示整体任务成功率平均提升41.9%,分布外场景提升79.7% [4] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人数据微调,预训练后成功率提升38.6%,分布外场景提升82.7%,且仅需50%机器人数据即可超越基线性能 [8][16] - 构建首个涵盖单手/双手模式的LocoMan操作数据集,包含6类家庭任务如玩具收集、鞋架整理等,30分钟内可收集超50条机器人轨迹和200条人类轨迹 [22][26] 技术创新与系统设计 - 采用XR头显实现人类动作捕捉与机器人视图传输,通过头部动作映射躯干运动扩展工作空间,腕部动作映射末端执行器 [9][12] - 建立统一参考框架对齐人类与机器人动作空间,采用SE(3)6D姿态转换和全身控制器实现协调运动 [12] - MXT架构包含实体特定标记器/去标记器和共享Transformer主干,支持多模态数据联合训练,验证损失比基线低15%-20% [16][34] 性能验证与行业应用 - 在铲取猫砂、倾倒乒乓球等工具使用任务中,预训练MXT成功率达87.5%-95.8%,OOD场景提升25-66.7个百分点 [27][29] - 对比实验显示MXT在数据效率上显著优于HIT和HPT基线,小数据集下成功率仍超70%,长时序任务完成度提升50% [28][32] - 系统已实现抓取/非抓取、可变形物体操作等多样化任务,但需优化头部控制直观性并扩展至机械臂/人形机器人平台 [37][38]