文章核心观点 - TrajBooster框架通过以末端执行器轨迹为通用语言,将轮式人形机器人的海量数据转化为双足人形机器人的有效训练资源,解决了双足人形机器人因数据稀缺导致训练困难的核心瓶颈[2] - 该框架采用"真实轨迹提取-仿真重定向-双阶段微调"流程,仅需10分钟双足机器人遥操作数据,就能让Unitree G1完成深蹲、跨高度操控等桌面级以上任务,大幅提升鲁棒性与泛化性[2][5] - 这一突破降低了双足人形机器人对昂贵同形态数据的依赖,使视觉-语言-动作模型的零样本技能迁移成为可能,为双足人形机器人的实用化按下加速键[2][40] 研究背景与问题 - 视觉-语言-动作模型让人形机器人自主执行家庭任务成为可能,轮式人形机器人已能完成深蹲、跨高抓取等复杂动作,AgibotWorld Beta数据集显示其末端执行器轨迹覆盖0.2-1.2米范围,足以应对日常家庭场景[1][3] - 双足人形机器人研发陷入瓶颈:需在保持下半身动态平衡的同时用上身完成操控,实现大范围全身动作难度极高[1][3] - 训练双足人形机器人需要大规模高质量演示数据,但传统遥操作流程依赖昂贵设备和专家操作,生成的数据集规模小、场景单一,导致视觉-语言-动作模型难以适配新机器人的动作空间[1][4] 技术方法创新 - TrajBooster是"真实-仿真-真实"的跨形态pipeline,核心流程分为真实轨迹提取、仿真中重定向、真实人形机器人微调三步[6] - 真实轨迹提取阶段采用Agibot-World Beta数据集(含超100万条真实机器人轨迹)作为源数据,通过轨迹映射处理解决Agibot与Unitree G1工作空间差异问题[7] - 仿真重定向采用分层复合模型架构,将控制解耦为上、下半身系统,包括手臂策略、工人策略和管理者策略,通过协调在线DAgger方法进行训练[9][11][12][14][16] - 真实微调采用"后预训练→后训练"两步流程,后预训练使用重定向动作数据与Agibot-World数据集整合的多模态三元组,后训练使用约10分钟的真实遥操作数据[18][20][22][23] 实验结果与性能 - 在全身跟踪实验中,TrajBooster(M=10带DAgger)在移动场景实现最低位置误差2.851厘米和旋转误差6.231度,静态场景位置误差也最优为1.893厘米[27] - 视觉-语言-动作模型评估显示,带后预训练的模型仅训练3K步就在多数任务中成功率超过无后预训练的10K步模型,无后预训练的3K步模型完全无法学习任务[33] - 当目标物体放置在遥操作未覆盖位置时,带后预训练的模型成功率达80%,而无后预训练的模型成功率为0%,证明后预训练显著提升轨迹泛化性[34][36] - 在"传递水"任务中,带后预训练的模型可在Unitree G1上零样本完成该任务,证明后预训练提升了模型对未见过任务的泛化能力[39] 应用价值与意义 - 首次实现利用大量重定向动作数据进行微调,在真实场景中实现双足人形机器人基于视觉-语言-动作模型的全身操控[5] - 仅需10分钟遥操作数据采集就能完成桌面级以上家庭任务,显著减少对高成本同形态数据的依赖,增强零样本技能迁移能力[5][40] - 该框架为双足人形机器人的实用化提供新方案,推动机器人自主执行家庭任务的可靠性与泛化性提升[3][40]
TrajBooster:首个全身人行操作VLA方案,跨构型解决数据难题(代码全开源)
具身智能之心·2025-09-18 08:03