研究背景与动机 - 大语言模型和多模态模型在文本、图像领域取得突破,但机器人领域缺乏类似"ChatGPT时刻"的变革 [3] - 现有视觉-语言-动作模型(VLAs)在复杂灵巧操作任务中表现不佳,主要受限于数据问题:合成数据存在"仿真到真实"鸿沟,远程操作演示规模小、多样性不足 [3] - 人类视频蕴含丰富操作数据,但面临四大挑战:数据异质性、手部运动量化、跨模态推理、机器人控制转移 [3] 核心方法:物理指令调优 - 提出物理指令调优范式,通过"预训练-物理空间对齐-后训练"三阶段将人类手部运动知识迁移到机器人操作 [4] - 预训练阶段以人类手为理想操纵器,在大规模人类视频上训练基础VLA,学习视觉、语言到运动的映射 [6] - 物理空间对齐阶段通过弱透视投影对齐和视角不变运动分布平衡策略统一多源数据的3D推理 [10][12] 关键技术:运动token化与跨模态融合 - 采用分组残差量化(GRQ)进行部分级运动token化,将手部运动分解为手腕和手指两部分分别处理,保留毫米级精度 [14][18] - 跨模态融合通过共享注意力机制实现视觉、语言和运动token的统一交互,视觉token替换文本占位符,运动token作为结构化块插入序列 [17][23] UniHand数据集 - 构建包含44万任务轨迹、1.3亿帧视频、1100多小时内容的UniHand数据集,生成1.65亿运动-指令对 [21] - 数据集整合三类数据源:高精度运动捕捉数据、VR录制数据、伪标注真实场景视频 [24] - 采样250万样本(UniHand-2.5M)用于预训练,平衡任务和数据源分布 [21] 实验结果 - 14B模型在运动生成任务中表现最优:MPJPE 6.87mm(头部)、8.11mm(尾部),MWTE 5.19mm(头部)、7.41mm(尾部) [25] - 长序列生成中,14B模型误差累积更少:短期(2-5s)MPJPE 7.43-8.39mm,长期(6-10s)MPJPE 7.98-9.72mm [27] - 真实机器人操作任务成功率显著提升:在"拾取unseen玩具"和"杂乱场景拾取"中分别达65%和60% [28]
Being-H0:从大规模人类视频中学习灵巧操作的VLA模型
具身智能之心·2025-07-23 16:45