亿级短视频数据突破具身智能Scaling Law！Being-H0提出VLA训练新范式

具身智能技术突破 - 具身智能领域当前技术重点在于让机器人从看懂世界到理解意图再到做出动作 [1] - 真机数据匮乏导致视觉-语言-动作(VLA)模型发展受限现有数据规模与上亿级训练样本需求相差三个数量级 [2] - 北京大学团队利用人类操作视频提取手部运动轨迹构建了规模达亿级的训练数据集 [3] Being-H0模型创新 - 提出"物理指令微调"方法框架实现人类手部运动到机器人动作空间的精确映射 [5] - Being-H0是首个基于人类视频手部数据的大规模预训练VLA模型 [6] - 模型假设人类手部运动是最完备的操作执行器机器人末端执行器均可视为其子集 [6] 数据与方法创新 - 利用短视频时代易获取的人类视频数据避免仿真环境数据采集的"虚拟-现实"差异问题 [8] - 构建规模达1.5亿的UniHand数据集整合11个开源数据源的多模态数据 [17][18][20] - 仅使用250万条样本预训练就展现出显著性能提升 [21] 技术框架设计 - 采用分部位动作编码方案手腕和手指分别设计专用编码器动作姿态重建误差控制在毫米级 [12] - 物理空间对齐技术消除多源数据在相机参数、观测视角等方面的差异性 [13] - 建立从人类动作到机器人操作的高效转换通道 [14] 性能验证 - 在Pick-Place-Toy等7项任务中 Being-H0表现优于GR00T N1.5和InternVL3模型 [22][23] - 在相同数据量条件下 Being-H0始终展现出稳定的性能优势 [25] - 显著降低真机数据需求 25%数据量即可达到其他模型100%数据量的性能 [25][27] 行业影响 - 突破数据封锁桎梏为机器人灵巧操作研究开辟新范式 [30] - 团队持续攻坚具身智能大模型、灵巧操作、全身运动控制等核心技术 [31]