亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式
量子位·2025-07-24 15:28
BeingBeyond团队 投稿 量子位 | 公众号 QbitAI 如何让机器人从 看懂世界 ,到 理解意图 ,再到 做出动作 ,是具身智能领域当下最受关注的技术重点。 但 真机数据的匮乏 ,正在使对应的视觉-语言-动作(VLA)模型面临发展瓶颈。 尽管业界已投入大量资源构建数据平台(如马斯克主导的"数据工厂"项目),现有真机数据规模仍较模型规模定律所需的 上亿级训练样本 相 差三个数量级。 △ Being-H0:基于人类视频手部数据的大规模预训练VLA模型 针对这一关键问题,北京大学&BeingBeyond卢宗青团队提出了创新性解决方案: 该研究团队 利用海量人类操作视频提取手部运动轨迹,构建了规模达亿级的训练数据集 。 其核心贡献在于提出了"物理指令微调"(physical instruction tuning)方法框架,实现了从人类手部运动到机器人动作空间的精确映射。 基于这一技术突破,团队成功训练出 首个基于人类视频手部数据的大规模预训练VLA模型——Being-H0 ,并完成了真实机器人平台的验证 实验。 这项研究发现: Being-H0:首个利用人类操作轨迹训练的大规模VLA模型 Being-H0 ...