Workflow
Human-Centric Learning
icon
搜索文档
具身基座模型的曙光初现,全球最强跨本体VLA来啦!
具身智能之心· 2026-01-20 08:33
文章核心观点 - 一款名为Being-H0.5的模型通过整合全球主流机器人构型数据,打破了具身智能领域依赖单一本体数据积累的“马太效应”行业逻辑,展现出惊人的跨本体泛化能力[3] - 该模型的核心突破在于构建了全球规模最大的跨本体训练数据集UniHand-2.0,并创新性地采用了以人为中心的训练范式,将人类视频作为所有下游机器人的“原型模板”[6][11][13] - 在真机验证和基准测试中,模型性能超越了当前已知的VLA模型,其成功可能为行业开启一个打破数据壁垒、降低开发成本的泛化新时代[18][19] 根据相关目录分别进行总结 构建全球规模最大的训练数据集UniHand-2.0 - 数据集涵盖超过14,000小时的机器人操作数据与16,000小时的人类视频数据,总训练token数突破4000亿,规模达到Qwen2.5-VL的十分之一[6] - 首次实现了跨本体的大规模数据融合,汇集了超过30种不同硬件构型的数据,解决了以往异构本体数据难以统一训练的挑战[8] - 创新性地提出了统一动作空间框架,将双足人形、轮式底盘、桌面机械臂等形态各异的机器人映射到同一特征表示空间,支撑跨本体联合训练[10] 以人为中心的训练范式 - 在上一代H0基础上,将人类视频训练数据提升了2个数量级,通过16,000小时的庞大体量构建了全球最大的人类视频数据集[11] - 设计了一套名为UniCraftor的便携、可扩展、低成本的人类视频采集系统,以解决人类视频普遍缺乏高质量标注的痛点[11] - 人类视频蕴含海量即兴意图,覆盖了下游场景几乎所有任务类型,能有效避免模型在预训练过程中坍缩到单一的低维流形,实现跨本体泛化[13] - 人类视频蕴含丰富的物理与空间先验信息,赋予了模型仅靠实验室数据所不具备的场景泛化能力[14] 模型架构与技术方法 - Being-H0.5是一个专门的专家混合模型,解耦了多模态理解与动作生成功能,同时通过共享的注意力机制保持两者的耦合[17] - 通过一个统一的状态-动作空间,将人手动作和多样化的机器人控制映射到语义对齐的槽位,支持跨实体形态的预训练[17] - 预训练将多模态数据序列化为统一的问答式格式,并将每种模态分配给相应的专家分支[17] - 采用“混合流”设计,结合共享的基础层与用于特定实体形态/任务动态的路由式专用专家,实现了动作生成能力的扩展[17] 真机验证与基准测试结果 - 在PND、G1、Franka等不同构型的人形机器人、机械臂本体上进行了大量真机实验,模型展现出卓越的跨本体与复杂任务执行能力,例如完成“用按压喷壶浇花”这类以往夹爪式机器人难以实现的操作[18] - 在LIBERO、RoboCasa等广泛使用的评测基准上,模型在仅依赖模仿学习与纯RGB视觉输入的条件下,平均取得了98.9%与54%的成功率[18] - 该性能超越了π-0.5、GR00T等所有已知VLA模型,甚至优于部分借助强化学习与3D模态的方案[18] 行业影响 - Being-H0.5的出现对国内外绝大多数具身公司而言是一大利好,本体公司可能不再需要投入上亿成本自建数据采集中心、依靠自身本体数据构筑算法护城河[19] - 该模型为“如何适配不同构型本体、获取高质量数据”这一行业难题提供了一个答案,即人类本身才是最大、最自然的数据来源[19]