行业背景与核心问题 - 具身智能行业存在“马太效应”,单一硬件出货量决定数据采集上限,数据规模又直接限制模型表现,形成残酷闭环,中小型本体厂商因缺乏海量数据而面临商业化与融资困境 [1][3] - 行业长期面临数据孤立导致的训练困境,一线厂商凭借高投入建立“数据护城河”,而小厂资产规模限制了其产品专用模型的训练 [1] Being-H0.5模型概述与核心价值 - Being-H0.5是目前训练数据量最大的视觉-语言-动作模型,有望打破行业数据孤立的僵局,成为“通用底座” [2][3] - 该模型首次在复杂人形机器人本体上实现了真正意义上的跨机器人零样本技能迁移 [2] - 其核心价值在于让硬件厂商从枯燥的重复数据采集中解脱,将精力聚焦于形态创新与应用场景 [4] - 模型通过“以人为中心”的学习范式,将人类交互行为定义为物理世界的“母语”,将机器人控制信号视为“方言”,实现了低成本的跨本体泛化 [7] 训练数据:UniHand-2.0数据集 - UniHand-2.0是具身史上最大规模的“通用预训练语料库”,总时长突破3.5万小时,包含1.6万小时人类数据、1.4万小时机器人数据及5000小时通用多模态数据 [8] - 数据集总训练Token数高达1200亿,汇集了超过30种异构硬件的轨迹数据,涵盖了从工业桌面臂到高动态双足机器人在内的所有已知机器人形态 [8][10] - 该数据集在规模和多样性上比现有VLA数据集提升了至少3倍,真正终结了数据的“烟囱式”存储 [9][14] - 团队同步研发了UniCraftor人类数据采集系统,为解决人类视频标注稀缺的行业痛点提供了标准化工具 [14] 关键技术突破:统一动作空间 - 团队创新性地构建了统一动作空间框架,通过高度抽象的特征映射,将双足人形、轮式底盘、机械臂等异构硬件映射至统一的表征空间,以消弭“维度鸿沟” [16] - 这一框架打破了硬件维度的物理限制,为跨本体的联合训练与知识共享奠定了基础 [16][17] - 深度对齐过程验证了将混杂异构数据简单混合训练增益微乎其微,而深度对齐能挖掘出跨本体数据中最具价值的“通用特征” [18][19] 以人为中心的训练范式 - Being-H0.5确立了一套以人为中心的预训练范式,实现了从人类意图到机器人动作的深度对齐 [20] - 采用统一序列化建模,将人类演示、机器人轨迹与视觉文本映射为统一的多模态Token序列 [20] - 实施混合监督,对文本、离散人类动作和连续机器人轨迹分别采用Next-Token Prediction、Masked Token Prediction和Action Prediction进行差异化优化 [20] 模型架构升级 - 团队设计了Mixture-of-Flow架构,将“动作专家”解耦为学习通用“运动原语”的共享专家和负责特定形态精准执行的特化专家,实现了物理共性与硬件特性的完美解耦 [23] - 引入流形保持门控机制,确保模型在感知模糊、传感器噪声等不确定性高时能自动退回到稳健的物理先验分布,提升系统鲁棒性 [23] - 开发通用异步分块技术,使模型能够动态适配各种控制频率和通讯延迟不同的机器人硬件,实现极高兼容性 [23] 性能验证与实验结果 - 在真机测试中,Being-H0.5实现了“同一份模型权重,多本体部署”,操控PND、Unitree-G1、Franka等多种异构机器人完成了如“使用按压式喷壶浇花”等精细操控任务 [27][28] - 在LIBERO仿真评测中,Being-H0.5在仅使用224x224像素RGB图像、不使用任何辅助模态的情况下,取得了平均98.9%的成功率,超越了π‑0.5、GR00T等所有已知VLA模型 [34][35] - 在RoboCasa评测中,仅依靠224x224分辨率RGB图像,Being-H0.5取得了平均53.9%的成功率,显著超过π‑0.5、GR00T等先进VLA模型 [36] - 定量评测显示,Being-H0.5的通用版本与针对特定本体优化的专用版本性能基本持平,实现了近乎“零损耗泛化” [30][31][33] 开源策略与行业影响 - 团队决定实施全栈式深度开源,不仅公开全部模型参数,更提供完整的训练框架、评估工具及详细技术配方,以打破社区复现与创新的壁垒 [37] - 此举旨在将Being-H0.5打造成具身智能领域的公共基础设施,赋能全球开发者共建开放生态 [38] - 该模型为行业提供了一个前瞻性范式,即高质量的物理智能不一定需要堆砌昂贵的机器人集群,从根本上重塑了研发门槛,使本体厂商无需投入天文数字即可获得跨本体的通用能力 [39]
以最低图像分辨率斩获SOTA!全栈开源具身模型发布:3.5万小时炼出通用大脑
量子位·2026-01-23 20:09