卢宗青团队新作：人类先验打底，统一动作对齐，通用机器人模型正在落地

文章核心观点 - 机器人行业正从追求单次演示成功转向追求通用策略在真实世界中的长期稳定部署，其核心挑战在于克服形态割裂、数据稀缺和部署系统不稳定三大门槛 [2][3] - 智在无界团队提出的Being-H0.5模型，通过以人类为中心的大规模数据建立跨形态动作先验、统一状态-动作空间、增强动作生成能力并结合稳定部署机制，系统性地验证了通用机器人策略在多形态平台上稳定工作的可行性 [3][4] - 实验结果表明，通用型模型性能已接近专用型模型，尤其在长程和双臂任务上提升显著，并且通过引入MPG和UAC等部署机制，有效解决了真实部署中的动作抖动和时序不同步问题，推动了研究向产品落地的进程 [9][16][18] 通用模型性能表现 - 真实机器人实验结果：专用型模型整体表现最佳，但通用型模型性能仅略低，两者在共享技能强、动作模式类似的任务上表现非常接近 [8][9] - 关键任务类别提升：相比基线模型π0.5，Being-H0.5在长程任务和双臂任务中提升幅度最大，这两类任务最能检验策略的可部署稳定性 [9] - 特定任务优势：在清桌子等需要反复使用通用子技能的任务中，通用型模型可能接近甚至超过专用型模型，因其在更多任务中学习过类似动作结构，表现更稳定 [10] - 仿真基准结果：在LIBERO基准测试中，Being-H0.5平均成功率高达98.9%，在更困难的长程子集LIBERO-Long上也达到97.4% [13] - 复杂场景验证：在更接近真实家庭场景的RoboCasa厨房任务基准上，Being-H0.5整体领先多个基线方法，取得了53.9%的成功率 [15] 核心技术方法 - 数据体系构建：构建了UniHand-2.0数据集，总规模超过35,000小时，包含1200亿tokens与4亿samples，融合了人类第一视角手部操作数据16K小时、覆盖30种机器人形态的机器人操控数据14K小时，以及约5K等效小时的视觉语言理解数据 [13][23] - 跨形态动作对齐：引入统一的状态-动作空间，将不同机器人形态的状态与动作映射到统一空间，使模型学习通用操控语义而非特定硬件关节角度，解决了形态割裂问题 [24] - 模型训练架构：采用理解专家与动作专家组合的架构，并通过混合流提升动作生成表达能力，使模型同时具备任务理解与连续动作输出能力 [26] - 稳定部署机制：引入了MPG机制以抑制不合理动作输出，以及UAC机制以解决感知与控制频率不同步问题，消融实验表明这两者对长程和双臂任务的可靠执行至关重要 [16][17] 研究的行业意义与影响 - 验证跨形态统一学习的可行性：实验证明，只要实现动作空间统一并配合强预训练，多机器人共享同一套策略是可行的，且通用型性能接近专用型，提升了机器人基础模型路线的现实可行性 [30] - 确立人类数据的关键地位：人类手部视频与动作数据被证明是通用策略的底座，为模型提供了更合理、自然的动作先验，是通用型模型保持稳定能力的关键因素 [30] - 指明可部署稳定性为真正难点：研究指出机器人智能的真正难点在于可部署的长程稳定性，而不仅是离线仿真成功率，必须显式解决动作分布约束与异步控制问题 [31][33] - 提供清晰的通用模型训练范式：研究提供了一个从数据、对齐、生成到部署稳定性的端到端全链路构建范式，更具备可扩展性，接近通用机器人操控智能的发展方向 [33]