通用机器人策略
搜索文档
卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地
雷峰网· 2026-02-02 18:21
文章核心观点 - 机器人行业正从追求单次演示成功转向追求通用策略在真实世界中的长期稳定部署,其核心挑战在于克服形态割裂、数据稀缺和部署系统不稳定三大门槛 [2][3] - 智在无界团队提出的Being-H0.5模型,通过以人类为中心的大规模数据建立跨形态动作先验、统一状态-动作空间、增强动作生成能力并结合稳定部署机制,系统性地验证了通用机器人策略在多形态平台上稳定工作的可行性 [3][4] - 实验结果表明,通用型模型性能已接近专用型模型,尤其在长程和双臂任务上提升显著,并且通过引入MPG和UAC等部署机制,有效解决了真实部署中的动作抖动和时序不同步问题,推动了研究向产品落地的进程 [9][16][18] 通用模型性能表现 - **真实机器人实验结果**:专用型模型整体表现最佳,但通用型模型性能仅略低,两者在共享技能强、动作模式类似的任务上表现非常接近 [8][9] - **关键任务类别提升**:相比基线模型π0.5,Being-H0.5在长程任务和双臂任务中提升幅度最大,这两类任务最能检验策略的可部署稳定性 [9] - **特定任务优势**:在清桌子等需要反复使用通用子技能的任务中,通用型模型可能接近甚至超过专用型模型,因其在更多任务中学习过类似动作结构,表现更稳定 [10] - **仿真基准结果**:在LIBERO基准测试中,Being-H0.5平均成功率高达98.9%,在更困难的长程子集LIBERO-Long上也达到97.4% [13] - **复杂场景验证**:在更接近真实家庭场景的RoboCasa厨房任务基准上,Being-H0.5整体领先多个基线方法,取得了53.9%的成功率 [15] 核心技术方法 - **数据体系构建**:构建了UniHand-2.0数据集,总规模超过35,000小时,包含1200亿tokens与4亿samples,融合了人类第一视角手部操作数据16K小时、覆盖30种机器人形态的机器人操控数据14K小时,以及约5K等效小时的视觉语言理解数据 [13][23] - **跨形态动作对齐**:引入统一的状态-动作空间,将不同机器人形态的状态与动作映射到统一空间,使模型学习通用操控语义而非特定硬件关节角度,解决了形态割裂问题 [24] - **模型训练架构**:采用理解专家与动作专家组合的架构,并通过混合流提升动作生成表达能力,使模型同时具备任务理解与连续动作输出能力 [26] - **稳定部署机制**:引入了MPG机制以抑制不合理动作输出,以及UAC机制以解决感知与控制频率不同步问题,消融实验表明这两者对长程和双臂任务的可靠执行至关重要 [16][17] 研究的行业意义与影响 - **验证跨形态统一学习的可行性**:实验证明,只要实现动作空间统一并配合强预训练,多机器人共享同一套策略是可行的,且通用型性能接近专用型,提升了机器人基础模型路线的现实可行性 [30] - **确立人类数据的关键地位**:人类手部视频与动作数据被证明是通用策略的底座,为模型提供了更合理、自然的动作先验,是通用型模型保持稳定能力的关键因素 [30] - **指明可部署稳定性为真正难点**:研究指出机器人智能的真正难点在于可部署的长程稳定性,而不仅是离线仿真成功率,必须显式解决动作分布约束与异步控制问题 [31][33] - **提供清晰的通用模型训练范式**:研究提供了一个从数据、对齐、生成到部署稳定性的端到端全链路构建范式,更具备可扩展性,接近通用机器人操控智能的发展方向 [33]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 15:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]
探究下VLA模型泛化差的原因......
具身智能之心· 2025-08-20 08:03
研究背景与核心问题 - 大规模数据集(如Open X-Embodiment/OXE)训练的通用机器人策略在分布范围内表现良好,但泛化能力受限 [2] - 泛化受限的根本原因是捷径学习,即模型过度依赖与任务无关的特征 [2] - 捷径学习由两个关键因素导致:单个子数据集内部多样性有限,以及子数据集间存在显著分布差异(数据集碎片化) [2] 数据集结构分析 - OXE等大规模数据集由多个独立收集的子数据集构成,这些子数据集来自不同环境和机器人形态 [2] - 这种固有结构导致数据集内部多样性不足和碎片化问题 [2] 解决方案与实证发现 - 通过精心选择的数据增强策略可有效减少现有离线数据集中的捷径学习 [2] - 数据增强方法能提升通用机器人策略在仿真和真实环境中的泛化能力 [2] - 研究结果为改进机器人数据集收集策略提供了重要见解 [2] 研究应用与延伸 - 研究成果适用于视觉语言动作模型(VLA),当前VLA的泛化能力十分有限 [5] - 针对OXE数据集的深入分析为数据收集提供了指导方针 [5] - 研究涉及真实场景下的机器人导航和运动控制(real2sim2real)以及真机性能提升(如32%的性能提升)等应用方向 [7]