研究背景与核心问题 - 在具身智能领域,从人类演示中学习机器人操作是主流范式,但人类手部与不同形态机器人手(如2指、3指、5指)之间的形态差异鸿沟,成为技术落地的核心障碍 [3] - UniBYD的核心目标是构建一种学习范式,突破单纯的人类动作模仿,让机器人自主发现与自身物理特性匹配的操作策略,实现跨形态机器人手的高效泛化 [3] 核心创新:UniBYD框架设计 - UniBYD是一套统一的强化学习框架,通过统一形态表示、动态强化学习机制、精细模仿引导三大核心组件,实现从模仿到探索的平滑过渡,最终学到适配机器人形态的操作策略 [5] 统一形态表示(UMR):跨形态建模的基础 - 为解决不同机器人手形态(自由度、手指数量、刚体数量)的建模差异,UMR将动态状态与静态属性统一为固定维度表示 [7] - 动态状态处理中,手腕状态固定为13维(位置、姿态、速度);关节状态(角度、速度)通过零填充至最大自由度,并对关节角度进行三角函数编码以避免环绕问题 [8] - 静态属性补充从URDF模型提取手指数量、自由度、刚体数量,构成静态描述符 [11] - 最终观测向量是手腕状态、填充后关节状态与静态描述符的拼接,使政策网络能处理任意形态的机器人手 [11] 动态PPO:从模仿到探索的渐进式学习 - 基于动作重定向的方法仅映射运动学姿态,忽略动态信息 [10] - 传统模仿学习局限于复制人类动作,因手指数量、自由度等物理差异,任务性能远低于人类水平 [10] - 现有强化学习方法存在两难:要么依赖人类轨迹导致策略无法适配机器人自身形态,要么完全脱离人类先验陷入局部最优 [10] - 缺乏统一框架,多数方法仅针对特定机器人手设计,无法泛化到多样化形态 [10] - 基于UMR提供的统一观测空间,动态PPO通过奖励退火机制和损失协同平衡,实现从模仿人类到自主探索的平滑过渡 [12] - 奖励退火机制设计了两类核心奖励,并通过权重动态变化引导学习阶段过渡 [13] - 模仿奖励是稠密奖励,量化当前状态与人类演示状态的相似度,涵盖手腕姿态、指尖位置、关节运动、物体状态等多维度差异,同时加入动作能耗惩罚 [13] - 目标奖励是稀疏奖励,仅当任务成功完成时给予固定奖励,引导策略关注任务目标而非单纯模仿 [14] - 总奖励为两类奖励的加权和,权重随训练进程、模仿质量和成功率动态变化 [15] - 权重变化分为三阶段:早期模仿阶段完全依赖模仿奖励;混合阶段模仿权重随成功率衰减,逐步转向目标奖励;探索阶段策略完全以任务成功为导向自主探索 [20] - 损失协同平衡在PPO目标中加入熵正则化和边界损失,以保证探索有效性与物理可行性 [16] - 熵正则化鼓励策略探索,系数随训练线性衰减,早期探索充分,后期逐步收敛 [16] - 边界损失通过可微软边界惩罚,避免动作均值超出物理范围,解决硬裁剪破坏梯度的问题 [17] - 最终PPO目标函数整合了裁剪损失、价值函数损失、熵正则化和边界损失 [18] - 熵正则化与边界损失形成协同,前者促进探索,后者约束探索在物理可行范围内 [19] 混合马尔可夫影子引擎:早期模仿的精细引导 - 早期训练中,政策网络较弱,微小动作偏差会累积导致任务失败,影子引擎通过动作混合和对象辅助控制解决这一问题 [20] - 灵巧手控制中,执行动作是政策动作与人类专家动作的加权混合,权重随训练epoch线性调整 [22] - 早期完全依赖专家动作,政策学习单步操作,避免误差累积;中期逐步增加政策动作权重,让政策在专家引导下学习状态转移逻辑;后期完全依赖政策动作,过渡到纯马尔可夫决策过程 [26] - 对象控制通过PD控制器对操作对象施加动态支撑力,约束对象沿专家轨迹运动,避免掉落或大幅偏离,支撑力增益随训练同步衰减 [23] 实验验证与性能评估 - 为全面验证框架性能,设计了UniManip基准和多维度实验,涵盖模拟与真实世界场景 [24] - UniManip基准是首个跨形态机器人操作基准,任务覆盖29类单/双手操作任务,适配2指、3指、5指机器人手 [25][27] - 评价指标包括成功率、位置误差、姿态误差和适配分数 [27] - 在模拟实验中,UniBYD是唯一在所有手形态(2指、3指、5指单/双手)上均实现高成功率的框架 [28] - 整体成功率比ManipTrans方法高67.9%,5指单任务成功率从29.75%提升至87.47%,5指双手任务达到78.07%(其他方法均失败) [28] - 操作精度方面,位置误差和姿态误差分别降低81.65%和58.77%,适配分数达到8.83,远超ManipTrans的6.69 [28] - 可视化结果显示,ManipTrans机械复制人类三指抓握马克杯的动作,因机器人手指过宽导致滑落;而UniBYD适配机器人形态,采用两指穿柄加小指支撑的策略,成功完成任务 [28] - 消融实验通过逐步添加核心组件(影子引擎SE、目标奖励GR、损失协同平衡LSC),验证各模块贡献 [29] - 基础模型(仅模仿奖励)成功率较低,无法适配形态;添加影子引擎后成功率提升10.33%,解决了早期训练稳定性问题;再添加目标奖励后成功率再提升20.14%,适配分数达7.80;添加所有组件后性能最优,避免过早收敛,发现更优策略 [30] - 训练过程可视化显示,基础模型快速陷入局部最优,而UniBYD通过组件协同,后期成功率持续上升并稳定在高值 [30] - 策略进化过程显示,训练从单纯模仿逐步过渡到适配机器人形态的自主探索,最终形成高效操作策略 [30][32] - 在真实世界迁移实验中,在X-Arm 2指、Casia Hand-G 3指、OHandT M 5指机器人上验证,任务成功率分别达到52%(26/50)、64%(32/50)、70%(35/50) [34] - 可视化结果显示,UniBYD针对不同手形态调整策略:2指斜向夹紧烧杯,3指环绕包裹烧杯,充分适配硬件特性 [34] 核心结论与意义 - UniBYD实现了范式突破,跳出“复制人类动作”的局限,提出“形态适配策略”学习范式,通过动态强化学习实现从模仿到探索的平滑过渡 [39] - 框架具备强大的泛化能力,UMR统一了不同形态机器人手的表示,使框架能直接适配2指、3指、5指单/双手,解决了跨形态泛化的核心难题 [39] - 框架在性能和实用性上表现突出,在UniManip基准上大幅超越现有最佳方法,且成功迁移至真实世界机器人,为多样化机器人操作任务提供了通用解决方案 [39] - UniManip基准作为首个跨形态操作基准,填补了现有评估体系的空白,为该领域研究提供了统一的对比标准 [39]
UniBYD:超越人类示教模仿的跨实体机器人操作学习统一框架
具身智能之心·2025-12-16 08:02