残差强化学习
搜索文档
NeurIPS 2025 Spotlight | 只需一条演示,DexFlyWheel框架让机器人学会「自我造数据」
机器之心· 2025-10-09 12:43
研究背景与问题 - 机器人灵巧操作领域长期面临数据稀缺的核心瓶颈,现有方法在成本、生成效率和数据多样性方面存在明显局限[2][3] - 传统二指夹爪生成方案无法推广至灵巧手,启发式规划难以应对高维动作优化,LLM无法生成精细五指控制轨迹[7] - 基于遥操作的人工示教成本高且可扩展性低,纯强化学习存在动作不自然、探索效率低的问题,现有数据集多局限于抓取任务且多样性有限[8][9] 技术框架与核心创新 - 提出自我增强的灵巧操作数据生成框架DexFlyWheel,仅需单条演示即可启动任务,自动生成多样化数据[3][12] - 采用模仿学习与残差强化学习组合策略:模仿学习保证轨迹自然性,残差强化学习进行精细微调以适应新场景[14] - 构建数据与模型的闭环飞轮,通过基础策略训练、残差策略训练、轨迹生成和数据增强四个步骤实现自我提升循环[17][22][23] 实验性能与成果 - 数据规模从1条演示扩展至500条生成轨迹,场景数量提升214倍,物体种类从1个扩展到平均20个[25][27] - 在包含物体、环境和空间布局三重变化的测试集上,策略成功率从初始16.5%提升至81.9%,显著优于基线方法[28][32][34] - 数据生成成功率达到89.8%,生成500条轨迹仅需2.4小时,相比人类演示和基线方法分别加快1.83倍和5.21倍[31][34] 实际应用验证 - 通过数字孪生技术将训练策略部署至真实双灵巧手机器人系统,在"双手提起"与"双手交接"任务中分别取得78.3%与63.3%的成功率[37] - 生成的数据具有高质量多样性,能帮助灵巧策略适应不同形状物体并完成高难度任务,动作表现更加类人[35][36] 行业意义与未来方向 - 该框架为灵巧手领域提供了自我提升的数据生成范式,通过数据与系统迭代让数据自主"长大",降低收集成本并提升多样性[39] - 未来工作将聚焦于奖励自动化设计和触觉模态结合,以突破高精度任务难度上限,推动灵巧手走向现实应用[40]