让机器人“舞得更好”的全身运控的方案还有哪些进化空间？

文章核心观点文章通过多位行业专家的圆桌讨论，深入探讨了强化学习在视觉语言动作模型及具身智能领域的最新进展、关键挑战与未来趋势，核心观点认为强化学习是提升VLA泛化能力和实现“最后一公里”性能突破的关键技术，但其有效应用依赖于训练范式的创新、高质量仿真环境的构建以及更高效的“不完美”数据利用方法[3][4][8] RL训练范式的创新与价值 - SPO算法被Pi0.6引用：张强及其团队开发的Simple Policy Optimization算法被Pi0.6的强化学习部分用作基准算法，这标志着其工作获得了业界重要认可[3] - RL的核心价值在于利用“不完美”数据：Pi0.6提出了一个重要观点，即基座模型预训练的数据质量因领域而异，在自动驾驶和具身智能中，大量采集的数据可能只有约1%到10%是“完美”可用的[4][5]，RL的价值函数可以对行为进行评分，从而将大量原本被丢弃的非完美数据利用起来，这对于数据稀缺的具身智能领域至关重要[5][6] - RL与模仿学习的协同范式：当前一个逐渐标准化的训练范式是先用模仿学习训练基座模型，再用强化学习进行最后的性能提升，即跑“最后一公里”[3][20]，模仿学习能高效地将模型提升到一定水平（如80分），而强化学习则能通过探索跳出局部最优，从长程任务结果上进行优化，两者结合是合理路径[20] RL for VLA的框架与工具发展 - 现有工具无法满足需求：在探索RL与VLA结合时，发现缺乏能够支撑大规模研究的专用框架，现有框架多为大语言模型推理设计，无法满足VLA+RL在策略类型、仿真与真实世界训练、异构硬件支持等方面的需求[9][10] - Rlinf框架的诞生与目标：为填补工具空白，一个由高校和公司组成的约30人团队开发了名为“Rlinf”的专用框架，其设计目标是全面支持VLA+RL，涵盖on/off policy、online/offline、仿真与真实世界RL以及国产异构卡等[10][11]，该框架的开发投入巨大，仅算力成本就可能达到千万级别[10][11] - 框架开发强调代码质量与扩展性：开发团队对代码质量要求极高，为了支持目前已涵盖的近十种主流仿真器，正在进行大规模重构以优化环境接口，确保框架的长期工程可行性[15][17] Sim2Real与3D感知技术的挑战与实践 - 仿真真实性是核心瓶颈：目前没有仿真引擎能达到与真实世界一模一样的程度，人眼可轻易分辨的“不真实感”构成了sim2real的巨大鸿沟，这直接影响了依赖仿真进行训练的强化学习效果[19][24][28] - 3DGS技术有望缩小视觉鸿沟：3D Gaussian Splatting作为一种3D重建技术，其生成的结果人眼难以分辨真假，因此被视为连接真实与仿真的有力工具[23][24]，它已首次被与RL结合用于操作任务，其显式表征相比神经辐射场更具调控优势[23][24] - 多技术路径探索sim2real：除了3DGS，行业也在探索其他技术来促进迁移，包括利用文生3D/图生3D技术进行场景生成与重建[21]，使用双目传感器作为仿真与真实环境的适配器[22]，以及研发具备强大几何表达能力的3D视觉基础模型来提升感知泛化能力[22] 行业不同场景下的RL应用现状 - 局部运动控制已广泛应用RL：在双足机器人的局部运动控制层面，强化学习相比传统规则方法优势明显，在鲁棒性和最终效果上都更好，且sim2real迁移相对容易[18] - VLA层面RL应用仍处探索期：尽管认可RL的潜力，但一些团队在VLA层面尚未大规模部署RL，主要原因包括缺乏效果得到验证的sim2real仿真器，以及当前优先专注于打好视觉动作模型的基础[19][20] - 任务类型影响sim2real难度：导航类任务不主动改变物理环境，其sim2real的挑战与自动驾驶类似；而操作类任务因需与物理环境交互，其sim2real的鸿沟目前仍然很大[27][28] 未来发展方向与关注点 - 从单任务优化到多任务泛化：当前RL for VLA的研究多集中于提高单一任务的成功率上限，未来的一个重要方向是探索如何激发VLA模型所掌握的先验知识，实现更泛化的、多任务的强化学习[30] - 具身智能是高度综合的系统工程：具身智能的发展需要感知、决策、控制等各个模块的技术共同推进，任何一个模块的短板都会导致系统级表现的不足，因此需要计算机视觉、机器人学等多领域贡献最新技术[25]