Rlinf框架
搜索文档
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?
具身智能之心· 2026-01-04 08:32
文章核心观点 文章通过多位行业专家的圆桌讨论,深入探讨了强化学习在视觉语言动作模型及具身智能领域的最新进展、关键挑战与未来趋势,核心观点认为强化学习是提升VLA泛化能力和实现“最后一公里”性能突破的关键技术,但其有效应用依赖于训练范式的创新、高质量仿真环境的构建以及更高效的“不完美”数据利用方法[3][4][8] RL训练范式的创新与价值 - **SPO算法被Pi0.6引用**:张强及其团队开发的Simple Policy Optimization算法被Pi0.6的强化学习部分用作基准算法,这标志着其工作获得了业界重要认可[3] - **RL的核心价值在于利用“不完美”数据**:Pi0.6提出了一个重要观点,即基座模型预训练的数据质量因领域而异,在自动驾驶和具身智能中,大量采集的数据可能只有约1%到10%是“完美”可用的[4][5],RL的价值函数可以对行为进行评分,从而将大量原本被丢弃的非完美数据利用起来,这对于数据稀缺的具身智能领域至关重要[5][6] - **RL与模仿学习的协同范式**:当前一个逐渐标准化的训练范式是先用模仿学习训练基座模型,再用强化学习进行最后的性能提升,即跑“最后一公里”[3][20],模仿学习能高效地将模型提升到一定水平(如80分),而强化学习则能通过探索跳出局部最优,从长程任务结果上进行优化,两者结合是合理路径[20] RL for VLA的框架与工具发展 - **现有工具无法满足需求**:在探索RL与VLA结合时,发现缺乏能够支撑大规模研究的专用框架,现有框架多为大语言模型推理设计,无法满足VLA+RL在策略类型、仿真与真实世界训练、异构硬件支持等方面的需求[9][10] - **Rlinf框架的诞生与目标**:为填补工具空白,一个由高校和公司组成的约30人团队开发了名为“Rlinf”的专用框架,其设计目标是全面支持VLA+RL,涵盖on/off policy、online/offline、仿真与真实世界RL以及国产异构卡等[10][11],该框架的开发投入巨大,仅算力成本就可能达到千万级别[10][11] - **框架开发强调代码质量与扩展性**:开发团队对代码质量要求极高,为了支持目前已涵盖的近十种主流仿真器,正在进行大规模重构以优化环境接口,确保框架的长期工程可行性[15][17] Sim2Real与3D感知技术的挑战与实践 - **仿真真实性是核心瓶颈**:目前没有仿真引擎能达到与真实世界一模一样的程度,人眼可轻易分辨的“不真实感”构成了sim2real的巨大鸿沟,这直接影响了依赖仿真进行训练的强化学习效果[19][24][28] - **3DGS技术有望缩小视觉鸿沟**:3D Gaussian Splatting作为一种3D重建技术,其生成的结果人眼难以分辨真假,因此被视为连接真实与仿真的有力工具[23][24],它已首次被与RL结合用于操作任务,其显式表征相比神经辐射场更具调控优势[23][24] - **多技术路径探索sim2real**:除了3DGS,行业也在探索其他技术来促进迁移,包括利用文生3D/图生3D技术进行场景生成与重建[21],使用双目传感器作为仿真与真实环境的适配器[22],以及研发具备强大几何表达能力的3D视觉基础模型来提升感知泛化能力[22] 行业不同场景下的RL应用现状 - **局部运动控制已广泛应用RL**:在双足机器人的局部运动控制层面,强化学习相比传统规则方法优势明显,在鲁棒性和最终效果上都更好,且sim2real迁移相对容易[18] - **VLA层面RL应用仍处探索期**:尽管认可RL的潜力,但一些团队在VLA层面尚未大规模部署RL,主要原因包括缺乏效果得到验证的sim2real仿真器,以及当前优先专注于打好视觉动作模型的基础[19][20] - **任务类型影响sim2real难度**:导航类任务不主动改变物理环境,其sim2real的挑战与自动驾驶类似;而操作类任务因需与物理环境交互,其sim2real的鸿沟目前仍然很大[27][28] 未来发展方向与关注点 - **从单任务优化到多任务泛化**:当前RL for VLA的研究多集中于提高单一任务的成功率上限,未来的一个重要方向是探索如何激发VLA模型所掌握的先验知识,实现更泛化的、多任务的强化学习[30] - **具身智能是高度综合的系统工程**:具身智能的发展需要感知、决策、控制等各个模块的技术共同推进,任何一个模块的短板都会导致系统级表现的不足,因此需要计算机视觉、机器人学等多领域贡献最新技术[25]
万字长文,VLA的架构和模型还有什么痛点?
具身智能之心· 2025-12-30 09:11
文章核心观点 本次圆桌讨论聚焦于具身智能领域的视觉-语言-动作模型,与会专家普遍认为当前VLA的总体架构已趋于标准化和模块化,但模型的泛化能力与落地应用之间仍存在显著差距。未来发展的关键驱动力将来自数据、3D表征学习、强化学习与模仿学习的结合,以及感知与控制模块的逐步统一。 VLA的架构与模型现状 - 当前VLA的总体架构已相对收敛,形成了一种标准范式,即以视觉语言模型为基座,嫁接一个动作输出模块 [14][16] - 尽管架构趋同,但核心差异并非架构本身,而在于数据驱动 [14] - 当前从业者的工作多是在此标准框架下进行“小修小补”,例如引入触觉、记忆等新模块 [15] - 从实际表现看,VLA已能学习叠衣服等长程复杂任务,比去年进步明显,但其泛化性能尚不足以支撑落地 [16] VLA当前痛点与挑战 - 模型将VLM的2D图像与文本特征强行映射到3D动作空间,导致泛化性损失 [17] - VLA的硬件和数据可能成为限制,使精细化操作难以实现 [13] - 当前开源的VLA架构同质化严重,但尚不能确定这就是最佳架构,未来可能有更好的架构出现 [18] - VLM基座模型对3D物理世界的理解非常不充分,缺乏精准的空间grounding能力 [49] VLA未来可能的发展方向 - **3D表征学习**:让特征从2D更好地迁移到3D,利用3D预训练模型提升泛化性和性能 [17][43] - **训练范式创新**:结合强化学习与模仿学习 [43][45]。模仿学习效率高,可完成80%到90%的任务,而强化学习能处理失败数据并激发更高智能 [46] - **与世界模型结合**:使模型具备预判和脑补未来的能力,而不仅是基于当前时刻预测动作序列 [50] - **模块化与系统整合**:VLA作为提供先验知识的基座,需要与世界模型、RL等多种技术点在系统中协同安排,共同解决问题 [48][50] 感知与控制的统一路线 - 从长远目标看,感知与控制最终会趋向统一,形成一个“大一统”的端到端模型 [22][27][35] - 但在实现路径上,由于有大量迫切的现实问题需要解决,目前仍需分模块研发,例如导航场景仍需高精度的专用感知模型 [23][27] - 通过先进行模块化的端到端探索,积累各子领域的经验,才能最终迈向统一 [24][27] - 即使在实现大一统模型后,为建立安全互信和提供策略兜底,保留部分模块化输出(如OCC)仍有必要 [36] 自动驾驶经验对具身智能的借鉴 - 自动驾驶被视为具身智能的一个特殊场景,其完整的技术发展脉络(从模块化到端到端)对具身领域有重要参考价值 [34] - 自动驾驶领域将感知与控制结合后,解决了拟人化和处理复杂长尾案例的难题,这同样适用于具身智能 [34] - 具身智能可以直接对标自动驾驶的最新技术,但因其要求完全自动化,对规则和可解释性的需求可能比自动驾驶更严格 [38] 强化学习在新时代的角色 - 大模型的出现为强化学习提供了强大的起点,使其能够利用大规模算力,进入新的发展阶段 [31] - 强化学习作为一种工具,其算法并未收敛,需要针对不同任务(如数字空间推理与物理空间学习)开发不同的高效方法 [30] - 在具身智能产品化或追求AGI的路径上,不能只专注于强化学习,而需要更全面的知识面,整合模仿学习、VLA基座等多种范式 [46]