Workflow
VLA+RL正在不断拉升着具身操作的上限!
具身智能之心·2025-11-11 08:02

文章核心观点 - VLA与RL结合的技术路线正成为提升具身操作性能的关键方向,能有效弥补预训练模型与真实任务之间的差距 [1] - RL训练通过直接优化任务完成度这一终极目标,使模型具备处理意外情况的更强鲁棒性,并学习到更平滑的轨迹及与物理世界精细对齐的能力 [1] - 开源项目RLinf通过标准化接口支持主流VLA模型及CPU/GPU模拟器,并率先实现了对π0和π0.5模型系列的强化学习微调 [2][4] 技术性能评估 - 在LIBERO任务组评估中,π0模型在空间、物体、目标和长任务上的成功率分别为96.8%、98.8%、95.8%和85.2%,平均成功率达94.2% [5] - π0.5模型表现更优,在上述四项任务上的成功率分别为98.8%、98.2%、98.0%和92.4%,平均成功率达96.9% [5] - 采用Few-shot数据集SFT结合RL方法后,Flow-SDE π0.5模型在物体任务上达到100%成功率,整体平均成功率提升20.8个百分点至97.9% [5] - Flow-Noise π0.5模型在物体任务上同样达到100%成功率,整体平均成功率提升21.2个百分点至98.3% [5] 社区资源与生态 - 具身智能之心知识星球已汇聚近2000名成员,涵盖国内外知名高校实验室及机器人头部公司 [14] - 社区汇总了40多个开源项目、60多个具身智能相关数据集及行业主流仿真平台 [15] - 技术学习路线覆盖感知、交互、强化学习、VLA、VLN、多模态大模型等20多个专业方向 [15][16] - 社区提供产业研报、零部件品牌、开源数据、仿真平台等全方位资源汇总 [23][28][30][38] 技术发展前沿 - 社区内容涵盖数据采集、灵巧手、VLA模型、多传感器融合、分层感知操作等14个技术模块 [8] - 具体技术方向包括RoboDexVLM分层架构、BridgeVLA真机性能提升32%、具身4D世界模型EnerVerse等创新成果 [8] - 强化学习与VLA结合领域汇总了基于LLM的强化学习、可解释强化学习等主流方案 [40][58] - 多模态大模型方向涵盖理解与生成两大类应用,包括Image/Video/Audio/3D等多种模态组合 [51][53]