核心观点 - 中科院自动化所提出的BridgeVLA模型通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习 [4] - BridgeVLA在仿真和真实场景中均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率 [4][6] - 该模型在多种泛化性设置中展现出碾压式性能,相较于基线模型取得32%的性能提升 [6] 技术背景 - 现有VLA模型大多只以2D信息作为输入且需要大量数据进行微调,而3D操作策略如PerAct、RVT-2仅需10条轨迹就能取得不错效果 [6] - 2D VLA架构如OpenVLA、pi0借助预训练多模态大模型展现出强泛化能力,但需要上百条专家演示 [9] - 3D操作策略凭借显式空间结构信息具有很高数据效率,但现有3D VLA模型未能实现预期效果 [9] 模型设计 - BridgeVLA通过将3D输入与动作输出统一到2D空间,同时继承2D VLA泛化能力与3D操作策略数据效率 [12] - 训练流程分为2D热度图预训练和3D动作微调两个阶段 [15] - 使用SigLIP视觉编码器和Gemma Transformer构成的PaliGemma作为VLM主干 [15] - 微调阶段通过三视角图像进行动作预测,结合深度图和相机参数反投影得到末端执行器位置估计 [17] 性能表现 - 在RLBench中成功率达88.2%,较基准模型提升6.8% [20] - 在COLOSSEUM环境中较之前SoTA方法提升7.3% [20] - 在GemBench环境中面对全新位置、全新物体考验取得50%成功率 [20] - 真机实验中仅用3条轨迹就达到96.8%基础任务成功率 [25] 行业影响 - BridgeVLA建立起高性能且高数据效率的3D VLA新范式 [26] - 该技术路线有望推动VLA模型持续演进 [27] - 模型对数据要求极低,非常适合在真实机器人系统中部署与扩展 [25]
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心·2025-06-26 22:19