3D VLA新范式！中科院&字节Seed提出BridgeVLA，斩获CVPR 2025 workshop冠军！

3D VLA操作新范式BridgeVLA - 核心观点：BridgeVLA通过将输入输出对齐到2D空间的全新范式，实现了3D视觉语言操作模型在数据效率和操作效果上的同步突破，在多项基准测试中刷新记录[1][4][6] - 技术原理：采用2D Heatmap预测替代传统Next Token Prediction，通过正交投影将3D点云转化为2D图像输入，实现VLM与VLA的输入输出对齐[6][7][11] - 预训练方法：创新性地通过图片-目标文本对预训练，使用可学习凸上采样方法生成与输入同尺寸的Heatmap，赋予模型目标检测能力[8][10] - 动作预测机制：采用由粗到细的多级预测方式，首次Heatmap定位后对目标区域点云放大裁剪进行二次精细预测[12] 性能表现 - RLBench基准：在18个复杂任务中平均成功率从81.4%提升至88.2%，在10个任务中表现最佳，高精度插入任务（如Insert Peg）成功率高达88%[14] - COLOSSEUM基准：在12种扰动测试下平均成功率从56.7%提升至64.0%，14种评估扰动中13种表现最优，光照变化场景成功率提升至69.7%[15] - GemBench基准：在L1-L4四级挑战中平均成功率50%领先，L2刚性物体操作达到65%成功率，但L4长周期任务仍有局限[16][17] - 真实机器人测试：13个基础任务中6种泛化测试表现优异，干扰物和背景变换场景保持超高成功率[19][20] 技术优势与未来方向 - 效率突破：仅需3条操作轨迹即可达到96.8%成功率，显著优于传统3D操作策略需要的≈10条轨迹[2][4] - 泛化能力：在视觉干扰、任务组合等复杂场景展现强大适应性[1][20] - 未来优化：计划扩展语义分割等预训练任务，整合扩散模型提升动作解码能力，结合LLM改善长周期任务表现[22]