Workflow
中科院&字节提出BridgeVLA!斩获CVPR 2025 workshop冠军~
自动驾驶之心·2025-06-28 21:34

3D VLA操作新范式 - BridgeVLA通过将预训练和微调的输入输出对齐到统一的2D空间,实现了VLM与VLA的桥接,仅需输入图片和文字指令即可完成操作 [4][5] - 模型输出从Next token prediction变更为Heatmap prediction,利用3D空间结构先验并将输入输出在2D空间中对齐 [5] - 在RLBench基准测试中平均成功率从81.4%提升至88.2%,在18个任务中的10个取得最佳表现,高精度对齐任务表现突出 [14] 预训练与微调方法 - 预训练阶段采用新颖的可扩展方法,通过图片-目标文本对输入,输出重新排列的图像token并还原为Heatmap,交叉熵损失监督训练 [8] - 微调阶段将点云从正面、上面、右侧正交投影为3张2D图像输入模型,输出Heatmap反投影估计3D空间网格点分数,得分最高点作为平移目标 [11][12] - 采用由粗到细的多级预测方式,首次Heatmap预测后对目标位置附近点云放大裁剪进行二次前向传播,获得更精细位置预测 [12] 基准测试表现 - COLOSSEUM基准测试中平均成功率从56.7%提升至64.0%,在14种评估扰动中的13种表现最佳 [15] - GemBench基准测试中在L1-L4四个层次取得最高平均成功率50.0%,L2和L3设置中达到最先进水平 [17] - 真实机器人实验中在13个基本任务和6种泛化性能测试中,七种设置中的六种优于基线方法RVT-2,视觉干扰设置中表现显著鲁棒 [19] 未来发展方向 - 从Next Token Prediction到Heatmap Prediction的技术范式转变,提供更高数据效率和更好操作效果 [21] - 未来研究可尝试在语义分割和关键点检测等更多样化任务上进行预训练,增强通用视觉理解能力 [21] - 计划整合扩散模型等更具表达能力的动作解码方法,并探索利用LLM进行任务分解以改善长周期任务表现 [21]