3D VLA - 财报，业绩电话会，研报，新闻

3D VLA

搜索文档

中科院&字节提出BridgeVLA！斩获CVPR 2025 workshop冠军~

自动驾驶之心· 2025-06-28 21:34

3D VLA操作新范式 - BridgeVLA通过将预训练和微调的输入输出对齐到统一的2D空间，实现了VLM与VLA的桥接，仅需输入图片和文字指令即可完成操作 [4][5] - 模型输出从Next token prediction变更为Heatmap prediction，利用3D空间结构先验并将输入输出在2D空间中对齐 [5] - 在RLBench基准测试中平均成功率从81.4%提升至88.2%，在18个任务中的10个取得最佳表现，高精度对齐任务表现突出 [14] 预训练与微调方法 - 预训练阶段采用新颖的可扩展方法，通过图片-目标文本对输入，输出重新排列的图像token并还原为Heatmap，交叉熵损失监督训练 [8] - 微调阶段将点云从正面、上面、右侧正交投影为3张2D图像输入模型，输出Heatmap反投影估计3D空间网格点分数，得分最高点作为平移目标 [11][12] - 采用由粗到细的多级预测方式，首次Heatmap预测后对目标位置附近点云放大裁剪进行二次前向传播，获得更精细位置预测 [12] 基准测试表现 - COLOSSEUM基准测试中平均成功率从56.7%提升至64.0%，在14种评估扰动中的13种表现最佳 [15] - GemBench基准测试中在L1-L4四个层次取得最高平均成功率50.0%，L2和L3设置中达到最先进水平 [17] - 真实机器人实验中在13个基本任务和6种泛化性能测试中，七种设置中的六种优于基线方法RVT-2，视觉干扰设置中表现显著鲁棒 [19] 未来发展方向 - 从Next Token Prediction到Heatmap Prediction的技术范式转变，提供更高数据效率和更好操作效果 [21] - 未来研究可尝试在语义分割和关键点检测等更多样化任务上进行预训练，增强通用视觉理解能力 [21] - 计划整合扩散模型等更具表达能力的动作解码方法，并探索利用LLM进行任务分解以改善长周期任务表现 [21]

3D VLA

Vision-Language Models

Artificial Intelligence

BridgeVLA

3D VLA

Vision-Language Models

Artificial Intelligence

BridgeVLA

3D VLA新范式！中科院&字节Seed提出BridgeVLA，斩获CVPR 2025 workshop冠军！

机器之心· 2025-06-24 09:46

3D VLA操作新范式BridgeVLA - 核心观点：BridgeVLA通过将输入输出对齐到2D空间的全新范式，实现了3D视觉语言操作模型在数据效率和操作效果上的同步突破，在多项基准测试中刷新记录[1][4][6] - 技术原理：采用2D Heatmap预测替代传统Next Token Prediction，通过正交投影将3D点云转化为2D图像输入，实现VLM与VLA的输入输出对齐[6][7][11] - 预训练方法：创新性地通过图片-目标文本对预训练，使用可学习凸上采样方法生成与输入同尺寸的Heatmap，赋予模型目标检测能力[8][10] - 动作预测机制：采用由粗到细的多级预测方式，首次Heatmap定位后对目标区域点云放大裁剪进行二次精细预测[12] 性能表现 - RLBench基准：在18个复杂任务中平均成功率从81.4%提升至88.2%，在10个任务中表现最佳，高精度插入任务（如Insert Peg）成功率高达88%[14] - COLOSSEUM基准：在12种扰动测试下平均成功率从56.7%提升至64.0%，14种评估扰动中13种表现最优，光照变化场景成功率提升至69.7%[15] - GemBench基准：在L1-L4四级挑战中平均成功率50%领先，L2刚性物体操作达到65%成功率，但L4长周期任务仍有局限[16][17] - 真实机器人测试：13个基础任务中6种泛化测试表现优异，干扰物和背景变换场景保持超高成功率[19][20] 技术优势与未来方向 - 效率突破：仅需3条操作轨迹即可达到96.8%成功率，显著优于传统3D操作策略需要的≈10条轨迹[2][4] - 泛化能力：在视觉干扰、任务组合等复杂场景展现强大适应性[1][20] - 未来优化：计划扩展语义分割等预训练任务，整合扩散模型提升动作解码能力，结合LLM改善长周期任务表现[22]