文章核心观点 - 提出一种名为Spatial Forcing (SF)的新方法 该方法无需依赖显式的3D传感器输入 而是通过隐式空间对齐策略 使视觉-语言-动作模型在训练过程中自发形成空间感知能力 从而显著提升机器人在真实物理世界中的操作性能 [2][10][16] 技术背景与现有范式局限 - 当前主流的视觉-语言-动作模型大多仅依赖2D视觉数据 缺乏对真实3D空间的深层理解 难以应对复杂的物理世界操控任务 [2] - 现有3D VLA模型尝试通过深度相机或激光雷达引入显式3D信息 但面临传感器数据质量低 不同机器人传感器类型和安装方式差异大 以及无法利用现有纯2D大规模机器人数据集等限制 [2][8] - 另一种方法是使用深度估计网络从2D图像中估计3D信息 但效果受限于离线深度估计器的性能 导致训练结果非最优 [9] Spatial Forcing方法论 - 方法核心是通过将VLA骨干网络的中间层视觉特征 对齐到外部3D基础模型生成的强大3D几何表征 使模型隐式获得空间理解能力 [10][16] - 具体流程包括:使用预训练的3D基础模型提取像素级空间表征 取出VLA模型的视觉token并通过MLP投影 计算与3D表征的余弦相似度作为空间对齐损失 并与动作生成损失共同优化模型 [16] - 实验发现 在VLA骨干网络中较深但非最深的注意力层施加空间对齐监督 能最有效地提升模型动作表现 [16] - 在推理阶段 该方法不会带来额外的结构或计算开销 模型运行方式与普通VLA完全一致 具备高实用性与可扩展性 [16] 实验验证与性能提升 - 深度探测实验表明 在纯2D图像数据上预训练的传统VLA模型 其视觉特征无法生成有意义的深度结构 缺乏准确的空间感知 [11][13] - 在LIBERO仿真环境中 该方法超越了主流2D和3D VLA模型 平均任务成功率达到了98.5% 优于GeoVLA的97.7%和3D-CAVLA的98.1% [18] - 在真实机器人环境的双臂和单臂操作任务中 该方法显著提高了任务成功率 [14][18] - 该方法展现出卓越的训练效率和数据利用效率 训练效率提升高达3.8倍 数据利用效率提升高达5.9倍 [14] 技术优势总结 - 该方法的核心优势在于让机器人无需看3D也能懂3D 解决了显式3D方法对特定传感器的依赖问题 并能够充分利用现有的大规模2D机器人数据集 [2][10]
港科广&清华联合提出Spatial Forcing:隐式空间对齐,超越主流2D/3D VLA模型性能
具身智能之心·2025-10-19 00:03