视觉VLA看不到的“那堵墙”，被发现了......

行业背景与核心痛点 - 具身智能行业正从概念阶段转向追求实际生产力但机器人在真实物理世界的3D空间感知存在显著缺陷[3] - 纯视觉方案依赖RGB图像的纹理和色彩信息在透明、反光、极端光照等日常场景中会遭遇“感知失明” 导致空间感知失效[2][3] - 透明物体（如玻璃、亚克力）因无自身固定纹理其表面信息完全依赖环境反射与折射使纯视觉方案难以定位和抓取如同面对“视觉幽灵”[5][6] - 反光表面（如金属器皿、镜子）和极端光照（强光直射、暗光环境）会摧毁纯视觉依赖的纹理特征使其无法有效感知[7][8] - RGB-D相机提供了深度信息是目前理想的3D感知模态但在透明、反光、低纹理表面及极端光照下其基于双目立体匹配的深度计算会失效导致深度图出现大量“黑洞”和数据缺失[9][13][14] - 硬件层面存在物理局限：深度缺失、测量噪声以及高端传感器成本高昂这些无法解决的感知缺陷需要依靠算法来弥补[14][16] 解决方案：LingBot-Depth模型 - 蚂蚁集团旗下灵波科技开源了高精度空间感知模型LingBot-Depth 旨在不更换硬件的前提下提升复杂场景的深度输出质量为机器人提供看清三维空间的“眼睛”[17][20] - 模型核心创新是提出了“掩码深度建模”范式以及一套可扩展的真实深度数据采集范式[20] - 该方法不将深度相机的缺失数据视为噪声而是作为反映场景几何模糊性的“自然掩码” 通过RGB与深度的跨模态联合学习让模型学会用视觉上下文补全空间信息[23] - 模型基于encoder-decoder框架将学习目标从外观重建转向深度图预测通过使用海量RGB-深度图像对并刻意遮挡部分深度区域进行训练使模型学会建立“外观-几何”对应关系[32] - 模型通过ViT学习RGB外观与深度几何的联合表征既能补全缺失深度又能提升单目深度估计和立体匹配精度本质是为RGB-D相机加装“视觉增强模块”[36] 数据规模与构建 - LingBot-Depth提供了千万量级的大规模RGB-D预训练数据并设计了合成数据与真实数据收集流程[25][26] - 合成数据LingBot Depth-S：通过模拟真实世界主动式RGB-D相机的成像过程生成带有自然缺陷的逼真深度观测值从442个室内场景中渲染了100万个合成样本[29] - 真实数据LingBot Depth-R：通过可扩展的RGB-D相机采集系统收集了200万个场景多样性丰富的真实数据[29] - 结合自制的320万数据及开源数据集补充模型训练使用的总样本量达到1000万个[30] - 该数据流程为学术界和工业界提供了从数据制作、模型训练到下游应用的完整闭环范式[30] 技术性能与优势 - 在深度补全任务上在iBims、NYUv2等数据集中超越OMNI-DC、PromptDA等主流方案在极端条件下RMSE降低40%以上能精准还原透明与反光表面的深度轮廓[37] - 在单目深度估计任务上仅用RGB图像就能输出高精度深度图在10个不同场景的数据集中性能全面超越基于DINOv2预训练的基座模型[39] - 在立体匹配增强任务上作为FoundationStereo的深度先验能让立体匹配模型收敛速度提升3倍最终EPE降低20% 在HAMMER、Booster等难点数据集表现最优[40] - 在极端环境下表现出强鲁棒性：能有效处理透明、强光、暗光及低纹理场景例如在DIODE户外数据集中RMSE为3.811 远低于同类方案的6.239[43][48] - 在具身抓取应用中对于原始深度传感器完全失效的透明储物盒基于LingBot-Depth优化深度训练的模型实现了50%的抓取成功率[45][47] - 模型处理视频时能保持深度时空平滑性无抖动远超ZED等高端立体相机[48] - 模型能力不限于抓取在相机位姿和4D点跟踪等高层空间感知任务上也能提升稳定性与精度[49] 落地应用与兼容性 - 模型支持Intel RealSense、Orbbec Gemini、ZED等主流消费级RGB-D相机无需改装硬件即可直接接入提升性能[51] - 具备轻量化部署能力：采用BF16混合精度训练推理时无需复杂后处理可满足30 FPS的实时性需求能直接嵌入现有具身VLA模块[51] - 该方案通过算法弥补硬件局限以更普世的方法让整个领域享受技术红利验证了深度优化对提升具身操作能力的有效性[52][53]