行业背景与核心痛点 - 具身智能行业正从概念阶段转向追求实际生产力 但机器人在真实物理世界的3D空间感知存在显著缺陷[3] - 纯视觉方案依赖RGB图像的纹理和色彩信息 在透明、反光、极端光照等日常场景中会遭遇“感知失明” 导致空间感知失效[2][3] - 透明物体(如玻璃、亚克力)因无自身固定纹理 其表面信息完全依赖环境反射与折射 使纯视觉方案难以定位和抓取 如同面对“视觉幽灵”[5][6] - 反光表面(如金属器皿、镜子)和极端光照(强光直射、暗光环境)会摧毁纯视觉依赖的纹理特征 使其无法有效感知[7][8] - RGB-D相机提供了深度信息 是目前理想的3D感知模态 但在透明、反光、低纹理表面及极端光照下 其基于双目立体匹配的深度计算会失效 导致深度图出现大量“黑洞”和数据缺失[9][13][14] - 硬件层面存在物理局限:深度缺失、测量噪声以及高端传感器成本高昂 这些无法解决的感知缺陷需要依靠算法来弥补[14][16] 解决方案:LingBot-Depth模型 - 蚂蚁集团旗下灵波科技开源了高精度空间感知模型LingBot-Depth 旨在不更换硬件的前提下提升复杂场景的深度输出质量 为机器人提供看清三维空间的“眼睛”[17][20] - 模型核心创新是提出了“掩码深度建模”范式 以及一套可扩展的真实深度数据采集范式[20] - 该方法不将深度相机的缺失数据视为噪声 而是作为反映场景几何模糊性的“自然掩码” 通过RGB与深度的跨模态联合学习 让模型学会用视觉上下文补全空间信息[23] - 模型基于encoder-decoder框架 将学习目标从外观重建转向深度图预测 通过使用海量RGB-深度图像对并刻意遮挡部分深度区域进行训练 使模型学会建立“外观-几何”对应关系[32] - 模型通过ViT学习RGB外观与深度几何的联合表征 既能补全缺失深度 又能提升单目深度估计和立体匹配精度 本质是为RGB-D相机加装“视觉增强模块”[36] 数据规模与构建 - LingBot-Depth提供了千万量级的大规模RGB-D预训练数据 并设计了合成数据与真实数据收集流程[25][26] - 合成数据LingBot Depth-S:通过模拟真实世界主动式RGB-D相机的成像过程 生成带有自然缺陷的逼真深度观测值 从442个室内场景中渲染了100万个合成样本[29] - 真实数据LingBot Depth-R:通过可扩展的RGB-D相机采集系统 收集了200万个场景多样性丰富的真实数据[29] - 结合自制的320万数据及开源数据集补充 模型训练使用的总样本量达到1000万个[30] - 该数据流程为学术界和工业界提供了从数据制作、模型训练到下游应用的完整闭环范式[30] 技术性能与优势 - 在深度补全任务上 在iBims、NYUv2等数据集中超越OMNI-DC、PromptDA等主流方案 在极端条件下RMSE降低40%以上 能精准还原透明与反光表面的深度轮廓[37] - 在单目深度估计任务上 仅用RGB图像就能输出高精度深度图 在10个不同场景的数据集中性能全面超越基于DINOv2预训练的基座模型[39] - 在立体匹配增强任务上 作为FoundationStereo的深度先验 能让立体匹配模型收敛速度提升3倍 最终EPE降低20% 在HAMMER、Booster等难点数据集表现最优[40] - 在极端环境下表现出强鲁棒性:能有效处理透明、强光、暗光及低纹理场景 例如在DIODE户外数据集中RMSE为3.811 远低于同类方案的6.239[43][48] - 在具身抓取应用中 对于原始深度传感器完全失效的透明储物盒 基于LingBot-Depth优化深度训练的模型实现了50%的抓取成功率[45][47] - 模型处理视频时能保持深度时空平滑性 无抖动 远超ZED等高端立体相机[48] - 模型能力不限于抓取 在相机位姿和4D点跟踪等高层空间感知任务上也能提升稳定性与精度[49] 落地应用与兼容性 - 模型支持Intel RealSense、Orbbec Gemini、ZED等主流消费级RGB-D相机 无需改装硬件即可直接接入提升性能[51] - 具备轻量化部署能力:采用BF16混合精度训练 推理时无需复杂后处理 可满足30 FPS的实时性需求 能直接嵌入现有具身VLA模块[51] - 该方案通过算法弥补硬件局限 以更普世的方法让整个领域享受技术红利 验证了深度优化对提升具身操作能力的有效性[52][53]
视觉VLA看不到的“那堵墙”,被发现了......
具身智能之心·2026-01-27 15:24