蚂蚁具身研究首次亮相!就解决了机器人「看」透明玻璃这些难题,还开源了
机器之心·2026-01-27 12:59

文章核心观点 - 蚂蚁灵波科技开源的LingBot-Depth模型,通过创新的掩码深度建模方法和超大规模的真实与合成数据训练,针对性地解决了机器人及自动驾驶在透明、反光等复杂场景下的深度感知难题,显著提升了空间感知的精度和鲁棒性,为通用具身智能的落地扫除了一项关键障碍 [9][30][79] 行业背景与痛点 - 具身智能是连接数字世界和物理世界的桥梁,其核心是让机器理解并参与三维环境交互,而空间视觉感知是自动驾驶、机器人等应用的底层能力 [1][3] - 行业普遍采用RGB-D相机获取视觉和深度信息,但面对玻璃等透明或高反光物体时,深度信息会大面积缺失或异常,成为制约机器人长期稳定落地的关键瓶颈 [4][5][7][8][14][19] 解决方案:LingBot-Depth模型 - 该模型是一个高精度空间感知模型,可在不更换硬件的前提下,显著提升透明、反光等复杂场景的深度输出质量 [9] - 模型基于创新的掩码深度建模方法,将传感器自然产生的深度缺失作为有益的学习信号加以利用,而非视为噪声剔除 [30][34] - 模型采用面向RGB-D定制的ViT-Large架构,能同时建模外观语义与几何线索的交互关系 [37] 数据构建与训练范式 - 构建了双线并行的数据集:一条路径基于高质量3D资产进行合成仿真,另一条路径使用工业级深度相机直接采集真实场景数据 [20] - 在合成流水线中刻意模拟真实主动式RGB-D相机的成像过程,引入与真实传感器高度相似的采集伪影,使数据更接近“所见即所得” [21][23] - 最终构建了1000万条用于掩码深度建模的训练样本,其中包含自行构建的320万条数据,覆盖了从理想条件到复杂现实环境的多种深度缺失模式 [25][28] 技术性能与评估 - 在深度补全任务中,模型在多个数据集和难度级别下均稳定超越OMNI-DC、PromptDA、PriorDA等主流方法 [45][47] - 在极端条件下,其RMSE相比此前表现最好的PromptDA仍有显著下降,表明模型真正学会了在结构严重缺失时恢复合理三维形状 [49] - 在单目深度估计任务中,使用LingBot-Depth预训练的编码器替代DINOv2,在10个多样化基准数据集上稳定表现出更优的精度和泛化能力 [52][56][57] 实际应用与落地准备 - 在三维追踪任务中,模型补全后的深度图能输出更平滑、连续且稳定的相机轨迹,并支持恢复出连贯一致的三维动态运动路径 [61][63][65] - 在真实灵巧抓取系统验证中,对于反光不锈钢杯和透明玻璃杯等物体,使用模型补全深度后的抓取成功率显著提升 [67][72][76] - 模型已完成轻量化,部署灵活,无需更换现有硬件即可作为算法增强模块嵌入系统,并且完全开源,便于验证和集成 [77][78][80]