机器人看不清,蚂蚁给治好了
量子位·2026-01-27 14:57

文章核心观点 蚂蚁集团的具身智能公司蚂蚁灵波开源了全球领先的深度视觉模型LingBot-Depth,该模型通过创新的算法设计,有效解决了机器人等设备在感知透明和反光物体时深度信息缺失或错误的长期难题,且无需更换硬件,有望显著加速具身智能在家庭、商业等复杂真实场景的落地进程 [9][14][58][60] 技术原理与创新 - 问题根源分析:机器人“看不清”透明和反光物体的核心问题在于其“眼睛”——深度相机的工作原理依赖物体表面对光线的稳定反射,而透明材质会让光线穿透,高反光材质则导致光线漫反射,使得传感器无法接收有效回波信号,产生大量缺失或错误的深度值 [5][6] - 问题本质区分:从算法层面看,透明物体的问题是信息缺失(如玻璃缺乏稳定纹理),而反光物体的问题是信息过载(表面映射复杂环境倒影),这是两类截然不同甚至相反的问题,需区别处理 [16][17][18][21][24] - 核心创新范式:提出名为掩码深度建模的全新范式,其反直觉的解法在于:将传感器在透明/反光区域天然失效产生的缺失深度值,视为一种天然的掩码,并以此训练模型,要求其仅凭RGB图像和剩余有效深度信息,“脑补”出被掩码遮住的深度部分 [25][26][28] - 关键技术架构: - 采用联合嵌入的ViT架构,使用视觉Transformer作为主干网络,分别对RGB图像和深度图进行分块嵌入,并通过模态编码和自注意力机制学习颜色与深度之间的精细对应关系,建立跨模态联合表征 [30] - 设计智能掩码策略,优先使用传感器天然缺失区域作为掩码,对部分有效/无效的深度块以高概率(如75%)掩码,天然掩码不足时才补充随机掩码,确保模型解决最真实、最困难的问题 [31][32][33] - 使用ConvStack卷积金字塔解码器替代传统Transformer解码器,以更好地保留空间细节和边界锐度,输出更清晰、连贯的深度图 [34][35] 数据与训练 - 数据规模与构成:为训练模型构建了总计约300万的高质量RGB-D样本用于预训练,其中200万来自真实世界,100万来自高保真仿真 [40][41] - 真实数据采集:设计模块化3D打印采集装置,适配多种商用RGB-D相机,系统性地收集了住宅、办公室、商场、餐厅、医院等数十种场景下包含透明、反光、低纹理等挑战性物体的真实数据 [43] - 仿真数据生成:在Blender中同时渲染RGB图像和带散斑的红外立体图像对,再通过半全局匹配算法生成有缺陷的仿真深度图,以高度还原真实传感器的失效模式 [45] - 数据开源计划:蚂蚁灵波团队计划开源这套包含200万真实和100万仿真数据的庞大数据集,旨在降低整个行业在空间感知领域的研究门槛 [46][61] 性能表现与验证 - 基准测试表现:在多个权威的深度补全基准测试上全面超越当前最先进的方法,在最严苛的极端设定下,其RMSE指标比此前最好的方法降低了超过40% [47][48] - 泛化与一致性:模型在训练时仅使用静态图像,但在视频序列上展现出惊人的时空一致性,输出的深度流能填补大片空洞且保持平滑稳定,无闪烁跳变 [49][50] - 真实机器人验证:将模型部署于由节卡机械臂、灵巧手和奥比中光Gemini 335相机组成的真实机器人平台,在20次抓取尝试中,使用LingBot-Depth的成功率远高于使用原始深度数据 [52][53][54] - 硬件适配效果:在与奥比中光等硬件适配过程中,验证了LingBot-Depth能够在现有消费级深度相机上实现接近专业级传感器的感知效果 [59] 行业影响与意义 - 软硬协同路径:提供了一条不依赖更换昂贵硬件的升级路径,通过算法即可大幅提升现有深度相机的感知鲁棒性与完整性,可作为即插即用模块集成到现有机器人、自动驾驶或AR/VR设备中 [56][57][58] - 加速场景落地:该技术将大大加速具身智能在家庭服务、仓储物流、商业零售等复杂真实场景的落地进程 [60] - 推动行业开放:蚂蚁灵波已开源LingBot-Depth的代码和模型权重,并计划开源数据集,此举将极大降低学术界与工业界在空间感知领域的研发门槛,有望催生更多创新应用,推动行业发展 [61][62]