Gemini 330系列双目3D相机
搜索文档
蚂蚁灵波开源空间感知模型LingBot-Depth
环球网资讯· 2026-01-29 09:35
科技日报记者 崔爽 针对这一难题,蚂蚁灵波科技研发了"掩码深度建模"(Masked Depth Modeling,MDM)技术,并依托 奥比中光Gemini 330系列双目3D相机进行RGB-Depth数据采集与效果验证。当深度数据出现缺失或异常 时,LingBot-Depth模型能够融合彩色图像(RGB)中的纹理、轮廓及环境上下文信息,对缺失区域进 行推断与补全,输出完整、致密、边缘更清晰的三维深度图。值得一提的是,LingBot-Depth模型已通 过奥比中光深度视觉实验室的专业认证,在精度、稳定性及复杂场景适应性方面均达到行业领先水平。 1月27日,蚂蚁集团旗下具身智能公司灵波科技开源高精度空间感知模型LingBot-Depth。这是蚂蚁灵波 科技在2025外滩大会首次亮相后,时隔半年在具身智能技术基座方向公布重要成果。 据介绍,该模型基于奥比中光Gemini 330系列双目3D相机提供的芯片级原始数据,专注于提升环境深度 感知与三维空间理解能力,旨在为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉, 在"看清楚"三维世界这一行业难题上取得重要突破,如在NYUv2、ETH3D等权威基准评测中 ...
机器人看不清,蚂蚁给治好了
量子位· 2026-01-27 14:57
文章核心观点 蚂蚁集团的具身智能公司蚂蚁灵波开源了全球领先的深度视觉模型LingBot-Depth,该模型通过创新的算法设计,有效解决了机器人等设备在感知透明和反光物体时深度信息缺失或错误的长期难题,且无需更换硬件,有望显著加速具身智能在家庭、商业等复杂真实场景的落地进程 [9][14][58][60] 技术原理与创新 - **问题根源分析**:机器人“看不清”透明和反光物体的核心问题在于其“眼睛”——深度相机的工作原理依赖物体表面对光线的稳定反射,而透明材质会让光线穿透,高反光材质则导致光线漫反射,使得传感器无法接收有效回波信号,产生大量缺失或错误的深度值 [5][6] - **问题本质区分**:从算法层面看,透明物体的问题是**信息缺失**(如玻璃缺乏稳定纹理),而反光物体的问题是**信息过载**(表面映射复杂环境倒影),这是两类截然不同甚至相反的问题,需区别处理 [16][17][18][21][24] - **核心创新范式**:提出名为**掩码深度建模**的全新范式,其反直觉的解法在于:将传感器在透明/反光区域天然失效产生的缺失深度值,视为一种**天然的掩码**,并以此训练模型,要求其仅凭RGB图像和剩余有效深度信息,“脑补”出被掩码遮住的深度部分 [25][26][28] - **关键技术架构**: - 采用**联合嵌入的ViT架构**,使用视觉Transformer作为主干网络,分别对RGB图像和深度图进行分块嵌入,并通过模态编码和自注意力机制学习颜色与深度之间的精细对应关系,建立跨模态联合表征 [30] - 设计**智能掩码策略**,优先使用传感器天然缺失区域作为掩码,对部分有效/无效的深度块以高概率(如75%)掩码,天然掩码不足时才补充随机掩码,确保模型解决最真实、最困难的问题 [31][32][33] - 使用**ConvStack卷积金字塔解码器**替代传统Transformer解码器,以更好地保留空间细节和边界锐度,输出更清晰、连贯的深度图 [34][35] 数据与训练 - **数据规模与构成**:为训练模型构建了总计约**300万**的高质量RGB-D样本用于预训练,其中**200万**来自真实世界,**100万**来自高保真仿真 [40][41] - **真实数据采集**:设计模块化3D打印采集装置,适配多种商用RGB-D相机,系统性地收集了住宅、办公室、商场、餐厅、医院等数十种场景下包含透明、反光、低纹理等挑战性物体的真实数据 [43] - **仿真数据生成**:在Blender中同时渲染RGB图像和带散斑的红外立体图像对,再通过半全局匹配算法生成有缺陷的仿真深度图,以高度还原真实传感器的失效模式 [45] - **数据开源计划**:蚂蚁灵波团队计划开源这套包含200万真实和100万仿真数据的庞大数据集,旨在降低整个行业在空间感知领域的研究门槛 [46][61] 性能表现与验证 - **基准测试表现**:在多个权威的深度补全基准测试上全面超越当前最先进的方法,在最严苛的极端设定下,其RMSE指标比此前最好的方法降低了**超过40%** [47][48] - **泛化与一致性**:模型在训练时仅使用静态图像,但在视频序列上展现出惊人的时空一致性,输出的深度流能填补大片空洞且保持平滑稳定,无闪烁跳变 [49][50] - **真实机器人验证**:将模型部署于由节卡机械臂、灵巧手和奥比中光Gemini 335相机组成的真实机器人平台,在20次抓取尝试中,使用LingBot-Depth的成功率远高于使用原始深度数据 [52][53][54] - **硬件适配效果**:在与奥比中光等硬件适配过程中,验证了LingBot-Depth能够在现有消费级深度相机上实现接近专业级传感器的感知效果 [59] 行业影响与意义 - **软硬协同路径**:提供了一条不依赖更换昂贵硬件的升级路径,通过算法即可大幅提升现有深度相机的感知鲁棒性与完整性,可作为即插即用模块集成到现有机器人、自动驾驶或AR/VR设备中 [56][57][58] - **加速场景落地**:该技术将大大加速具身智能在**家庭服务、仓储物流、商业零售**等复杂真实场景的落地进程 [60] - **推动行业开放**:蚂蚁灵波已开源LingBot-Depth的代码和模型权重,并计划开源数据集,此举将极大降低学术界与工业界在空间感知领域的研发门槛,有望催生更多创新应用,推动行业发展 [61][62]
让机器人“看清”三维世界,蚂蚁灵波开源LingBot-Depth模型
新浪财经· 2026-01-27 11:13
据悉,该模型基于奥比中光 Gemini 330 系列双目 3D 相机提供的芯片级原始数据,专注于提升环境深度 感知与三维空间理解能力,旨在为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉, 在"看清楚"三维世界这一行业关键难题上取得重要突破。这也是蚂蚁灵波科技在2025外滩大会后首次亮 相后,时隔半年在具身智能技术基座方向公布重要成果。 责任编辑:宋雅芳 责任编辑:宋雅芳 新浪科技讯 1月27日上午消息,蚂蚁集团旗下具身智能公司灵波科技宣布开源高精度空间感知模型 LingBot-Depth。 新浪科技讯 1月27日上午消息,蚂蚁集团旗下具身智能公司灵波科技宣布开源高精度空间感知模型 LingBot-Depth。 据悉,该模型基于奥比中光 Gemini 330 系列双目 3D 相机提供的芯片级原始数据,专注于提升环境深度 感知与三维空间理解能力,旨在为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉, 在"看清楚"三维世界这一行业关键难题上取得重要突破。这也是蚂蚁灵波科技在2025外滩大会后首次亮 相后,时隔半年在具身智能技术基座方向公布重要成果。 ...