核心观点 - 苏黎世联邦理工与微软的研究团队提出了一种名为DROID-W的动态SLAM框架,该框架通过显式建模逐像素的动态不确定性,并利用交替优化策略,有效解决了传统SLAM在真实动态场景中的性能瓶颈,实现了无需依赖动态物体类别先验、适用于“随手拍”真实世界的实时SLAM系统 [6] 技术原理与创新 - 核心改进:DROID-W的关键改进在于将“动态带来的不可靠性”显式建模为逐像素的动态不确定性,通过度量帧间DINO特征相似度来衡量,并在Bundle Adjustment优化中自动抑制高不确定区域的残差影响 [12] - 优化策略:为解决大规模联合优化带来的高昂计算成本,系统采用了交替优化方案,一边执行相机位姿与深度的优化,一边根据多视角视觉特征的一致性迭代更新动态不确定性,从而适用于在线系统 [12] - 底层路线:与依赖预定义动态类别或语义分割先验的方法不同,DROID-W强调从多视角观测一致性本身识别不可靠区域,无需预设动态物体类别或建立高质量静态场景 [8] 性能表现 - 处理速度:该工作在RTX 5090上可以达到约30 FPS的实时性能 [6] - 精度提升:在新提出的DROID-W数据集上,DROID-W的平均轨迹误差仅为23厘米,而原始DROID-SLAM的误差为1.46米,精度提升显著 [18] - 泛化能力:在Bonn、TUM、DyCheck等动态数据集上,DROID-W均取得了最优表现,并在来自YouTube的“in-the-wild”视频片段中展现了良好的通用性与鲁棒性 [16][18] 应用与影响 - 模块通用性:DROID-W提出的动态不确定性感知模块可以即插即用地应用到多种SLAM框架中,有效提升其在真实动态环境中的性能 [6] - 解决传统困境:传统SLAM基于静态场景假设,在真实世界的行人、车辆、反光等动态因素下易产生跟踪漂移和建图错误,DROID-W旨在解决此问题 [7][8] - 软抑制优势:系统采用连续的不确定性估计进行“软抑制”,而非一刀切的动态掩码,使得当物体局部运动或重新静止时,系统仍能利用其中的可靠信息继续跟踪,更适合真实世界 [14][15] 数据集与验证 - 新数据集:为验证方法在真实场景的适用性,研究团队引入了新的DROID-W数据集,包含7段Downtown序列,配有RTK支持的真值轨迹,模拟了高动态、图像过曝、镜面反射、太阳光晕等真实野外复杂场景 [16] - 测试范围:实验不仅限于常用室内动态数据集,还扩展至更偏室外、开放、接近真实拍摄条件的数据,以评估系统的实际应用能力 [16]
CVPR 2026|DROID-W:复杂室外动态场景,也能稳定SLAM
机器之心·2026-04-08 08:51