TALO: 支持任意3D基础模型、任意相机配置的室外重建系统
自动驾驶之心·2026-01-08 17:07

3D视觉基础模型在线增量重建的技术演进 - 3D视觉基础模型(如VGGT、π³、MapAnything)的出现,标志着三维重建进入端到端、数据驱动的新范式,能够从输入图像直接预测相机参数和稠密几何结构,简化流程并具备强大的跨场景泛化能力 [1] - 然而,现有基础模型主要针对离线场景设计,需要一次性访问完整图像序列,而自动驾驶等现实应用要求模型具备在线增量重建能力,能随着新数据到来增量式地重建新区域 [2] - 将通用基础模型扩展为鲁棒的在线增量重建系统是当前研究的关键问题,已有少数工作(如CUT3R)尝试直接支持在线重建,但在序列增长时稳定性显著退化,难以应对大规模室外真实场景 [2] 现有子地图对齐方法的策略与局限 - 一种直观思路是将长序列划分为子地图,分别用基础模型推理后再对齐,但子地图独立预测导致一致性难以保持,需要专门设计对齐机制 [3] - VGGT-Long采用Sim(3)对齐策略,具有7个自由度,保持角度与形状比例,仅允许整体尺度缩放,稳定性较好 [4] - VGGT-SLAM将对齐空间扩展至SL(4),拥有15个自由度,能建模更复杂甚至非刚性的几何畸变,但表达能力强的同时更容易引入数值不稳定性 [4] - 实验表明,在室外多相机设置下,SL(4)对齐方式高度脆弱,在跨数据集和基础模型的系统评测中,超过60%的场景重建失败;Sim(3)虽更稳定,但仍面临明显的轨迹漂移和几何伪影 [4] 现有全局线性对齐方法的根本性局限 - 现有方法隐含假设不同子地图间的几何差异在空间上是全局一致的,可通过单一全局线性变换对齐,但真实户外场景中,尤其在多相机和较小子地图规模下,几何误差通常随空间位置变化,全局线性变换会导致某些区域过拟合而另一些区域残留明显误差 [5] - 现有方法仅在相邻子地图间执行两两对齐,只能保证短期最优,在触发回环前无法利用非相邻子地图的信息,限制了实现全局一致性的能力 [5] - SL(4)由于其欠约束的高自由度,对基础模型预测几何中的噪声极为敏感,易产生退化解,例如异常的相机位姿和几何结构 [5] 本文提出的TALO对齐框架与核心贡献 - 本文提出即插即用的对齐框架TALO,旨在扩展通用基础模型实现全局一致的在线增量重建 [7] - TALO通过引入在空间上均匀分布、在时间上全局传播的稀疏控制点,跨子地图累积并融合多视角观测,结合薄板样条(TPS)变换模型,实现对子地图精细且空间自适应的几何对齐 [7] - TALO采用一种点云无关的子地图注册策略:不依赖噪声较大的点云,而是通过对重叠帧之间的相对相机位姿进行平均来对齐子地图间的坐标系,从而获得对基础模型预测的几何噪声具有天然鲁棒性的轨迹估计 [7] - 主要贡献包括:对现有基础模型对齐策略进行了系统性分析,揭示了其根本局限;提出了基于全局控制点传播与TPS的精细几何对齐策略,以及基于重叠相机位姿平均的鲁棒子地图注册策略;构建了即插即用的TALO系统,可无缝支持多种基础模型及任意相机配置 [9] TALO的核心技术模块:鲁棒子地图注册 - 子地图注册目的是估计一个3D变换,将一个子地图的坐标系映射到另一个子地图的坐标系中 [10] - 以往方法通过最小化两个子地图在重叠帧对应预测点云之间的对齐误差进行注册,但这类基于点云的配准方法会为补偿局部几何不一致而牺牲轨迹精度,并对预测结果中的几何噪声高度敏感 [11] - TALO选择基于重叠帧对应的相机位姿来估计变换,因为位姿预测相比点云预测具有更高的稳定性,通过对计算出的子地图间变换进行平均来获得最终变换,其中旋转部分采用Chordal旋转平均方法求解,平移部分直接算术平均 [11] - 实验表明,该子地图注册方式在长序列和多相机场景下,能显著降低轨迹发散和累计漂移的风险 [12] TALO的核心技术模块:控制点的构造与全局传播 - 控制点定义为真实三维世界中的一个固定空间位置,理想情况下应在所有子地图中保持不变 [14] - 由于子地图独立推理存在几何不一致性,同一物理空间位置在不同子地图中被重建为不同的三维点,全局控制点及其在各子地图中的观测共同编码了几何在时间和空间上的不一致 [16][17] - TALO的目标是构建一组全局控制点及其对应的规范位置,通过将观测对齐到规范位置来显式校正几何畸变 [18] - 控制点从预测点云中基于体素化提取,以保证在三维空间中的均匀覆盖,并利用基础模型的像素对齐特性,通过重叠帧在相邻子地图间建立控制点对应关系 [19] - 为实现全局一致性,控制点不仅在同邻子地图间构造连接,还沿整个序列进行前向和反向传播,在尽可能多的子地图中持续建立观测,构建一个全局连通的控制点图结构 [19] TALO的核心技术模块:基于TPS的精细几何对齐 - 给定全局控制点观测,首先通过对跨子地图观测进行鲁棒聚合(采用基于MAD的统计策略)来定义每个控制点的规范三维位置,以抑制动态区域与异常观测的影响 [20] - 在对齐前,对每个子地图中的控制点位移施加基于局部邻域结构的高斯加权局部空间平滑,以降低噪声并提升后续对齐稳定性 [21][22] - 采用三维薄板样条(TPS)映射对每个子地图进行非刚性校正,TPS是一种经典的基于核的连续映射,能在精确插值给定对应关系的同时最小化弯曲能量,保持全局光滑性的同时建模局部几何畸变 [23][24] - TPS映射参数通过最小化一个结合了对齐误差和平滑约束的能量函数进行估计,该问题具有快速闭式解 [26] - 该TPS对齐模块可在任意时刻触发,不再依赖于回环检测等外部机制即可逐步增强全局一致性 [28] 实验结果:轨迹精度与重建质量 - 在Waymo和nuScenes数据集上,TALO与VGGT-Long、VGGT-SLAM进行对比实验,TALO在所有数据集和基础模型(VGGT、π³、MapAnything)设置下均取得最优结果,且未出现任何重建失败场景 [29][30] - TALO的平均绝对轨迹误差(ATE)稳定在约1米左右,在旋转精度上提升尤为显著,例如在Waymo数据集上,TALO将相对旋转误差(RRE)从VGGT-Long的0.71°降低至0.14°,实现了近5倍的改进 [30][31] - VGGT-SLAM采用的SL(4)对齐方式在测试序列中超过60%的场景发生重建失败;VGGT-Long采用的Sim(3)对齐方式虽更稳定,但在缺乏回环的场景下仍容易累积明显的轨迹漂移 [31] - 点云重建质量评估显示,TALO在大多数场景和基础模型设置下取得最优表现,可视化结果表明TALO能够恢复更加准确且边界清晰的几何结构,有效消除以往方法中常见的多层伪影现象 [32][33]