Workflow
SpatialTrackerV2:开源前馈式可扩展的3D点追踪方法
自动驾驶之心·2025-07-20 16:36

三维点追踪技术现状 - 三维点追踪技术从单目视频中恢复任意点的长期三维轨迹,在机器人、视频生成及三维/四维重建中展现潜力[4] - 相比参数化运动模型(如SMPL、骨架等),该技术具有更强灵活性与泛化能力[4] - 现有方案依赖光流与单目深度估计等低/中层视觉模型,优化式方法计算成本高昂,前馈模型受限于真实三维轨迹监督数据[6] SpatialTrackerV2核心创新 - 将三维点追踪分解为视频深度、相机自运动与物体运动三部分,构建完全可微的多源异构数据联合训练流程[7] - 采用前端-后端架构:前端通过视频深度估计器和位姿初始化器生成深度图与粗略相机轨迹,后端通过SyncFormer模块实现二维/三维轨迹联合优化[7][11] - SyncFormer模块采用双分支交叉注意力结构,分别处理二维/三维特征并通过交叉注意力层同步更新,减少特征干扰[30] 技术实现细节 - 前端深度预测引入尺度-偏移回归模块,通过投影一致性损失校正深度与姿态的尺度歧义[15][16] - 后端捆绑优化包含重投影误差、几何一致性损失、动态性约束损失及正则项,总损失函数驱动相机位姿与轨迹迭代更新[24][25][26][28] - 动态性与可见性分数通过轻量级网络预测,用于加权优化过程[23] 性能表现 - 在TAPVid-3D基准达到21.2 AJ和31.0 APD3D,较DELTA提升61.8%与50.5%[9] - 视频深度指标AbsRel为0.081(行业最优0.093),01.25指标达0.910,超越MegaSAM等动态重建方法[32] - 相机位姿估计在TUM-dynamic数据集ATE为0.012,优于MegaSAM的0.013,推理速度快50倍[35][9] 应用与扩展性 - 支持17个异构数据集联合训练,包括RGB-D数据集的深度/姿态一致性约束和普通视频的姿态-轨迹一致性约束[8] - 在互联网随手拍视频中展现鲁棒性,为运动理解和物理智能提供基础[37] - 开源Demo可通过Hugging Face体验,技术细节见论文《SpatialTrackerV2: 3D Point Tracking Made Easy》[8]