视觉几何Transformer
搜索文档
共一分享!复旦DriveVGGT:面向自动驾驶,高效实现多相机4D重建
自动驾驶之心· 2026-01-20 08:39
自动驾驶视觉几何重建技术挑战 - 传统视觉几何Transformer(VGGT)的设计初衷与自动驾驶任务的先验知识存在本质差异,直接应用于自动驾驶系统会导致次优结果[3] - 自动驾驶场景存在三类关键新先验:相机视图重叠度极低、相机内参与外参已知、以及所有车载相机的相对位置固定[3] DriveVGGT框架的核心创新 - 提出DriveVGGT,一款专为自动驾驶数据设计的尺度感知型4D重建框架[4] - 设计时序视频注意力(TVA)模块,独立处理多相机视频以利用单相机序列中的时空连续性[4] - 提出多相机一致性注意力(MCA)模块,通过归一化的相对位姿嵌入执行窗口注意力,建立不同相机间一致性关联并限制每个token仅关注相邻帧[4] - 在标准VGGT预测头基础上扩展,新增绝对尺度头与自车位姿头以完善几何信息输出[4] 技术应用与性能提升 - DriveVGGT通过显式引入相机相对位姿先验,旨在显著提升多相机系统的几何预测一致性与推理效率[7] - 该框架致力于解决多相机重建任务,并有效提升重建速度[9]