4D Reconstruction
搜索文档
AI Day直播!免位姿前馈4D自动驾驶世界DGGT
自动驾驶之心· 2025-12-23 08:53
文章核心观点 - 自动驾驶行业在动态场景重建与仿真领域面临效率与灵活性挑战 现有方法依赖逐场景优化、已知相机位姿或短时间窗口 导致速度慢、实用性受限 [3] - 提出一种名为Driving Gaussian Grounded Transformer 的统一免位姿前馈4D重建框架 该框架将相机位姿重新定义为模型输出 可直接从稀疏无位姿图像进行重建 并支持长序列任意数量视角 [3] - 该方法通过单次前向传播实现毫秒级动态场景生成与动静解耦 在速度与性能上达到领先水平 并支持跨数据集零样本迁移与实例级场景编辑 为构建大规模世界模拟器提供了高效解决方案 [4][9] 技术方案与框架 - 框架核心是联合预测每帧的3D高斯图与相机参数 通过轻量级动态头解耦动态元素 并利用寿命头调制随时间变化的可见性以保持时序一致性 [3] - 采用基于扩散的渲染细化技术 进一步减少了运动或插值伪影 提升了在稀疏输入条件下的新视角合成质量 [4] - 该方法是前馈式且无需位姿输入的算法 在大型驾驶数据集上进行训练与评估 这些数据集包括Waymo、nuScenes和Argoverse2 [4] 性能与评估 - 评估结果表明 无论是在各数据集上单独训练 还是在跨数据集的零样本迁移任务中 该方法均优于已有工作 [4] - 该方法具有良好的扩展性 其性能随着输入帧数的增加而持续提升 [4] 行业应用与前景 - 该技术旨在打破真实数据的局限 实现用于自动驾驶的重仿真 并摆脱对高精度位姿的依赖 实现毫秒级动态重建 [9][10] - 该框架支持跨域泛化与实例级场景编辑 为应对现有动态生成瓶颈和构建未来通用世界模型提供了高效解决方案 [9][10]
复旦最新一篇DriveVGGT:面向自动驾驶,高效实现多相机4D重建
自动驾驶之心· 2025-12-17 08:03
核心观点 - 研究团队提出了一种名为DriveVGGT的新型视觉几何Transformer模型,专门用于解决自动驾驶场景中多相机、低重叠视野下的4D场景重建难题 [2] - 该模型通过显式引入并有效利用相机相对位姿先验,显著提升了多相机系统的几何预测一致性与推理效率 [2] - 在nuScenes数据集上的实验表明,DriveVGGT在相机位姿估计、深度估计的精度以及推理速度上均优于现有的VGGT系列方法 [11][24][27][30] 技术背景与挑战 - 4D场景重建是从视觉传感器预测几何信息的关键任务,基于相机的方案因低成本在自动驾驶领域被广泛研究 [5] - 前向方法(如VGGT)能直接输出预测,无需迭代优化,泛化能力更强,但在应用于自动驾驶多相机系统时面临两大局限 [5][6] - 局限一:自动驾驶车辆摄像头为平衡视场与成本,视角差异大、图像重叠度低,模型难以识别相似特征并预测有效的图像位姿关系 [6] - 局限二:摄像头相对位姿标定信息易于获取,但因其与前向模型预测结果存在尺度差异,无法直接有效利用,导致几何标记间尺度模糊 [6] DriveVGGT模型架构与创新 - 模型旨在充分利用相机相对位姿信息,提升相机位姿估计和深度估计等几何任务的性能 [10] - 提出一个高效的两阶段流程处理多相机图像 [11] - 第一阶段:使用时序视频注意力模块独立处理每个相机的视频序列,利用单相机序列中的时空连续性,初步输出序列位姿和几何标记 [9][13] - 第二阶段:提出多相机一致性注意力模块,通过将归一化的相对位姿嵌入作为额外标记注入,并采用窗口注意力机制,实现不同摄像头图像在有限序列长度内的交互,建立一致性关系 [9][11][15] - 引入相对位姿嵌入模块,对真实世界相机位姿进行归一化并映射到与模型标记相同的维度,以缓解输入输出间的尺度差异 [14] - 最终,预测头将优化后的特征解码为相对位姿、序列位姿和深度的预测结果 [16] 实验结果与分析 - **实验设置**:在nuScenes数据集上进行,该数据集包含6个低重叠摄像头采集的图像,使用700个场景训练,150个验证,图像分辨率从1600x900降至518x280 [19][23] - **位姿估计性能**:在输入210张图像(35帧)的场景中,DriveVGGT(VGGT)的AUC(30)指标达到0.7200,优于原始VGGT的0.6871和fastVGGT的0.6830 [24][25] - **深度估计性能**:在35帧场景中,DriveVGGT(fastVGGT)的Abs Rel指标达到0.3539,表现最佳,显示了其处理长序列多相机视频的能力 [27][29] - **推理速度**:DriveVGGT(VGGT)在35帧场景中的推理时间仅为原始VGGT的50%,实现了更快的推理速度 [30] - **消融实验**:验证了各模块的有效性,仅使用时序视频注意力的基线模型AUC(30)仅为0.039,加入相对位姿嵌入后提升至0.7855,完整DriveVGGT达到0.8010 [34][36] - **窗口注意力**:测试表明窗口大小为3时能在性能与效率间取得最佳平衡 [38] - **尺度预测**:基于尺度的对齐方法在15帧场景下将Abs Rel从0.3805降至0.3666,证明了尺度预测头能将深度转换至真实世界尺度的有效性 [39][40]
谷歌&伯克利新突破:单视频重建4D动态场景,轨迹追踪精度提升73%!
自动驾驶之心· 2025-07-05 21:41
核心观点 - 该研究提出名为"Shape of Motion"的技术,通过结合3D高斯撒点与SE(3)运动表示,实现单目视频动态场景的4D重建(3D空间+时间维度),在3D追踪精度上比现有方法提升73% [2][8][17] - 该方法具有实时新视角合成、全局一致3D追踪和处理复杂动态场景三大能力,可能彻底改变影视特效、游戏开发、自动驾驶等行业的工作流程 [4] - 技术采用3D高斯点作为场景表示基本单元,利用SE(3)运动基底表示场景运动,并整合单目深度图、长距离2D轨迹等数据驱动先验,形成全局一致的动态场景表示 [9][11][12] 技术细节 - 核心创新点包括:1) 低维运动表示 - 使用紧凑的SE(3)运动基底表示场景运动;2) 数据驱动先验整合 - 有效整合多种噪声监督信号 [9] - 每个3D高斯点参数包括规范帧中的3D均值、方向、尺度、不透明度和颜色,其运动轨迹通过共享的SE(3)运动基底表示 [10] - 优化过程采用双管齐下的损失函数:重建损失(包含RGB、深度和掩码约束)和运动约束(通过2D轨迹和刚性损失保持运动一致性) [13][14] 性能表现 - 在iPhone数据集上,3D追踪准确率(10cm阈值)达73.3%,比第二名高出10个百分点;2D追踪准确率达47%,新视角合成的PSNR指标达16.72 [17] - 在Kubric合成数据集上,3D追踪误差(EPE)低至0.16,比基线方法提升21% [20] - 硬件配置上,在A100 GPU上训练300帧视频仅需2小时,渲染速度可达40fps,实时性完胜传统NeRF方法 [14] 局限与展望 - 当前方法存在四大局限:1) 耗时优化 - 每场景需2小时训练;2) 视角局限 - 大视角变化时缺失生成能力;3) 相机依赖 - 纹理缺失场景可能失败;4) 人工干预 - 需用户标注运动物体掩码 [25] - 未来突破方向包括:1) 开发端到端前馈网络;2) 融入扩散模型处理大视角变化;3) 用SAM等模型实现全自动分割 [25] - 该研究突破了单目动态重建的三重边界:空间维度(全序列3D运动轨迹重建)、时间跨度(支持10秒以上长时运动追踪)和场景复杂度(处理多刚体运动的动态场景) [26]