4D Reconstruction
搜索文档
复旦最新一篇DriveVGGT:面向自动驾驶,高效实现多相机4D重建
自动驾驶之心· 2025-12-17 08:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Xiaosong Jia等 编辑 | 自动驾驶之心 自动驾驶中的4D场景重建是实现环境感知与运动规划的关键环节,然而传统视觉几何模型在多相机、低重叠的自动驾驶场景中往往表现不佳。 来自上海交大、复旦等机构的研究者提出 DriveVGGT,一种专为自动驾驶设计的视觉几何Transformer,通过显式引入相机相对位姿先验,显著提升了多相机系统的几 何预测一致性与推理效率。 更多自动驾驶的行业信息、技术进展,欢迎加入自动驾驶之心知识星球获取! 背景介绍 4D重建是一项从视觉传感器预测几何信息的计算机视觉任务。与其他传感器相比,基于相机的重建因其低成本而在各个领域,尤其是在自动驾驶和机器人学中,得到 了广泛的研究和应用。通常,重建方法有两种类型。第一种是基于迭代的方法,例如。这些方法需要选择特定的场景或物体,并通过迭代重建来获得优化结果。然 而,由于泛化能力不足,当场景或物体发生变化或修改时,基于迭代的方法需要重新训练模型。第二种是前向方法。这些方法 ...
谷歌&伯克利新突破:单视频重建4D动态场景,轨迹追踪精度提升73%!
自动驾驶之心· 2025-07-05 21:41
核心观点 - 该研究提出名为"Shape of Motion"的技术,通过结合3D高斯撒点与SE(3)运动表示,实现单目视频动态场景的4D重建(3D空间+时间维度),在3D追踪精度上比现有方法提升73% [2][8][17] - 该方法具有实时新视角合成、全局一致3D追踪和处理复杂动态场景三大能力,可能彻底改变影视特效、游戏开发、自动驾驶等行业的工作流程 [4] - 技术采用3D高斯点作为场景表示基本单元,利用SE(3)运动基底表示场景运动,并整合单目深度图、长距离2D轨迹等数据驱动先验,形成全局一致的动态场景表示 [9][11][12] 技术细节 - 核心创新点包括:1) 低维运动表示 - 使用紧凑的SE(3)运动基底表示场景运动;2) 数据驱动先验整合 - 有效整合多种噪声监督信号 [9] - 每个3D高斯点参数包括规范帧中的3D均值、方向、尺度、不透明度和颜色,其运动轨迹通过共享的SE(3)运动基底表示 [10] - 优化过程采用双管齐下的损失函数:重建损失(包含RGB、深度和掩码约束)和运动约束(通过2D轨迹和刚性损失保持运动一致性) [13][14] 性能表现 - 在iPhone数据集上,3D追踪准确率(10cm阈值)达73.3%,比第二名高出10个百分点;2D追踪准确率达47%,新视角合成的PSNR指标达16.72 [17] - 在Kubric合成数据集上,3D追踪误差(EPE)低至0.16,比基线方法提升21% [20] - 硬件配置上,在A100 GPU上训练300帧视频仅需2小时,渲染速度可达40fps,实时性完胜传统NeRF方法 [14] 局限与展望 - 当前方法存在四大局限:1) 耗时优化 - 每场景需2小时训练;2) 视角局限 - 大视角变化时缺失生成能力;3) 相机依赖 - 纹理缺失场景可能失败;4) 人工干预 - 需用户标注运动物体掩码 [25] - 未来突破方向包括:1) 开发端到端前馈网络;2) 融入扩散模型处理大视角变化;3) 用SAM等模型实现全自动分割 [25] - 该研究突破了单目动态重建的三重边界:空间维度(全序列3D运动轨迹重建)、时间跨度(支持10秒以上长时运动追踪)和场景复杂度(处理多刚体运动的动态场景) [26]