三维重建技术演进综述 - 三维重建是计算机视觉与图形学的交叉核心,作为虚拟现实、增强现实、自动驾驶、数字孪生等前沿应用的数字底座 [5] - 以神经辐射场(NeRF)和三维高斯抛雪球(3DGS)为代表的新视角合成技术,使重建质量、速度、动态适应性同时跃升 [5] - 技术演进从传统多视角几何(SfM→MVS)到NeRF与3DGS,为数字孪生、智慧城市、元宇宙等领域提供技术演进全景图 [5] 应用需求驱动技术革新 - 城市级数字孪生需求公里级范围、厘米级精度、分钟级更新 [6] - 自动驾驶仿真需求动态交通流、实时语义、可编辑车道 [6] - AR/VR社交需求轻终端、大于90 FPS、照片级真实感 [6] - 工业数字工厂需求弱纹理、反光、复杂拓扑完整建模 [6] - 传统先几何后纹理管线无法满足新需求,NeRF与3DGS通过可微渲染统一学习几何-纹理-光照,实现从离线静态到实时动态的突破 [6] 传统多视角几何重建(SfM→MVS) - 理论基石包括对极几何x'^T F x = 0、三角测量X = argmin(∑‖π(P_i,X)−x_i‖^2)和束调整min ∑‖x−π(P,X)‖^2 + λ‖P−P_0‖^2 [9][10] - 成熟工具链包括COLMAP(学术最常用,CPU优化)、OpenMVG(模块化,适合算法研究)、Agisoft Metashape(商业级,支持无人机影像)和ContextCapture(Bentley城市级解决方案) [11] - 存在五大痛点:数据饥渴需大于70%航向重叠加60%旁向重叠、弱纹理空洞(玻璃、白墙、水面、天空)、光照敏感导致阴阳面色差和纹理接缝明显、动态失效导致行人车辆重影/鬼影、编辑困难改一棵树要重跑全流程 [13][15] NeRF隐式神经辐射场(2020-2024) - 基础框架将场景建模为连续5D函数F_Θ:(x,y,z,θ,φ)→(c,σ),通过体渲染积分得到像素颜色 [13][14] - 质量提升路线包括Mip-NeRF(锥体追踪+集成位置编码解决锯齿混叠,训练时间×2)、NeRF-W(外观嵌入+可变光照解决天气/曝光变化,推理需调latent)、NeRF++(反向球面背景+双层场景解决远景退化,参数量+30%)、NeRFLiX(退化模拟器+视角混合解决伪影噪声,需合成数据预训练)、BAD-NeRF(运动模糊物理模型解决模糊输入鲁棒,需已知模糊核)、UHDNeRF(隐式体+稀疏点云高频实现8K超高清,显存增加) [17] - 效率优化路线包括InstantNGP(多分辨率哈希编码实现5秒至1分钟训练时间、5 FPS渲染、1.2 GB显存)、TensoRF(CP分解+低秩近似实现10分钟训练、10 FPS、300 MB显存)、NSVF(稀疏体素八叉树实现30分钟训练、15 FPS、500 MB显存)、Zip-NeRF(抗锯齿网格采样实现20分钟训练、20 FPS、400 MB显存)、Lightning NeRF(点云先验初始化实现8分钟训练、10 FPS、600 MB显存) [18] - 稀疏视角合成(小于10张图)方法包括FreeNeRF(频率正则+遮挡正则实现DTU 3-view PSNR 19.92,零额外开销)、FlipNeRF(反射射线过滤实现PSNR 19.55,减少漂浮物)、MixNeRF(混合密度+深度估计实现PSNR 18.95,提升几何)、HG3-NeRF(几何-语义-光度分层实现PSNR 19.37,需语义标签) [20] - 动态场景(视频输入)方法包括Deformable-NeRF(变形场Ψ(x,t)实现D-NeRF PSNR 29.8,正则化扭曲)、NSFF(场景流+静态/动态分解实现PSNR 31.5,可解释运动)、DNeRF(时间编码γ(t)实现PSNR 29.6,无需额外mask)、NeRFPlayer(静态+变形+新区域实现PSNR 30.2,流式播放)、Tensor4D(4D张量分解实现PSNR 31.0,内存下降50%) [21] 3DGS三维高斯溅射(2023-2025) - 基础公式将场景表示为3D高斯集合G={μ_i,Σ_i,α_i,SH_i}{i=1}^M,投影到图像平面后按深度排序做α-混合C=∑{i∈N}c_iα'i∏{j=1}^{i-1}(1-α'_j) [22][23] - 渲染质量优化方法包括Mip-Splatting(3D/2D Mip滤波实现抗锯齿,LPIPS下降10%)、Scaffold-GS(锚点生长-剪枝实现内存下降79%,覆盖提升)、GaussianPro(渐进传播+深度一致实现低纹理PSNR提升1.7 dB)、GSDF(高斯+SDF双分支实现几何误差下降30%)、SuperGS(粗到细+梯度引导分裂实现4K超分实时) [25] - MipNeRF360对比显示3DGS的PSNR 27.21、SSIM 0.815、LPIPS 0.214、FPS 134、内存734 MB;GSDF的PSNR 29.38、SSIM 0.865、LPIPS 0.185;Scaffold-GS的PSNR 28.84、SSIM 0.848、LPIPS 0.220、FPS 102、内存156 MB;SuperGS的PSNR 29.44、SSIM 0.865、LPIPS 0.130、FPS 47、内存123 MB [26] - 效率再升级方法包括LightGaussian(蒸馏+量化+伪视角实现15倍压缩,200 FPS)、CompGS(K-means+游程编码实现存储下降80%)、EAGLES(轻量化编码实现显存下降70%)、SuGaR(表面网格提取实现编辑友好,Poisson重建)、Distwar(寄存器级并行实现GPU原子操作下降60%) [27][28] - 稀疏视角重建(小于10张图)方法包括FSGS(单目深度+邻域上采样实现200 FPS,需预训练DepthNet)、SparseGS(扩散模型补全实现实时360°,生成伪标签)、LM-Gaussian(大模型视觉先验实现迭代细化,视频扩散)、MCGS(多视角一致性修剪实现内存下降50%,渐进剪枝) [29] - 动态重建(视频)方法包括Deformable 3D-GS(变形场实现D-NeRF PSNR 39.51,时序正则)、4D-GS(神经体素+MLP实现PSNR 34.05,分解4D特征)、Gaussian-Flow(双域变形实现PSNR 34.27,显式运动向量)、DN-4DGS(去噪网络实现PSNR 25.59,时空聚合) [30] 三代技术横向对比 - 核心表征:SfM/MVS为点云+Mesh,NeRF为隐式σ(x)+c(x),3DGS为显式高斯集合 [31] - 几何精度:SfM/MVS★★★★☆,NeRF★★★☆☆,3DGS★★★☆☆ [31] - 照片真实感:SfM/MVS★★☆☆☆,NeRF★★★★★,3DGS★★★★☆ [31] - 训练时间:SfM/MVS为小时级,NeRF为小时至天级,3DGS为分钟级 [31] - 渲染FPS:SfM/MVS小于1,NeRF小于1,3DGS为50-300 [31] - 动态扩展:SfM/MVS不支持,NeRF需变形场,3DGS支持时序高斯 [31] - 编辑性:SfM/MVS极难,NeRF隐式不可见,3DGS支持移动/删除/增改 [31] - 硬件门槛:SfM/MVS只需CPU,NeRF需8个高端GPU,3DGS只需1个消费GPU [31] - 代表落地:SfM/MVS用于测绘、文保,NeRF用于影视、直播,3DGS用于AR/VR、自动驾驶 [32] 未来5年技术雷达 - 混合表征:NeRF+3DGS+SDF统一框架,光滑表面用SDF,高频细节用高斯,空洞用NeRF补全 [33] - 端侧实时:INT4量化+TensorRT/ONNX实现手机30 FPS重建 [33] - 生成式重建:Diffusion先验+3DGS实现单图/文本生成可驱动3D资产 [33] - 物理-语义联合:引入光照模型、重力、语义标签实现一键可编辑城市场景 [33] - 多模态融合:LiDAR深度、事件相机、IMU、Thermal同步实现SfM-free鲁棒重建 [33] - 三维重建将走向人人可用、处处实时的普适计算时代,让每部手机、每台车、每副AR眼镜都拥有实时数字化的瑞士军刀 [34]
三维重建综述:从多视角几何到 NeRF 与 3DGS 的演进
自动驾驶之心·2025-09-23 07:34