3D Reconstruction
搜索文档
Feed-Forward 3D综述:3D视觉进入“一步到位”时代
自动驾驶之心· 2025-11-01 00:03
文章核心观点 - 一篇由12所顶尖学术机构联合撰写的综述论文,系统总结了2021至2025年间快速前馈3D重建与视图合成领域的技术进展 [6] - 该领域正经历从传统的、依赖每个场景反复优化的范式,向基于AI的、具备泛化能力的快速前馈范式转变 [2] - 论文首次建立了完整的快速前馈3D方法谱系与时间线,并划分了五类主流架构 [6][8] 技术架构分类与演进 - **基于NeRF的模型**:从PixelNeRF开始,探索“条件式NeRF”,发展出1D、2D和3D特征方法三大技术分支 [8] - **点图模型**:由DUSt3R引领,直接在Transformer中预测像素对齐的3D点云,无需相机姿态输入 [10] - **3D高斯泼溅模型**:将场景表示为高斯点云,通过神经预测器直接输出高斯参数,分为基于图像和基于体积的表示方法 [11][13] - **网格/占用/SDF模型**:结合Transformer与Diffusion模型进行传统几何建模 [14] - **无3D表示模型**:直接学习从多视图到新视角的映射,不再依赖显式三维表示 [14] 多样化任务与应用场景 - 应用覆盖无姿态重建与视图合成、动态4D重建与视频扩散、SLAM与视觉定位、3D感知的图像与视频生成、数字人建模以及机器人操作与世界模型等多个前沿方向 [19] - 这些技术使得“从单张图像生成整个场景”成为可能,极大地拓展了3D技术的应用边界 [15] 基准数据集与评测体系 - 论文收录了超过30个常用3D数据集,涵盖对象级、室内、室外、静态与动态场景,数据规模庞大,例如Objaverse-XL包含10.2M个对象,MVImgNet包含219,188个对象 [20][21] - 总结了PSNR/SSIM/LPIPS(图像质量)、Chamfer Distance(几何精度)、AUC/RTE/RRA(相机姿态)等标准指标体系,为模型比较提供统一基线 [20] 量化性能对比 - 在相机姿态估计任务上,TT方法在Sintel数据集上的绝对轨迹误差低至0.074,在RealEstate10K数据集上的RRA@30指标达到99.99% [22] - 在点图重建任务上,VGGT方法在7-Scenes数据集上的精度均值为0.087,法向一致性中位数达到0.890 [23] - 在视频深度估计任务上,PE-Fields方法在Tanks-and-Temples数据集上的PSNR达到22.12,SSIM达到0.732,LPIPS低至0.174 [24] 未来挑战与发展趋势 - 当前面临四大开放问题:多模态数据不足、重建精度待提升、自由视角渲染难度高以及长上下文推理存在显存瓶颈 [25][26] - 未来趋势将聚焦于Diffusion Transformers与长程注意力结构、可扩展的4D记忆机制、多模态大规模数据集构建以及同时具备生成和重建能力的模型开发 [26]
自动驾驶论文速递!VLA、世界模型、强化学习、轨迹规划等......
自动驾驶之心· 2025-10-18 12:00
DriveVLA-W0:世界模型增强自动驾驶VLA - 提出DriveVLA-W0训练范式,通过世界建模预测未来图像提供密集自监督信号,解决VLA模型“监督不足”瓶颈,增强泛化能力与数据扩展性[2][6] - 在NAVSIM v1/v2基准上分别达到93.0 PDMS与86.1 EPDMS,推理延迟降至基线VLA的63.1%[2][6] - 设计轻量级MoE动作专家,将推理延迟降至基线VLA的63.1%[6] - 在70M帧大规模内部数据集上验证数据缩放律放大效应,VQ模型ADE降低28.8%,ViT模型碰撞率降低15.9%[6][9] - 在NAVSIM v1基准上PDMS达93.0%,单摄像头优于多传感器竞品[6][9] CoIRL-AD:协同竞争式模仿强化学习框架 - 提出竞争性双策略框架CoIRL-AD,将模仿学习与强化学习结合在潜在世界模型中[13][15] - 在nuScenes数据集上碰撞率降低18%,在Navsim基准上PDMS得分达88.2[13][15] - 利用潜在世界模型实现基于“想象”的模拟,将强化学习融入端到端自动驾驶框架,无需依赖外部模拟器[15] - 设计基于竞争的学习机制,实现IL与RL的联合训练与结构化互动,避免梯度冲突[15] PAGS:优先级自适应高斯泼溅动态场景重建 - 提出Priority-Adaptive Gaussian Splatting框架,通过语义引导剪枝与正则化实现高质量实时3D重建[23][27] - 在Waymo数据集上达到PSNR 34.63,SSIM 0.933,渲染速度353 FPS,训练时间仅1小时22分钟[23][27][30] - 基于静态语义分数和动态梯度贡献分数的混合重要性度量,简化非关键场景元素,保留安全关键目标细粒度细节[27] - 模型尺寸530 MB,显存占用6.1 GB,优于EmerNeRF、StreetGS等主流方法[27][30] Flow Planner:流匹配自动驾驶规划 - 基于流匹配和交互行为建模技术,在nuPlan Val14基准测试中达到90.43分,是首个无需先验知识突破90分的学习型方法[34][38][40] - 在interPlan基准测试中比Diffusion Planner提升8.92分[34][40] - 提出细粒度轨迹分词技术,将轨迹分解为含重叠区域片段,解决全轨迹建模复杂度高问题[35][40] - 构建交互增强的时空融合架构,通过自适应层归一化将异质特征投影到统一latent空间[40] CymbaDiff:草图驱动3D语义场景生成 - 提出CymbaDiff模型,结合圆柱Mamba结构与空间扩散机制,实现基于草图与卫星图像的3D语义城市场景生成[44][47] - 在Sketch-based SemanticKITTI上FID达40.74,比现有方法提升约16分[44][47] - 构建首个面向3D户外语义场景生成的大规模草图驱动基准数据集SketchSem3D[47] - 设计圆柱曼巴扩散模型,显式编码圆柱连续性与垂直层级,提升空间连贯性[47] DriveCritic:VLM自动驾驶评估框架 - 提出DriveCritic框架,利用视觉语言模型进行上下文感知的自动驾驶评估,在人类偏好对齐任务中达到76.0%准确率[55][57][58] - 揭示现有规则化指标缺乏上下文感知能力与人类对齐性的缺陷[57] - 构建DriveCritic数据集,从NAVSIM采样5730个轨迹对,标注pairwise人类偏好[57] - 采用监督微调加强化学习微调两阶段训练,使模型具备跨视觉符号上下文的轨迹判优能力[57][58]