文章核心观点 - 北京智源人工智能研究院与清华大学智能产业研究院提出了一种创新的多尺度双边网格框架,旨在解决自动驾驶三维场景重建中因光照变化、视角差异和动态物体导致的光度不一致与几何不准确问题 [5] - 该方法统一了外观编码的全局调整能力和双边网格的像素级调整能力,通过从粗到细的三层网格架构,实现了对场景从全局光照到局部细节的逐级优化,显著提升了重建的几何精度与视觉质量 [11][13][15] - 在Waymo、NuScenes、Argoverse和PandaSet等多个主流自动驾驶数据集上的实验表明,该方法在多项关键指标上超越了现有技术,尤其在复杂动态和极端光照场景下表现出更强的鲁棒性 [5][19][27] - 该框架可作为即插即用模块集成到其他先进场景重建模型中,通用性强,能为其带来显著的性能提升 [25] - 该研究已被人工智能顶级会议NeurIPS 2025接收,标志着其在学术上获得了高度认可 [6] 主要方法 - 研究采用高斯溅射技术对驾驶场景进行建模,将场景分解为天空、静态背景和动态物体进行独立建模 [14] - 核心创新在于提出了一个三层次的多尺度双边网格架构,用于对初步渲染图像进行色彩校正 [15] - 粗层级:使用小型网格捕捉并校正场景级别的全局光照和色调偏差 [15] - 中层级:使用中等尺寸网格调整区域性光影变化,如大块阴影或光斑 [15] - 精细层级:使用高分辨率网格进行像素级精细微调,恢复物体局部细节和材质 [15] - 采用了从粗到细的层次化光度优化策略,不同层级使用不同的学习率,并引入了两种正则化损失以确保学习效果 [16][17] - 循环正则化损失:鼓励学到的色彩变换可逆,防止产生伪影 [16] - 自适应总变分正则化:惩罚网格内部特征的剧烈变化,使颜色变换更平滑,减少噪声伪影 [17] - 通过一个结合了重建损失、几何损失及正则化项的复合损失函数来训练整个框架 [18] 实验结果 - 几何精度提升显著:在Waymo数据集上,倒角距离从基准模型OmniRe的1.378降低至0.989,提升了28.2% [21]。在NuScenes数据集上,倒角距离从1.458降低至1.161 [21] - 外观一致性指标优异:在NuScenes数据集上,峰值信噪比达到27.69,优于OmniRe的26.37;结构相似性指数达到0.847,优于OmniRe的0.837 [23] - 作为增强模块通用性强:将核心模块集成到ChatSim和StreetGS模型中,能带来显著提升 [25] - ChatSim的重建峰值信噪比从25.10提升至27.04,几何误差从1.557降低至1.236 [26] - StreetGS的重建峰值信噪比从25.74提升至27.90,几何误差从1.604降低至1.272 [26] - 在极端场景下表现稳健:在夜间、极端光照、反射、雨天等困难条件下,模型表现更加稳健,能更好地恢复物体细节并减少几何误差与色偏 [27][33] - 定性评估显示细节优势:与基线方法相比,该方法在处理高光区域时能抑制过曝、还原纹理;能生成更清晰的动态物体边缘,减轻运动模糊;能生成更连贯完整的被遮挡物体几何结构;在低光照场景下能更好地提亮暗部细节并避免噪点 [35]
NeurIPS 2025|智源&清华带来自驾重建新SOTA!
自动驾驶之心·2025-12-07 10:05