前馈3D高斯泼溅新方法，浙大团队提出“体素对齐”，直接在三维空间融合多视角2D信息

技术范式创新 - 提出“体素对齐”框架，取代传统的“像素对齐”策略，在三维空间融合视图信息以解决二维特征难以在三维中精确对齐的问题[1][4] - 核心思路是将多视角的二维特征利用深度图反投影并聚合到统一的三维体素网格中，实现信息在统一坐标系内的聚合与融合[4][6] - 高斯基元数量不再受像素网格束缚，可根据体素的“有无”和场景复杂度进行动态分配，实现更精细且节省资源的表示[1][4][11] 性能优势与实验结果 - 在RealEstate10K数据集上，VolSplat的PSNR为31.30，SSIM为0.941，LPIPS为0.075，各项指标均优于对比基线方法[3] - 在ScanNet数据集上，VolSplat的PSNR为28.41，SSIM为0.906，LPIPS为0.127，性能同样领先[3] - 展现出强劲的零样本泛化能力，在未训练过的ACID数据集上PSNR达到32.65dB[13] - 定性结果显示在边缘、细节和复杂几何处更少的浮空伪影与几何畸变，Gaussians在3D空间的分布更贴近真实场景[15] 技术流程与架构 - 技术流程拆解为三个清晰模块：2D特征与深度估计、像素到体素的lifting与聚合、体素级的特征细化与Gaussian回归[6] - 第一步使用共享图像编码器提取二维特征并回归每视图的稠密深度图[8] - 第二步将像素依据预测深度反投影到世界坐标并离散化为体素，对同一体素内的特征进行聚合[9] - 第三步使用稀疏3D U-Net以残差形式预测体素修正项，实现多尺度几何上下文融合，并仅在占据的体素上回归Gaussian参数[10][12] 应用潜力与行业影响 - 技术为机器人和自动驾驶领域提供更稳定的三维感知输入[17] - 在AR/VR领域有望实现更加流畅、真实的渲染体验[17] - 为三维视觉研究中在统一体素框架下融合多模态数据提供了新途径[17]