Workflow
体素对齐
icon
搜索文档
前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息
36氪· 2025-09-29 15:26
技术范式创新 - 提出“体素对齐”框架,取代传统的“像素对齐”策略,在三维空间融合视图信息以解决二维特征难以在三维中精确对齐的问题[1][4] - 核心思路是将多视角的二维特征利用深度图反投影并聚合到统一的三维体素网格中,实现信息在统一坐标系内的聚合与融合[4][6] - 高斯基元数量不再受像素网格束缚,可根据体素的“有无”和场景复杂度进行动态分配,实现更精细且节省资源的表示[1][4][11] 性能优势与实验结果 - 在RealEstate10K数据集上,VolSplat的PSNR为31.30,SSIM为0.941,LPIPS为0.075,各项指标均优于对比基线方法[3] - 在ScanNet数据集上,VolSplat的PSNR为28.41,SSIM为0.906,LPIPS为0.127,性能同样领先[3] - 展现出强劲的零样本泛化能力,在未训练过的ACID数据集上PSNR达到32.65dB[13] - 定性结果显示在边缘、细节和复杂几何处更少的浮空伪影与几何畸变,Gaussians在3D空间的分布更贴近真实场景[15] 技术流程与架构 - 技术流程拆解为三个清晰模块:2D特征与深度估计、像素到体素的lifting与聚合、体素级的特征细化与Gaussian回归[6] - 第一步使用共享图像编码器提取二维特征并回归每视图的稠密深度图[8] - 第二步将像素依据预测深度反投影到世界坐标并离散化为体素,对同一体素内的特征进行聚合[9] - 第三步使用稀疏3D U-Net以残差形式预测体素修正项,实现多尺度几何上下文融合,并仅在占据的体素上回归Gaussian参数[10][12] 应用潜力与行业影响 - 技术为机器人和自动驾驶领域提供更稳定的三维感知输入[17] - 在AR/VR领域有望实现更加流畅、真实的渲染体验[17] - 为三维视觉研究中在统一体素框架下融合多模态数据提供了新途径[17]
前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息
量子位· 2025-09-29 12:57
核心观点 - VolSplat通过体素对齐策略突破像素对齐方法的局限性 显著提升三维重建的视觉质量与几何一致性 并展现出优异的工程化潜力与跨数据集泛化能力 [2][4][15] 技术突破 - 采用体素对齐框架替代像素对齐策略 在三维空间直接融合多视角特征 解决二维特征难以三维对齐及高斯基元数量受像素网格限制的问题 [2][6][7] - 通过三维体素网格实现多视角特征聚合与多尺度细化 天然消除视图间不一致性 并支持高斯基元根据场景复杂度动态分配 [7][9][13] - 在RealEstate10K数据集上PSNR达31.30(较最佳基线27.47提升13.9%) SSIM达0.941(较基线0.889提升5.8%) LPIPS降至0.075(较基线0.114改善34.2%) [5] - 在ScanNet室内数据集上PSNR达28.41(较基线27.45提升3.5%) SSIM达0.906(较基线0.829提升9.3%) LPIPS降至0.127(较基线0.222改善42.8%) [5] 工程化优势 - 模块化设计分为三阶段:2D特征与深度估计 像素到体素的反投影聚合 体素级特征细化与高斯回归 便于分步调试与系统优化 [9][11][12][14] - 支持与外部3D信号(深度图 点云)自然融合 无需复杂投影操作 提升系统扩展性 [13] - 使用稀疏3D U-Net进行多尺度几何上下文融合 以残差形式预测体素修正项 提升计算效率与稳健性 [14] 应用前景 - 在机器人及自动驾驶领域可提供更稳定的三维感知输入 [19] - 在AR/VR领域可实现更流畅真实的渲染体验 显著减少浮空伪影与几何畸变 [17][19] - 在三维视觉研究中为多模态数据融合提供新途径 具备跨数据集零样本泛化能力(ACID数据集PSNR达32.65dB) [15][19]