NeurIPS'25高分论文!华科、浙大&小米提出深度估计新范式
自动驾驶之心·2025-10-16 07:33

文章核心观点 - 提出了一种名为Pixel-Perfect Depth (PPD)的新型单目深度估计模型,该模型直接在像素空间进行扩散建模,旨在从根本上解决现有深度估计方法普遍存在的边缘“飞点”问题,从而生成高质量、边缘锐利、几何稳定的深度图和点云 [2][6][34] 研究动机与问题 - 深度估计是机器人感知、三维重建、AR/VR等应用的核心,但现有方法普遍存在边缘“飞点”问题,这会导致机器人决策错误或三维重建出现鬼影 [2] - 判别式模型(如Depth Anything v2, Depth Pro)因回归损失的平滑倾向,容易在深度突变处产生平均化预测,导致边缘飞点 [7] - 生成式模型(如Marigold, Lotus)虽能通过像素分布建模保留更多细节,但依赖Stable Diffusion的VAE压缩,仍会损失结构锐度与几何保真度,产生大量飞点 [7] 模型创新与核心设计 - 提出Pixel-Perfect Depth (PPD),一种在像素空间直接进行扩散的深度估计模型,消除了由VAE压缩引起的退化伪影 [6] - 提出语义提示扩散Transformer(SP-DiT),在扩散过程中引入视觉基础模型的高层语义特征作为语义提示,以增强模型的全局语义一致性与细节结构建模能力 [9] - 提出级联DiT设计(Cascade DiT Design),采用由粗到细的生成机制,前段使用较大patch尺度建模全局结构,后段使用较小patch尺度捕获细节,以提升计算效率与精度 [19][21] 技术方法详述 - 采用Flow Matching作为深度估计框架的生成核心,通过一阶常微分方程学习从高斯噪声到深度样本的连续变换 [12] - 模型学习预测速度场,训练目标为预测速度与真实速度之间的均方误差 [15] - 在SP-DiT中,将输入图像与噪声样本拼接,经patchify后送入Transformer块处理,并融合从输入图像提取的高层语义特征以保持语义一致性 [16] - 使用L2归一化与多层感知机解决语义特征与DiT token特征的对齐问题 [16] 实验结果与性能 - 在五个公开基准(NYUv2, KITTI, ETH3D, ScanNet, DIODE)上全面超越现有生成式深度估计模型 [14][20] - 在NYUv2数据集上,SP-DiT相比基线DiT将AbsRel指标提升了78%(从22.5降至4.8) [25] - 级联DiT设计在RTX 4090上使推理时间减少了30%(从0.20秒降至0.14秒),同时提升了精度 [26] - 在边缘点云评估中,PPD方法表现最佳,其Chamfer距离为0.08,显著优于Marigold (0.17)、Depth Anything v2 (0.14) 和 Depth Pro (0.12) 等方法 [31] - 模型展现出优异的零样本泛化能力,在仅使用合成深度数据集训练的情况下,能很好地泛化到真实世界的多种场景 [20][22] 消融分析与验证 - 模块级消融实验表明,SP-DiT有效应对了像素空间扩散的挑战,显著提升了精度 [24][25] - 不同视觉基础模型(如DINOv2, VGGT, MAE, Depth Anything v2)的消融分析表明,无论使用哪种预训练视觉编码器,SP-DiT的性能均显著提升,验证了其良好的可迁移性与泛化能力 [18][32][33] - 实验验证了VAE压缩本身会引入“飞点”,导致Chamfer距离显著增大,而PPD模型能有效避免此问题 [28]