AI Day直播 | “像素级完美”深度感知,NeurIPS高分论文解密
自动驾驶之心·2025-11-05 08:04

文章核心观点 - 提出了一种名为Pixel-Perfect Depth (PPD)的单目深度估计新方法,该方法直接在像素空间进行扩散生成,从根源上避免了因VAE压缩导致的伪影和边缘飞点问题,在所有生成式模型中取得了最好的表现[4][7][11] 深度估计行业现有技术瓶颈 - 现有的单目深度估计方法普遍存在边缘飞点问题,这会导致机器人决策错误、三维重建物体轮廓出现鬼影[2] - 判别式模型(如Depth Anything v2, Depth Pro)由于回归损失的平滑倾向,容易在深度突变处产生平均化预测,导致边缘飞点[4] - 生成式模型(如Marigold, Lotus)虽然能通过像素分布建模保留更多细节,但依赖Stable Diffusion的VAE压缩,仍会损失结构锐度与几何保真度,产生大量飞点[4][7] Pixel-Perfect Depth (PPD) 技术方案 - 提出直接在像素空间进行扩散生成的单目深度估计模型,从根源上避免了因VAE压缩导致的伪影问题[4] - 设计了语义引导的扩散Transformer(SP-DiT),在扩散过程中引入来自视觉基础模型的高层语义特征作为提示,有效增强了模型对全局结构的把握与细节恢复能力[4] - 提出语义特征正则化方法,促使外部语义信息与DiT内部表示更好对齐,从而确保训练稳定、收敛可靠[5] 技术成果与影响 - 该方法在所有生成式模型中取得了最好的表现[7] - 该工作是NeurIPS 2025高分论文,被描述为深度估计新范式,实现了像素级完美深度估计[11]