深度估计
搜索文档
浙大&理想用全新连续性思路得到显著更好的深度估计效果
理想TOP2· 2026-01-09 20:34
核心观点 - 论文提出了一种名为InfiniDepth的全新连续性深度估计方法,该方法能以更少的计算成本,获得显著更好的深度估计效果,特别是在预测细粒度几何细节方面 [1] - 该方法打破了传统深度估计方法受限于固定输出分辨率的束缚,实现了分辨率的解绑,并能生成超高分辨率的精准深度信息 [1][4] 技术原理与创新 - **核心思路转变**:InfiniDepth基于神经隐式场,不再将深度图视为由固定像素组成的二维网格,而是将其建模为一个连续的数学函数,从而可以查询图像上任意位置的精确深度值 [1] - **灵感来源**:技术灵感融合了3D重建领域的NeRF与PiFU、2D图像领域的LIIF以及光流估计领域的AnyFlow,将连续性表示思想成功迁移至深度图预测 [2][3][4] - **核心三步流程**: - **特征提取**:使用ViT架构的视觉编码器处理输入图像,构建包含宏观语义与微观细节的特征金字塔,为任意查询点整合周围信息 [5] - **深度解码**:通过一个轻量级的MLP解码器,将提取的特征逐点高效地翻译为具体的深度值 [6] - **无限深度查询**:针对3D重建进行优化,能根据表面几何智能生成更多查询点,确保新视角合成时3D点云分布均匀,避免空洞 [7] 性能优势与效果 - **更高分辨率的深度图**:方法能够生成比传统方法更高质量的深度图 [10] - **更好的点云效果**:在3D点云重建方面表现出更优的效果 [11] - **更佳的BEV视角效果**:在鸟瞰图视角转换中效果更好 [14] - **卓越的量化表现**:在基于《赛博朋克2077》等5款3A游戏构建的新测试集Synth4K上,InfiniDepth在60个统计指标中获得了58个第一和2个第二,全面领先于Marigold-DC、Omni-DC、PriorDA、PromptDA等对比方法 [16] - 例如,在Synth4K-1数据集上,其“Full”类型指标在0.01、0.02、0.04阈值下分别达到78.0、86.7、92.0,远超其他方法 [16] - 在捕捉高频细节方面,其“High-Freq Details”指标同样显著领先,如在Synth4K-4数据集上,对应阈值下的指标分别为45.5、57.5、68.2 [16] 应用价值 - **自动驾驶感知**:深度估计越准确,车辆对周围环境的感知能力越强,有助于更好地重建和生成世界模型 [1] - **高精度几何结构提供**:在单目RGB输入下可提供相对深度;配合激光雷达或稀疏深度输入时,能生成超高分辨率的精准绝对深度 [1]
AI Day直播 | “像素级完美”深度感知,NeurIPS高分论文解密
自动驾驶之心· 2025-11-05 08:04
文章核心观点 - 提出了一种名为Pixel-Perfect Depth (PPD)的单目深度估计新方法,该方法直接在像素空间进行扩散生成,从根源上避免了因VAE压缩导致的伪影和边缘飞点问题,在所有生成式模型中取得了最好的表现[4][7][11] 深度估计行业现有技术瓶颈 - 现有的单目深度估计方法普遍存在边缘飞点问题,这会导致机器人决策错误、三维重建物体轮廓出现鬼影[2] - 判别式模型(如Depth Anything v2, Depth Pro)由于回归损失的平滑倾向,容易在深度突变处产生平均化预测,导致边缘飞点[4] - 生成式模型(如Marigold, Lotus)虽然能通过像素分布建模保留更多细节,但依赖Stable Diffusion的VAE压缩,仍会损失结构锐度与几何保真度,产生大量飞点[4][7] Pixel-Perfect Depth (PPD) 技术方案 - 提出直接在像素空间进行扩散生成的单目深度估计模型,从根源上避免了因VAE压缩导致的伪影问题[4] - 设计了语义引导的扩散Transformer(SP-DiT),在扩散过程中引入来自视觉基础模型的高层语义特征作为提示,有效增强了模型对全局结构的把握与细节恢复能力[4] - 提出语义特征正则化方法,促使外部语义信息与DiT内部表示更好对齐,从而确保训练稳定、收敛可靠[5] 技术成果与影响 - 该方法在所有生成式模型中取得了最好的表现[7] - 该工作是NeurIPS 2025高分论文,被描述为深度估计新范式,实现了像素级完美深度估计[11]
NeurIPS'25高分论文!华科、浙大&小米提出深度估计新范式
自动驾驶之心· 2025-10-16 07:33
文章核心观点 - 提出了一种名为Pixel-Perfect Depth (PPD)的新型单目深度估计模型,该模型直接在像素空间进行扩散建模,旨在从根本上解决现有深度估计方法普遍存在的边缘“飞点”问题,从而生成高质量、边缘锐利、几何稳定的深度图和点云 [2][6][34] 研究动机与问题 - 深度估计是机器人感知、三维重建、AR/VR等应用的核心,但现有方法普遍存在边缘“飞点”问题,这会导致机器人决策错误或三维重建出现鬼影 [2] - 判别式模型(如Depth Anything v2, Depth Pro)因回归损失的平滑倾向,容易在深度突变处产生平均化预测,导致边缘飞点 [7] - 生成式模型(如Marigold, Lotus)虽能通过像素分布建模保留更多细节,但依赖Stable Diffusion的VAE压缩,仍会损失结构锐度与几何保真度,产生大量飞点 [7] 模型创新与核心设计 - 提出Pixel-Perfect Depth (PPD),一种在像素空间直接进行扩散的深度估计模型,消除了由VAE压缩引起的退化伪影 [6] - 提出语义提示扩散Transformer(SP-DiT),在扩散过程中引入视觉基础模型的高层语义特征作为语义提示,以增强模型的全局语义一致性与细节结构建模能力 [9] - 提出级联DiT设计(Cascade DiT Design),采用由粗到细的生成机制,前段使用较大patch尺度建模全局结构,后段使用较小patch尺度捕获细节,以提升计算效率与精度 [19][21] 技术方法详述 - 采用Flow Matching作为深度估计框架的生成核心,通过一阶常微分方程学习从高斯噪声到深度样本的连续变换 [12] - 模型学习预测速度场,训练目标为预测速度与真实速度之间的均方误差 [15] - 在SP-DiT中,将输入图像与噪声样本拼接,经patchify后送入Transformer块处理,并融合从输入图像提取的高层语义特征以保持语义一致性 [16] - 使用L2归一化与多层感知机解决语义特征与DiT token特征的对齐问题 [16] 实验结果与性能 - 在五个公开基准(NYUv2, KITTI, ETH3D, ScanNet, DIODE)上全面超越现有生成式深度估计模型 [14][20] - 在NYUv2数据集上,SP-DiT相比基线DiT将AbsRel指标提升了78%(从22.5降至4.8) [25] - 级联DiT设计在RTX 4090上使推理时间减少了30%(从0.20秒降至0.14秒),同时提升了精度 [26] - 在边缘点云评估中,PPD方法表现最佳,其Chamfer距离为0.08,显著优于Marigold (0.17)、Depth Anything v2 (0.14) 和 Depth Pro (0.12) 等方法 [31] - 模型展现出优异的零样本泛化能力,在仅使用合成深度数据集训练的情况下,能很好地泛化到真实世界的多种场景 [20][22] 消融分析与验证 - 模块级消融实验表明,SP-DiT有效应对了像素空间扩散的挑战,显著提升了精度 [24][25] - 不同视觉基础模型(如DINOv2, VGGT, MAE, Depth Anything v2)的消融分析表明,无论使用哪种预训练视觉编码器,SP-DiT的性能均显著提升,验证了其良好的可迁移性与泛化能力 [18][32][33] - 实验验证了VAE压缩本身会引入“飞点”,导致Chamfer距离显著增大,而PPD模型能有效避免此问题 [28]