浙大&理想用全新连续性思路得到显著更好的深度估计效果
理想TOP2·2026-01-09 20:34

核心观点 - 论文提出了一种名为InfiniDepth的全新连续性深度估计方法,该方法能以更少的计算成本,获得显著更好的深度估计效果,特别是在预测细粒度几何细节方面 [1] - 该方法打破了传统深度估计方法受限于固定输出分辨率的束缚,实现了分辨率的解绑,并能生成超高分辨率的精准深度信息 [1][4] 技术原理与创新 - 核心思路转变:InfiniDepth基于神经隐式场,不再将深度图视为由固定像素组成的二维网格,而是将其建模为一个连续的数学函数,从而可以查询图像上任意位置的精确深度值 [1] - 灵感来源:技术灵感融合了3D重建领域的NeRF与PiFU、2D图像领域的LIIF以及光流估计领域的AnyFlow,将连续性表示思想成功迁移至深度图预测 [2][3][4] - 核心三步流程: - 特征提取:使用ViT架构的视觉编码器处理输入图像,构建包含宏观语义与微观细节的特征金字塔,为任意查询点整合周围信息 [5] - 深度解码:通过一个轻量级的MLP解码器,将提取的特征逐点高效地翻译为具体的深度值 [6] - 无限深度查询:针对3D重建进行优化,能根据表面几何智能生成更多查询点,确保新视角合成时3D点云分布均匀,避免空洞 [7] 性能优势与效果 - 更高分辨率的深度图:方法能够生成比传统方法更高质量的深度图 [10] - 更好的点云效果:在3D点云重建方面表现出更优的效果 [11] - 更佳的BEV视角效果:在鸟瞰图视角转换中效果更好 [14] - 卓越的量化表现:在基于《赛博朋克2077》等5款3A游戏构建的新测试集Synth4K上,InfiniDepth在60个统计指标中获得了58个第一和2个第二,全面领先于Marigold-DC、Omni-DC、PriorDA、PromptDA等对比方法 [16] - 例如,在Synth4K-1数据集上,其“Full”类型指标在0.01、0.02、0.04阈值下分别达到78.0、86.7、92.0,远超其他方法 [16] - 在捕捉高频细节方面,其“High-Freq Details”指标同样显著领先,如在Synth4K-4数据集上,对应阈值下的指标分别为45.5、57.5、68.2 [16] 应用价值 - 自动驾驶感知:深度估计越准确,车辆对周围环境的感知能力越强,有助于更好地重建和生成世界模型 [1] - 高精度几何结构提供:在单目RGB输入下可提供相对深度;配合激光雷达或稀疏深度输入时,能生成超高分辨率的精准绝对深度 [1]