研究背景与行业痛点 - 视频深度估计是3D场景理解与自动驾驶等应用的核心基石,但如何在动态视频中兼顾几何细节与时序稳定性是行业长期难题[4] - 传统方法存在“权衡悖论”:生成式模型(如DepthCrafter)依赖随机采样,会引入时序不确定性并导致严重的“几何幻觉”,牺牲几何准确性以追求视觉合理性[8][9] - 判别式模型(如Video Depth Anything, VDA)具有确定性和高效率,但完全依赖密集注释,易陷入“语义歧义”,为克服歧义需要依赖极其庞大且多样化的标注数据进行暴力堆砌[8][9] 技术创新与核心方法 - 公司推出了全新的视频深度估计框架DVD,这是首个将预训练视频扩散模型确定性地适配为“单次前向回归器”的创新框架[5] - 核心创新一:将扩散模型的时间步重塑为“结构锚点”,通过将其固定(如τ=0.5),完美平衡全局稳定性与空间细节,避免几何过度平滑[15] - 核心创新二:引入潜在流形校正(LMR)策略,通过强制对齐预测与目标潜变量的空间梯度和时序光流,恢复被回归抹平的锐利边界和连贯运动动态,解决了“均值塌陷”问题[16] - 核心创新三:基于“全局仿射一致性”特性,设计闭式最小二乘求解器,通过计算全局缩放和平移来无缝对齐滑动窗口,解决了长视频推理中的尺度漂移问题,无需复杂对齐模块[18] 性能表现与效率优势 - 在ScanNet数据集上,DVD取得了5.5的AbsRel(绝对相对误差)准确度,超越了现有最先进的生成式与判别式基线模型[2][22] - 在KITTI数据集上,DVD的AbsRel为6.7,优于VDA的7.2和DepthCrafter的9.9[21] - 在Bonn数据集上,DVD的B-F1分数达到0.422,显著高于ChronoDepth的0.319和VDA的0.325,表明其边界准确性大幅提升[21] - 数据效率惊人:DVD仅使用36.7万帧特定任务训练数据,其性能就超越了使用6000万帧数据的VDA,数据效率提升了163倍[5][24] - 推理效率高:DVD避开了迭代采样的计算瓶颈,保持了与判别式模型VDA相当的推理速度,同时提供更高准确率[24] 应用潜力与行业影响 - DVD成功解决了生成式模型的“几何幻觉”与判别式模型的“语义歧义”这一两难困境,为动态3D场景理解确立了高度可扩展且数据高效的全新范式[28][29] - 框架在长视频推理中展现出卓越的稳定性,其无参数的仿射对齐机制确保了严格的结构持久性和高保真度,能有效处理包含数千帧的复杂长视频[31] - 该工作证明了无需盲目堆砌上千万级别的特定任务标注数据,通过巧妙策略即可高效解锁基础模型中的世界几何先验,对依赖3D感知的行业(如自动驾驶、机器人)具有重要价值[28] - 研究团队已将推理管线、整套训练代码及模型权重完全开源,为社区提供了一个扎实、可复现的基线,有望加速相关技术研发与应用[2][30]
超越Video Depth Anything!视频深度估计新SOTA来了,163倍数据效率解锁生成式先验
机器之心·2026-03-29 09:29