超越Video Depth Anything！视频深度估计新SOTA来了，163倍数据效率解锁生成式先验

研究背景与行业痛点 - 视频深度估计是3D场景理解与自动驾驶等应用的核心基石，但如何在动态视频中兼顾几何细节与时序稳定性是行业长期难题[4] - 传统方法存在“权衡悖论”：生成式模型（如DepthCrafter）依赖随机采样，会引入时序不确定性并导致严重的“几何幻觉”，牺牲几何准确性以追求视觉合理性[8][9] - 判别式模型（如Video Depth Anything, VDA）具有确定性和高效率，但完全依赖密集注释，易陷入“语义歧义”，为克服歧义需要依赖极其庞大且多样化的标注数据进行暴力堆砌[8][9] 技术创新与核心方法 - 公司推出了全新的视频深度估计框架DVD，这是首个将预训练视频扩散模型确定性地适配为“单次前向回归器”的创新框架[5] - 核心创新一：将扩散模型的时间步重塑为“结构锚点”，通过将其固定（如τ=0.5），完美平衡全局稳定性与空间细节，避免几何过度平滑[15] - 核心创新二：引入潜在流形校正（LMR）策略，通过强制对齐预测与目标潜变量的空间梯度和时序光流，恢复被回归抹平的锐利边界和连贯运动动态，解决了“均值塌陷”问题[16] - 核心创新三：基于“全局仿射一致性”特性，设计闭式最小二乘求解器，通过计算全局缩放和平移来无缝对齐滑动窗口，解决了长视频推理中的尺度漂移问题，无需复杂对齐模块[18] 性能表现与效率优势 - 在ScanNet数据集上，DVD取得了5.5的AbsRel（绝对相对误差）准确度，超越了现有最先进的生成式与判别式基线模型[2][22] - 在KITTI数据集上，DVD的AbsRel为6.7，优于VDA的7.2和DepthCrafter的9.9[21] - 在Bonn数据集上，DVD的B-F1分数达到0.422，显著高于ChronoDepth的0.319和VDA的0.325，表明其边界准确性大幅提升[21] - 数据效率惊人：DVD仅使用36.7万帧特定任务训练数据，其性能就超越了使用6000万帧数据的VDA，数据效率提升了163倍[5][24] - 推理效率高：DVD避开了迭代采样的计算瓶颈，保持了与判别式模型VDA相当的推理速度，同时提供更高准确率[24] 应用潜力与行业影响 - DVD成功解决了生成式模型的“几何幻觉”与判别式模型的“语义歧义”这一两难困境，为动态3D场景理解确立了高度可扩展且数据高效的全新范式[28][29] - 框架在长视频推理中展现出卓越的稳定性，其无参数的仿射对齐机制确保了严格的结构持久性和高保真度，能有效处理包含数千帧的复杂长视频[31] - 该工作证明了无需盲目堆砌上千万级别的特定任务标注数据，通过巧妙策略即可高效解锁基础模型中的世界几何先验，对依赖3D感知的行业（如自动驾驶、机器人）具有重要价值[28] - 研究团队已将推理管线、整套训练代码及模型权重完全开源，为社区提供了一个扎实、可复现的基线，有望加速相关技术研发与应用[2][30]