DA(全景深度估计器)
搜索文档
混元3D开源端到端全景深度估计器,代码+精选全景数据已上线,在线可玩
量子位· 2025-10-14 12:08
文章核心观点 - 腾讯混元3D团队提出了一种名为DA的全景深度估计器,该模型具备高精度、强大的零样本泛化能力以及完全端到端的特性 [2] - 该技术旨在解决全景深度估计领域因数据稀缺和球面畸变导致的泛化能力差和效率低下的核心挑战 [1][10] - 通过创新的数据扩充引擎和SphereViT模型架构,DA在多个基准测试中实现了最先进的性能,其关键指标AbsRel比最强的零样本方法平均提升38% [23][24] 背景与挑战 - 全景图提供360°×180°的沉浸式视角,是AR/VR和沉浸式图像生成等应用的关键视觉表示 [5][6] - 高质量的全景深度信息对于3D场景重建、物理模拟和世界模型等高级应用至关重要 [6] - 行业面临的主要挑战包括全景深度数据稀缺导致模型零样本泛化能力有限,以及全景图固有的球面畸变使得许多现有方法效率不理想 [1][10] 核心贡献:数据扩充 - 公司开发了一个数据管理引擎,将透视样本转换为高质量的全景数据,以扩展数据规模 [11] - 该引擎通过透视到等距矩形投影和全景外推技术,生成“完整”的全景图,解决了模型因缺乏全局背景和球面畸变差异而性能不佳的问题 [12] - 此引擎创造了约543,000个全景样本,将总样本数从约63,000扩展到约607,000,实现了约10倍的数据扩充,显著提升了模型的零样本性能 [14] 核心贡献:模型架构与训练 - 公司提出了SphereViT模型架构,通过计算球面角并生成球面嵌入,使图像特征能明确关注全景图的球面几何形状,从而有效减轻球面畸变影响 [16][17] - 与标准ViT不同,SphereViT采用交叉注意力机制,将图像特征作为查询,球面嵌入作为键和值,产生可感知畸变的表示 [17] - 模型的训练结合了距离损失和法线损失,前者约束全局精确的距离值,后者促进局部平滑且锐利的几何表面 [18] 实验结果 - 在斯坦福2D3D、Matterport3D和PanoSUNCG等多个数据集上的基准测试表明,DA实现了最先进的性能 [19][23] - 具体而言,DA在关键评估指标上表现优异,例如在斯坦福2D3D数据集上,其AbsRel为7.23,RMSE为14.00,δ1为95.45 [21] - 定性比较显示,由于训练数据量是UniK3D的约21倍,DA展现出更精确的几何预测,并且优于受多视角不一致性限制的MoGev2等方法 [27] 应用场景 - 该技术能有效支持广泛的3D重建相关应用,例如全景多视图重建 [28] - 模型能够根据房屋不同房间的全景图像,重建出全局对齐的3D点云,确保多个全景视图之间的空间一致性 [29]