Workflow
Depth Any Panoramas (DAP)
icon
搜索文档
全景视觉的Depth Anything来了!200万数据打造全场景360°空间智能
具身智能之心· 2025-12-30 09:11
文章核心观点 - 由Insta360研究团队、加州大学圣地亚哥分校、武汉大学及加州大学默塞德分校的研究者共同推出的Depth Any Panoramas (DAP)模型,是首个在大规模多样化数据集上训练的全景度量深度基础模型,它通过构建200万量级的数据引擎和创新的模型设计,有效解决了全景深度估计领域长期存在的数据稀缺与模型泛化能力差的问题,并在多项基准测试中刷新了纪录,为机器人、自动驾驶、VR/AR等空间智能应用提供了强大的几何感知基座 [1] 模型概述与意义 - DAP是一个统一室内外场景的全景度量深度基础模型,其训练数据规模达到200万(2M)级别,通过创新的几何一致性设计,在多种开放世界场景下保持优异效果 [1] - 该模型对由Gemini或DiT-360等合成的全景图以及全景视频流均展现出极佳的预测效果,生成的深度图边缘锐利、逻辑自洽,且具备优秀的帧间一致性与稳定性,是空间AIGC和动态场景处理的理想几何基石 [3] - DAP的出现标志着全景深度估计进入了开放世界时代,能为自动驾驶、机器人避障提供全知视角,并为3D场景重建、VR/AR内容创作提供低成本的深度获取手段 [19] 数据引擎构建 - 为解决全景深度数据标注成本高、规模小(通常仅几万张)的瓶颈,DAP团队构建了规模空前的全景数据引擎,将数据量推至200万级别 [6][7] - 数据构成包括:170万张来自互联网的真实全景图、90K张利用虚幻引擎5模拟器生成的带精准标签的室外航拍数据,以及20万张由DiT-360模型生成的室内全景图,覆盖了极为丰富的真实与合成场景 [12] - 与现有方法相比,DAP的数据集在规模和场景覆盖上具有显著优势,具体对比如下:PanDA数据集为12.2万,DA2为60.6万,Unik3D为69.4万,DAC为80万,而DAP达到200万,其中包含50万室内、150万室外、30万合成和170万真实世界数据 [8] 核心技术:三阶段伪标签管线 - 面对190万张无标签的原始全景图,DAP设计了一个三阶段伪标签精炼管线来挖掘数据价值,层层筛选以淬炼出高质量的监督信号 [9][10] - 第一阶段:使用小规模精准的合成数据训练一个场景不变标注器,确立物理深度基准 [10] - 第二阶段:引入深度质量判别器,从190万预测结果中筛选出最靠谱的60万样本,再次训练标注器以消除合成与真实数据间的纹理鸿沟 [10] - 第三阶段:在汇集了精炼伪标签和原始强监督标签的200万数据集上,训练出最终的DAP基础模型 [11] 模型架构与优化 - DAP采用最新的DINOv3-Large作为特征提取骨干,赋予了模型极强的视觉先验和零样本泛化能力 [16] - 模型设计了距离自适应分支,允许用户根据应用场景切换深度感知范围,有效解决了全景图中远景区域深度分布不均、预测不稳的问题 [16] - 引入了针对全景图等距柱状投影畸变进行补偿的多维几何优化,包括SILog损失、锋利度损失、表面法线损失以及点云一致性损失,确保预测深度图数值准确、边缘锐利、几何结构稳定 [16] 性能表现与基准测试 - 在斯坦福2D3D室内数据集上,DAP的绝对相对误差为0.0921,均方根误差为0.3820,δ1分数为0.9135,性能优于对比方法 [14] - 在Matterport3D室内数据集上,DAP的绝对相对误差为0.1186,均方根误差为0.7510,δ1分数为0.8518 [14] - 在Deep360户外数据集上,DAP的绝对相对误差为0.0659,均方根误差为5.224,δ1分数为0.9525,显著超越此前的DAC和Unik3D模型 [14] - 在更具挑战性的DAP-Test户外数据上,DAP的绝对相对误差为0.0781,均方根误差为6.804,δ1分数为0.9370,同样大幅领先对比基线 [14] - 实测对比显示,DAP在复杂的家具纹理和远处的山脉轮廓预测上均清晰可见,避免了基线模型出现的远景模糊和天空深度误判问题 [14]
全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度
机器之心· 2025-12-29 16:22
模型发布与核心意义 - 研究团队推出了首个在大规模多样化数据集上训练的全景度量深度基础模型Depth Any Panoramas,旨在解决全景深度估计领域长期面临的“数据荒”与“模型泛化差”瓶颈 [2] - 该模型统一了室内外场景,通过200万量级的数据引擎与创新的几何一致性设计,刷新了多项基准测试纪录,在多种开放世界场景下保持优异效果 [2] - DAP的出现标志着全景深度估计正式进入了开放世界时代,为自动驾驶、机器人避障提供更广阔的全知视角,并为3D场景重建、VR/AR内容创作提供了极低成本的深度获取手段 [20] 数据引擎构建 - 为突破数据规模限制,团队构建了规模空前的全景数据引擎,将数据量推向了200万级别 [7] - 数据来源包括:从互联网收集并精细过滤的170万张真实全景图;利用基于虚幻引擎5的AirSim360模拟器生成的9万张高质量室外航拍数据;以及引入DiT360模型生成的20万张室内全景图 [9] - 数据构成覆盖室内场景50万张,室外场景150万张,其中合成数据30万张,真实世界数据170万张 [8] 模型训练与架构设计 - 模型采用三阶段伪标签精炼管线来淬炼高质量监督信号:第一阶段使用小规模精准合成数据训练场景不变标注器;第二阶段引入深度质量判别器,从190万预测结果中筛选出最靠谱的60万样本再次训练;第三阶段在汇集了精炼伪标签和原始强监督标签的200万数据集上完成最终训练 [10][11] - 模型架构采用DINOv3-Large作为特征提取骨干,并设计了距离自适应分支,允许用户根据应用场景切换深度感知范围 [15][16] - 引入了包括SILog损失、锋利度损失、表面法线损失以及点云一致性损失在内的联合优化,专门针对全景图的等距柱状投影进行了畸变补偿 [16] 性能表现 - 在极具挑战性的户外测试集Deep360 / DAP-Test中,DAP的绝对相对误差为0.0781,显著超越了此前DAC的0.3197和Unik3D的0.2517 [17][18] - 在室内场景的零样本测试中,DAP的绝对相对误差大幅下降,在没有进行任何微调的情况下保持了极高的预测一致性 [17] - 模型对由Gemini或DiT-360等合成的全景图展现出了极佳的预测效果,生成的深度图边缘锐利、逻辑自洽,并且在处理全景视频流时具备优秀的帧间一致性与稳定性 [4]