Artificial Intelligence

搜索文档

图像地理定位新突破，缅因大学/谷歌/OpenAI等提出LocDiff框架，实现无需网格与参考库的全球级精准定位

36氪· 2025-11-19 18:14

技术突破 - 联合团队提出“球面谐波狄里克函数”及集成框架LocDiff，通过构建适配球面几何的编码方式与扩散架构，实现了不依赖预设网格或外部图像库的精准定位 [1][2] - 该技术解决了传统方法因地理坐标位于嵌入式黎曼流形而非欧几里得空间所导致的投影畸变问题，以及原始坐标缺乏多尺度空间信息难以支撑复杂分布建模的挑战 [2] - LocDiff模型的核心是SHDD编码-解码框架与条件Siren-UNet架构，其设计的理想位置编码空间需具备单射性和满射性，并满足连续差异度量与稳定性的核心属性 [5][6] 模型性能 - 在Im2GPS3k数据集上，LocDiff在街道级、城市级、区域级、国家级和大陆级的定位准确率分别达到10.9%、34.0%、53.3%、72.5%和85.2% [15] - 在YFCC26k数据集上，LocDiff的对应准确率分别为9.6%、22.8%、37.5%、58.6%和76.8% [15] - 在GWS15k数据集上，LocDiff表现出更强的泛化能力，其大陆级准确率达85.0%，尤其在街道级准确率（2.1%）显著优于GeoCLIP（0.6%）等其他模型 [15] 方法创新 - SHDD编码方案将球面点转化为球面谐波狄拉克函数，再编码为球谐函数系数向量，通过设定最大阶数L可形成(L+1)²维的紧凑表征，为多尺度定位提供灵活支撑 [6] - 该编码空间天然具备密集特性，其差异度量通过反向KL散度量化，并与Wasserstein-2距离存在明确约束关系，从数学上保证了解码稳定性 [7] - 模态搜索解码器利用反向KL散度的模态搜索本质，通过寻找球面函数概率质量最集中的区域完成坐标反推，无需预设球面划分或外部参考图像库 [9] 实验设置 - 训练使用MP16数据集，包含472万张带有精确地理标注的图像 [3] - 测试选用三个全球尺度典型图像地理定位数据集：Im2GPS3k、YFCC26k和GWS15k [3] - 评估设定5个层级：街道级（1公里）、城市级（25公里）、区域级（200公里）、国家级（750公里）和大陆级（2,500公里） [4] 计算效率 - SHDD编码/解码作为确定性闭式操作，时间复杂度接近常数级，空间复杂度为线性 [19] - 训练时SHDD编码可预计算为嵌入查找表，解码通过高效的矩阵乘法和argmax操作实现 [19] - LocDiff在YFCC数据集上仅需约200万步即可收敛，而同类最佳模型需要1,000万步，显著加速了扩散过程收敛 [19] 产业应用 - Google Earth团队利用全球海量街景数据训练的生成模型，实现了图像引导下的精准位置预测，并使街景更新效率提升3倍，覆盖范围扩展至更多偏远地区 [22] - NASA创业者挑战赛获胜者PRISM Intelligence公司开发的地理空间智能平台，运用辐射场技术将二维遥感图像转化为高保真三维数字环境，结合AI驱动算法实现自然语言交互 [21]