空间智能新高度:港科大谭平团队SAIL-Recon突破万帧级图像大规模3D场景重建Transformer
机器之心·2025-09-08 09:21
技术突破 - 推出SAIL-Recon方法 通过锚点图建立全局隐式表征 突破VGGT基础模型对大规模视觉定位与3D重建的处理能力瓶颈 实现万帧级场景表征抽取与定位重建[2][7] - 采用统一Transformer架构同时处理场景表征抽取与定位重建任务 在TUM-RGBD、CO3Dv2、Tanks & Temples数据集上相机位姿估计与新视角合成精度显著超越现有方法[10][20] - 使用50-100张代表性锚点图像构建全局隐式场景表征 大幅降低计算复杂度和内存需求 支持处理数千帧规模图像[15][16] 性能表现 - 在Tanks and Temples数据集所有非优化方法中取得最强性能 RRA@5达70.4 RTA@5达74.7 ATE仅0.008 注册成功率100%[22] - 新视角合成PSNR指标达19.5 显著优于ACE0的16.9和DROID-SLAM的18.1 在Francis场景PSNR达21.8[25] - 处理时间仅需3-3.5分钟 远快于GLOMAP的1977秒和ACE0的2499秒 实现速度与精度的双重突破[22][25] 应用前景 - 作为3D场景表征与重建基础模型 可应用于任意场景的大规模3D重建和空间漫游[2] - 为机器人3D空间感知、自主空间定位与导航提供基础技术支撑 具备具身智能领域应用潜力[2][29] - 通过光影焕像公司推进技术在游戏、影视和具身智能等行业场景的商业化应用[2]