文章核心观点 - 浙江大学、地平线机器人和之江实验室联合提出的 Scal3R 方法,通过将长序列训练、推理及跨块信息更新整合进同一流程,解决了长视频、大规模场景三维重建中因误差累积导致的轨迹漂移和精度下降问题[2][3][4] - Scal3R 的核心创新在于将测试时训练技术转化为一种系统性的方法,确保模型在训练阶段就学习处理长序列,从而在推理时保持局部几何精度与全局一致性,实现了对超万帧、几千米规模场景的稳定重建[4][13][15] 超大规模场景重建的现有问题与挑战 - 当前基于前馈式三维基础模型的方法在处理短序列或小场景时精度不错,但面对大场景、长序列时,计算成本高昂且长程漂移问题被放大[8][9] - 现有应对长序列的两条主要技术路线存在局限:压缩Token会损失细节和长程依赖;基于分块的方法若局部预测不准,块间误差会被放大[10][11][12] - 问题的核心在于训练与测试的序列形态不匹配,模型训练时使用短序列,测试时却需处理数百至上千帧,这种错位导致模型难以维持长程稳定性[10][13] Scal3R 的技术方案与核心模块 - Scal3R 在 VGGT 的视觉几何能力基础上,借助测试时训练技术,构建了一个将长序列训练、推理和跨块信息更新统一起来的流程[15] - 全局上下文记忆模块:由一组轻量、可更新的自适应存储单元组成,用于跨块累积和保留上下文信息,并确保训练与测试采用相同的逐块更新方式[19] - 全局上下文同步机制:利用分布式数据并行的 all-reduce 机制,在不同GPU处理的块之间同步自适应存储单元的梯度更新,确保整个长序列处理机制的一致性[20] - 该方法将长序列切分为重叠块进行并行计算,将计算复杂度从随长度平方增长摊平,并通过融合扩展到整个序列[24] Scal3R 的性能优势与评估结果 - 相机位姿估计精度显著提升:在KITTI数据集上,Scal3R 的绝对轨迹误差为14.55米,相对平移误差为4.61米,相对旋转误差为0.97度,相比基线方法 VGGT-Long 的25.94米、9.67米、1.71度有大幅改进[28][29] - 三维重建质量全面领先:在ETH3D、Oxford Spires、VKITTI2三个数据集上,Scal3R 在衡量点云质量的倒角距离和F1分数指标上均取得最优结果,例如在ETH3D上达到倒角距离0.11和F1分数0.91,优于VGGT-Long的0.24和0.84[31] - 资源与扩展性平衡:方法可在单张RTX 4090 GPU上完成推理,运行时间随序列长度增长基本呈线性,从150帧到990帧,相对位姿误差稳定在0.07到0.08米之间,展示了良好的可扩展性和稳定性[33] 技术突破的深层逻辑与行业意义 - Scal3R 的关键在于将局部几何预测、可更新上下文、长序列训练和测试时同步这四要素整合进同一框架,而非仅仅优化分块拼接策略[23][24] - 该方法重新定位了大规模三维重建问题的重点,强调模型必须在训练阶段就学习处理长序列,才能保证在测试时的稳定表现,这为长视频场景理解和三维基础模型向公里级场景扩展提供了新思路[13][34]
公里级场景也能稳住了,国产团队把长视频3D重建又往前推了一步
机器之心·2026-05-06 14:04