LoGeR
搜索文档
OpenClaw带火AI记忆,DeepMind用混合记忆把3D重建拉到近2万帧
机器之心· 2026-03-15 09:20
文章核心观点 - 谷歌DeepMind与加州大学伯克利分校联合提出了一种名为LoGeR的新型前馈3D重建架构,该架构通过创新的混合记忆模块,成功解决了现有模型在处理长序列视频(如数千至两万帧)时面临的上下文壁垒和数据壁垒问题,实现了在无需后期优化的情况下,将密集3D重建扩展到极长序列,并在多个基准测试中性能显著超越现有方法[2][4][24][25] 技术背景与现有挑战 - 现有前馈3D重建模型(如DUSt3R、MonST3R、VGGT)依赖短时上下文窗口(几十到一百多帧),难以有效建模长序列(数千到数万帧)中的依赖关系[1] - 主要障碍包括架构上双向注意力的二次计算复杂度限制,以及训练数据主要来自短时上下文“气泡”,导致模型无法在推理时整合长距离信息[2] LoGeR架构创新 - 核心创新是提出一个**基于学习的混合记忆模块**,该系统结合了参数化的测试时训练记忆模块和非参数化的滑动窗口注意力机制[2] - **测试时训练记忆模块**:用于锚定全局坐标框架,防止尺度漂移,通过概念层面压缩重要但冗余的几何信息来实现长距离、有损的信息传播[13] - **滑动窗口注意力机制**:关注相邻块的帧,建立无损的信息传递通道,确保跨块边界的细粒度几何对齐,其计算和内存效率高,仅在网络部分深度(四层)插入[14][15] - 两种机制互补:TTT提供可扩展的长距离记忆,SWA确保相邻块间的高精度一致性[16] 训练方法与数据策略 - 为克服“数据壁垒”,研究构建了训练数据集,重点增加了大规模场景数据集(如TartanAirV2)的比例,为学习有效的几何压缩提供必要的长时信号[19] - 采用**渐进式课程学习策略**稳定训练:从48帧序列分4块开始,逐步增加块密度至12块,最后利用H200 GPU将上下文长度扩展到128帧并逐步增加至20块[21] - LoGeR模型从第一阶段的模型开始,集成了前馈对齐步骤,并在后续课程中进行微调[22] 性能评估结果 - 在KITTI基准测试中,LoGeR将绝对轨迹误差降低了**超过74%**,其平均性能甚至超过了当前最强的基于优化的方法VGGT-Long,优势达到**32.5%**[4][24] - 在开环场景(如KITTI序列01、03、04、08和10)中,LoGeR无需依赖回环检测即可有效抑制长序列中累积的漂移误差[24] - 在重新设计的VBR数据集(包含最多19000帧的序列)上,LoGeR明显超越先前的前馈方法,能在长达2万帧的超长序列中保持稳定的全局尺度,而基线方法出现明显尺度漂移[4][25] - 在短序列评测(如7-Scenes、ScanNetV2和TUM-Dynamics数据集)中,LoGeR及其基线方法在3D重建质量和相机位姿估计精度上均显著优于现有亚二次复杂度方法[27][30]