流式3D重建
搜索文档
刚刚,机器人练成了宁次的「白眼」:∞帧画面边看边3D重建我们的世界!
量子位· 2026-04-16 19:45
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,机器人的视觉,又达到了一个新的Level。 因为现在,一个新模型已经实现了 无尽流 :看∞帧视频可以稳定实时3D重建! 来,感受一下这个feel: 或许有小伙伴要问了, 这有啥用啊? 简单来说啊,若是这个模型放到 扫地机器人 身上,那它就能边打扫边认清家里的3D结构;若是放到 自动驾驶 身上,那就是边开车边算清 路面情况。 有一种火影里宁次 白眼 的那种味道了。 (注:白眼的能力是360°无死角透视+极远的洞察力+看穿查克拉流动;对应这个模型的全方位空间感知、长序列不丢失细节的特点。) 不同于此前具身智能视觉的3D重建,这一次,LingBot-Map做到了快、准、狠—— 打破了 "既要实时、又要记路、还要省显存" 的不可能三角。 △ 图源由AI生成 这,就是 蚂蚁灵波 最新开源的 LingBot-Map ,一个专为 纯自回归的流式3D重建 而打造的基础模型。 这种Level的流式3D重建,并不简单 在聊"流式3D重建为什么难"这个话题之前,咱们且需要先分清两个概念:普通3D重建和流式3D重建。 因为它俩可以说是完全两个维度的技术。 先来看 传统离线3 ...
破解在线长时序重建难题!纯视觉、单卡实时的公里级流式3D重建|CVPR'26
量子位· 2026-03-24 12:59
文章核心观点 - 由香港科技大学(广州)与地平线等机构联合提出的LongStream模型,旨在解决长序列、严格在线、实时流式3D重建的长期难题,其核心价值在于将3D视觉从“离线重建”范式推进到“在线世界建模”的新阶段,为自动驾驶、机器人、AR/VR及具身智能等需要持续、稳定、实时更新三维世界模型的应用提供了可行的技术路径 [2][21][22] 技术挑战与问题定义 - 在真实长视频、严格在线、未来帧不可见的设定下,现有3D重建方法面临序列越长精度越易退化、尺度漂移、缓存累积导致推理稳定性下降、内存与延迟随序列增长恶化甚至内存溢出(OOM)等核心挑战 [2][4] - 现有自回归模型处理长序列时存在三大问题:1) 对第一帧锚定的依赖导致训练与推理错位,外推误差被不断放大;2) 注意力陷阱(Attention Sink),模型过度关注首帧而忽视对重建更关键的时空邻近帧;3) KV cache缓存污染导致表征污染、记忆饱和和几何漂移 [5][6] 核心技术创新 - LongStream提出了一种全新的“Gauge-decoupled流式视觉几何架构”,其三大创新点包括:1) 摆脱“第一帧锚定”,改为预测相对关键帧的位姿,将长程外推问题转化为更稳定的局部任务;2) 采用“缓存一致训练”,在训练阶段显式传递并裁剪缓存,使训练上下文贴近真实流式推理,缩小训练与推理鸿沟;3) 结合“周期性缓存刷新”,定期边缘化陈旧上下文,清理退化记忆,抑制长期饱和与几何漂移 [10][11] - 该架构使系统能够在关键帧处刷新缓存而不破坏重建一致性,从而更接近“无限流”处理能力 [11] 性能表现与实验结果 - 模型实现了18 FPS的流式自回归推理速度,支持公里级超长序列和上千帧序列的稳定重建,并实现稳定的米制尺度重建 [4][16] - 在KITTI数据集多个长序列测试中,LongStream的平均绝对轨迹误差(ATE)为51.90,显著优于对比方法(如FastVGGT的189.29、TTT3R的177.73等)[17] - 在KITTI序列00(长度3.7公里)上,LongStream的ATE为92.55,远低于FastVGGT的705.39和CUT3R的185.89 [17] - 在其他基准测试中同样表现强劲:在TUM-RGBD数据集上ATE为0.076(优于FastVGGT的0.418),在Waymo数据集上ATE为0.737(优于FastVGGT的1.281)[17] - 相比基线方法,LongStream在千帧级流式测试中资源占用更加稳定,显存占用未随序列长度快速增长 [16] 应用场景与行业意义 - 该技术满足了机器人、自动驾驶、AR眼镜及具身智能(Embodied AI)等应用对系统能长期稳定、实时更新、资源可控的共同要求 [19][20] - 其意义在于展示了一条更接近真实部署约束的3D视觉范式,即从“一次性重建一个场景”转变为“持续维护一个世界”,成为“在线世界建模引擎”[18][21] - 该工作将流式3D重建推进到了严格在线、单卡友好、上千帧稳定、公里级可扩展的新阶段,为相关行业提供了值得持续关注的技术路径 [22]