流式3D重建 - 财报，业绩电话会，研报，新闻

流式3D重建

搜索文档

量子位· 2026-04-16 19:45

金磊发自凹非寺量子位 | 公众号 QbitAI 刚刚，机器人的视觉，又达到了一个新的Level。因为现在，一个新模型已经实现了无尽流：看∞帧视频可以稳定实时3D重建！来，感受一下这个feel：或许有小伙伴要问了，这有啥用啊？简单来说啊，若是这个模型放到扫地机器人身上，那它就能边打扫边认清家里的3D结构；若是放到自动驾驶身上，那就是边开车边算清路面情况。有一种火影里宁次白眼的那种味道了。（注：白眼的能力是360°无死角透视+极远的洞察力+看穿查克拉流动；对应这个模型的全方位空间感知、长序列不丢失细节的特点。）不同于此前具身智能视觉的3D重建，这一次，LingBot-Map做到了快、准、狠—— 打破了 "既要实时、又要记路、还要省显存" 的不可能三角。 △ 图源由AI生成这，就是蚂蚁灵波最新开源的 LingBot-Map ，一个专为纯自回归的流式3D重建而打造的基础模型。这种Level的流式3D重建，并不简单在聊"流式3D重建为什么难"这个话题之前，咱们且需要先分清两个概念：普通3D重建和流式3D重建。因为它俩可以说是完全两个维度的技术。先来看传统离线3 ...

具身智能

流式3D重建

Artificial Intelligence

LingBot-Map

具身智能

流式3D重建

Artificial Intelligence

LingBot-Map

破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

量子位· 2026-03-24 12:59

文章核心观点 - 由香港科技大学（广州）与地平线等机构联合提出的LongStream模型，旨在解决长序列、严格在线、实时流式3D重建的长期难题，其核心价值在于将3D视觉从“离线重建”范式推进到“在线世界建模”的新阶段，为自动驾驶、机器人、AR/VR及具身智能等需要持续、稳定、实时更新三维世界模型的应用提供了可行的技术路径 [2][21][22] 技术挑战与问题定义 - 在真实长视频、严格在线、未来帧不可见的设定下，现有3D重建方法面临序列越长精度越易退化、尺度漂移、缓存累积导致推理稳定性下降、内存与延迟随序列增长恶化甚至内存溢出（OOM）等核心挑战 [2][4] - 现有自回归模型处理长序列时存在三大问题：1) 对第一帧锚定的依赖导致训练与推理错位，外推误差被不断放大；2) 注意力陷阱（Attention Sink），模型过度关注首帧而忽视对重建更关键的时空邻近帧；3) KV cache缓存污染导致表征污染、记忆饱和和几何漂移 [5][6] 核心技术创新 - LongStream提出了一种全新的“Gauge-decoupled流式视觉几何架构”，其三大创新点包括：1) 摆脱“第一帧锚定”，改为预测相对关键帧的位姿，将长程外推问题转化为更稳定的局部任务；2) 采用“缓存一致训练”，在训练阶段显式传递并裁剪缓存，使训练上下文贴近真实流式推理，缩小训练与推理鸿沟；3) 结合“周期性缓存刷新”，定期边缘化陈旧上下文，清理退化记忆，抑制长期饱和与几何漂移 [10][11] - 该架构使系统能够在关键帧处刷新缓存而不破坏重建一致性，从而更接近“无限流”处理能力 [11] 性能表现与实验结果 - 模型实现了18 FPS的流式自回归推理速度，支持公里级超长序列和上千帧序列的稳定重建，并实现稳定的米制尺度重建 [4][16] - 在KITTI数据集多个长序列测试中，LongStream的平均绝对轨迹误差（ATE）为51.90，显著优于对比方法（如FastVGGT的189.29、TTT3R的177.73等）[17] - 在KITTI序列00（长度3.7公里）上，LongStream的ATE为92.55，远低于FastVGGT的705.39和CUT3R的185.89 [17] - 在其他基准测试中同样表现强劲：在TUM-RGBD数据集上ATE为0.076（优于FastVGGT的0.418），在Waymo数据集上ATE为0.737（优于FastVGGT的1.281）[17] - 相比基线方法，LongStream在千帧级流式测试中资源占用更加稳定，显存占用未随序列长度快速增长 [16] 应用场景与行业意义 - 该技术满足了机器人、自动驾驶、AR眼镜及具身智能（Embodied AI）等应用对系统能长期稳定、实时更新、资源可控的共同要求 [19][20] - 其意义在于展示了一条更接近真实部署约束的3D视觉范式，即从“一次性重建一个场景”转变为“持续维护一个世界”，成为“在线世界建模引擎”[18][21] - 该工作将流式3D重建推进到了严格在线、单卡友好、上千帧稳定、公里级可扩展的新阶段，为相关行业提供了值得持续关注的技术路径 [22]

3D视觉

流式3D重建

在线世界建模

Artificial Intelligence

Artificial Intelligence

LongStream