多模态Agent
搜索文档
入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习
量子位· 2026-06-22 10:56
允中 发自 凹非寺 量子位 | 公众号 QbitAI 在机器人、自动驾驶、AR等真实场景中, 空间理解 从来都不是"看一眼图像"就能解决的问题。 相机持续移动、视角不断变化、目标时隐时现,空间信息从来不是明确且集中的,而是往往分散在长时间视频流里,模型不仅要"看得 见",更要 "记得住、连得起来、还能持续更新" 。 这使得 流式空间智能 成为多模态大模型迈向真实世界应用的一道关键门槛。 这篇文章的出发点是思考: 多模态Agent如何在动态变化的世界中持续更新自己,而不是每次都像第一次看见世界。 真实世界不是一张静态图片,也不是一段固定长度的视频,而是 一段持续展开的经验流 。 正如人理解空间,也不是一次性看完整个房间,而是在移动、观察、遗忘、修正中,逐渐形成稳定的空间记忆。 近日,由 清华大学博士生刘芳甫 担任一作,联合多位研究者共同完成的 Spatial-TTT ,被计算机视觉顶级会议ECCV 2026正式接收。 对于一项工作而言,入选ECCV不只是多了一个会议标签,也意味着它需要在研究问题、方法创新与实验完整性上接受严格的同行评审。 Spatial-TTT瞄准的,正是多模态模型从"看懂画面"迈向"理解真实 ...