入选ECCV 2026！清华开源空间模型打败Gemini：真正的空间智能是在世界变化中持续学习

文章核心观点 - 清华大学研究团队提出的Spatial-TTT模型，通过“边看、边更新、边‘长出’空间记忆”的流式空间智能方法，解决了多模态模型理解动态、长时程真实世界空间的核心难题[3][11][45] - 该模型仅用20亿参数，在多项空间智能基准测试中超越了GPT-5、Gemini-3-pro等闭源模型，并能处理最长120分钟的视频流[10] - 该研究标志着多模态模型从“保存更多内容”向“形成持续的世界状态”的范式转变，为机器人、自动驾驶等需要长期连续运行的物理智能体系统提供了关键技术路径[45][48][50] 技术挑战与解决方案 - 核心挑战：真实世界的空间信息分散在长时间视频流中，模型需要“记得住、连得起来、还能持续更新”，而不仅是“看懂画面”[1][12] - 现有方法局限：传统方法局限于单张图像或短视频片段，难以扩展到几十分钟甚至几小时的真实应用场景，且缺乏在推理过程中持续吸收新观察、组织成空间记忆的机制[13] - Spatial-TTT的核心理念：将模型参数本身变成动态记忆，利用测试时训练（TTT）技术，让模型在处理视频流时进行在线参数更新，以累积跨时间的3D空间证据[15][16] 模型核心设计 - 设计一：混合式TTT架构：在解码器中以3:1的比例交错插入TTT层与标准自注意力锚定层，其中75%的TTT层负责写入长程记忆，25%的锚定层维持模型原有的语义理解和跨模态推理能力，兼顾了长视频处理与预训练知识[21][32] - 设计二：空间预测机制：在TTT分支中为Q/K/V加入轻量级3D时空卷积，使模型学习“时空上下文到时空上下文的预测关系”，从而更好地捕捉几何对应、视角变化与时间连续性，增强在线更新的稳定性[27] - 设计三：稠密场景描述监督：构建了要求模型生成覆盖场景全局语境、物体类别与空间关系等内容的稠密3D场景描述数据，替代稀疏的问答监督，训练模型学习如何“维护整个空间”[31] 实验性能与效率 - 空间智能基准表现：在VSI-Bench上，Spatial-TTT-2B取得64.4的平均分，超越所有闭源与开源基线模型，在度量级空间估计、方向判断与路径规划等任务上表现突出[35] - 多视角推理能力：在MindCube-Tiny基准上取得76.2%的准确率，比最强闭源基线Gemini-3-pro（63.9%）高出12个百分点，比代表性开源模型MindCube-3B（51.7%）高出近25个百分点[36] - 长时程记忆优势：在考验长期记忆的VSI-SUPER-Count任务中，模型在10分钟、30分钟、60分钟和120分钟视频上的得分分别为31.8、45.6、36.2、38.4，而其他模型在长视频上性能崩塌或内存耗尽[39][40] - 效率优势：在1024帧输入设置下，Spatial-TTT-2B的峰值显存占用为11.9GB，计算量为799.4 TFLOPs，相比行业领先的大厂模型（21.2GB，1403.1 TFLOPs），实现了超过40%的显存与计算节省[43] 技术影响与行业意义 - 范式转变：该研究提供了一种从“延长上下文窗口”到“形成持续可更新的内部空间状态”的新思路，对于需要长期积累空间经验的物理智能体（如机器人、自动驾驶、AR设备）至关重要[45][46][48] - 技术协同效应：消融实验表明，性能提升是混合架构、空间预测机制和稠密监督三者协同作用的结果，单一技巧的缺失会导致性能显著下降[41][49] - 开源贡献：该工作已入选计算机视觉顶级会议ECCV 2026，并提供了论文、项目主页和GitHub代码，为行业提供了从流式视觉感知走向持续世界状态建模的清晰技术路径[6][50]