时空链式思考(Spatio - Temporal CoT)
搜索文档
FutureSightDrive:世界模型&VLM 统一训练
自动驾驶之心· 2025-10-14 07:33
作者 | 么么牛 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1961012043571266494 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 | https://arxiv.org/pdf/2505.17685 | | --- | | Q1: 这篇论文试图解决什么问题? | 这篇论文试图解决自动驾驶中视觉语言模型(VLMs)在进行轨迹规划和场景理解时存在的时空关系模糊和细粒度信息丢失的问题。现有的VLMs通常使用离散 的文本链式思考(Chain-of-Thought, CoT)来处理当前场景,这种方法本质上是对视觉信息的高度抽象和符号化压缩,可能导致时空关系不明确、细粒度信息丢 失以及模态转换的差距。论文提出了一种新的时空链式思考(spatio-temporal CoT)方法,使模型能够通过视觉方式思考,从而更有效地进行轨迹规划和场景理 解。 Q2: 有哪些相关研究? 论文中提到了以下相关研究: 统一多模态理解 ...