时空链式思考（Spatio - Temporal CoT） - 财报，业绩电话会，研报，新闻

时空链式思考（Spatio - Temporal CoT）

搜索文档

自动驾驶之心· 2025-10-14 07:33

论文核心观点 - 论文提出了一种名为FSDrive的自动驾驶框架，其核心创新在于引入了时空链式思考方法，使视觉语言模型能够通过视觉方式进行推理，从而解决现有方法在轨迹规划和场景理解中存在的时空关系模糊和细粒度信息丢失问题 [3][14] - 该方法通过统一的图像框架生成未来场景的视觉表征，将感知结果与未来帧结合，作为中间推理步骤，从而建立了端到端的视觉推理管道，消除了跨模态转换带来的语义差距 [5][14] - 论文还提出了一种统一的预训练范式，使模型同时具备视觉理解和生成能力，并通过渐进式图像生成方法来确保未来预测的物理合理性 [5][6] 相关研究背景 - 现有视觉语言模型在自动驾驶中的应用通常采用离散的文本链式思考方法，这可能导致时空信息不明确和细粒度细节丢失 [3] - 相关研究包括统一多模态理解和生成、视觉语言模型在自动驾驶中的应用以及世界模型在自动驾驶中的应用 [4] - 具体方法如Chameleon、Show-o、VILA-U使用VQ-VAE将图像转换为离散标记进行自回归预测，但存在下游任务语义信息不足的问题 [5] - 其他方法如Planting a seed of vision in large language model、DreamLLM使用基于ViT的视觉编码器，但通常依赖外部扩散模型，导致基础设施复杂 [5] - 一些方法如Janus、Chameleon需要大规模十亿级数据集进行从头训练，计算成本极高 [5] - 在自动驾驶领域，DriveGPT4通过迭代问答使用大语言模型解释行为，DriveVLM将大语言模型与端到端架构协同进行轨迹规划，Doe-1将自动驾驶重新表述为多模态生成任务，EMMA利用Gemini基础处理多模态输入输出，GAIA-1结合渐进式预测器和扩散解码器，DrivingGPT利用现有视觉生成大语言模型但存在语义信息不足的问题 [5] 研究方法与框架 - **时空链式思考方法**：视觉语言模型作为世界模型，生成统一的图像框架来预测未来世界状态，其中感知结果表示空间关系，未来帧表示时间演化关系 [5] - **作为中间推理步骤**：时空链式思考作为中间步骤，使模型能基于当前观测和未来预测进行轨迹规划，实现了统一的基于图像的推理，避免了模态不一致问题 [5][13] - **统一预训练范式**：通过将VQ-VAE的图像标记扩展到大语言模型的词汇表中，使模型能预测图像标记，从而同时获得生成能力 [5] - **视觉理解预训练**：使用视觉问答任务来保留模型对复杂驾驶场景的语义理解能力 [5] - **视觉生成预训练**：通过自回归生成预测未来帧的视觉标记，利用视频数据捕捉世界动态，无需额外标注 [5] - **渐进式图像生成**：首先生成粗粒度的未来感知图像以施加物理约束，再生成完整的未来帧补充细节，避免违背物理规律 [6] - **训练策略**：模型从现有的大语言模型初始化，通过统一预训练阶段同时训练理解和生成任务，然后在监督微调阶段专注于场景理解和轨迹规划 [11] 实验设置与数据 - **数据集**：使用nuScenes数据集评估轨迹规划和未来帧生成，该数据集包含1000个场景，训练集28,130个样本，验证集6,019个样本，未标注样本193,082个 [12]；使用DriveLM数据集评估场景理解任务 [12] - **评估指标**：轨迹规划使用L2位移误差和碰撞率，未来帧生成使用FID，场景理解使用BLEU、ROUGE_L、CIDEr等文本生成指标以及ChatGPT Score和多项选择题准确率 [12] - **实现细节**：使用Qwen2-VL-2B模型初始化，进行32个epoch的预训练，微调阶段使用12个epoch，学习率1×10⁻⁴，批量大小16，使用8个NVIDIA RTX A6000 GPU [12] 主要实验结果 - **轨迹规划性能**：在nuScenes数据集上，FSDrive在不使用车辆状态信息时，1秒、2秒、3秒的L2位移误差分别为0.28米、0.52米、0.80米，平均0.53米；碰撞率分别为0.06%、0.13%、0.32%，平均0.17%，性能优于Doe-1等现有方法 [12] - **未来帧生成质量**：在128×192分辨率下，生成的未来帧FID为10.1，与专门的扩散模型相比具有竞争力，且模型规模更小 [9] - **场景理解能力**：在DriveLM GVQA基准上，FSDrive最终得分达到0.57，优于Cube-LLM和OminiDrive等近期方法 [10] 消融研究与分析 - **预训练的影响**：未来帧生成的预训练使L2位移误差降低16.4%，碰撞率降低15.8%，验证了世界模型预测的有效性；综合理解和生成的预训练取得了最佳性能 [13] - **不同链式思考方法比较**：提出的时空链式思考方法在碰撞率上取得了31%的显著改善，表明统一的基于图像的推理能有效识别未来碰撞风险 [13] - **未来帧生成的消融**：更大的预训练数据集能提升视觉生成能力；渐进式生成方法对自回归图像生成有改进 [13] - **定性分析**：时空链式思考能通过基于观察的轨迹规划和未来预测来缓解错误的导航指令，证明了模型的逆动力学建模能力 [13] 未来研究方向 - **多视角未来帧生成**：当前方法仅针对前视视角，未来可扩展至生成车辆周围的多视角未来帧，以实现更全面的环境感知 [13] - **实时性与效率优化**：需研究模型压缩、量化、硬件加速等技术以优化实时性和计算效率，确保实际应用中的实时运行 [13] - **多模态融合的深度探索**：可研究更先进的跨模态注意力机制和多模态特征融合网络，以提升对复杂场景的理解和决策能力 [13] - **长时序未来预测**：当前预测集中在短时间范围，未来可引入记忆机制或改进的Transformer架构以实现更长时序的预测 [13] - **模型可解释性与安全性**：需提高模型决策过程的可解释性，并通过对抗训练等方法增强模型在面对异常情况时的安全性和鲁棒性 [13] - **跨场景泛化能力**：需研究如何提高模型在不同驾驶场景和数据集上的泛化能力，例如通过更多数据预训练和数据增强技术 [13] - **与其他技术集成**：可研究将FSDrive与强化学习、模型预测控制等其他自动驾驶技术集成，以实现更完整的解决方案并进行实地测试 [13]

时空链式思考（Spatio - Temporal CoT）

统一预训练范式

自动驾驶

FutureSightDrive（FSDrive）

视觉语言模型（VLMs）

时空链式思考（Spatio - Temporal CoT）

统一预训练范式

自动驾驶

FutureSightDrive（FSDrive）

视觉语言模型（VLMs）