Workflow
时空视觉CoT
icon
搜索文档
FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
36氪· 2025-09-30 18:36
文章核心观点 - FSDrive提出“时空视觉CoT”方法,让多模态大语言模型直接以图像进行思考,使用统一的未来图像帧作为中间推理步骤,以解决现有方法因依赖文本或符号中介而导致的时空关系模糊和细粒度信息丢失问题 [1][4] - 该方法在不改动原有模型架构的前提下,通过词表扩展和自回归视觉生成激活图像生成能力,并以渐进式视觉CoT注入物理先验,使模型兼具世界模型和逆动力学模型的双重角色 [1][5][8] - 该方法在自动驾驶的轨迹规划、未来帧生成和场景理解任务上展现出强大竞争力,以较低的数据和算力成本实现了高性能,推动了自动驾驶从符号推理向视觉推理的范式转变 [9][11][14][17] 技术创新与方法 - 核心创新在于用统一的“视觉中介”替代文字或表格中介,直接在视觉域内完成因果推断与决策规划,消除了跨模态语义鸿沟 [4][5] - 通过极低成本在现成MLLM上激活图像生成能力:仅扩展词表引入视觉token,无需大规模架构修改或海量训练,所需数据量约为其他统一方法的0.3% [5][8] - 采用渐进式视觉CoT策略:先生成带有物理约束的粗粒度感知图(车道线/3D框),再生成细节丰富的未来帧,显式注入物理合理性 [5][8] - 模型框架整合了理解与生成任务,输入为环视图像与任务指令,输出为含感知结果叠加的统一未来帧(时空视觉CoT)以及最终轨迹 [8] 性能表现与实验结果 - 在端到端轨迹规划任务中,FSDrive(基于Qwen2-VL-2B)相比Doe-1取得了更低的平均L2距离(0.53 vs 0.70)和更低的碰撞率(0.19 vs 0.21) [9] - 在未来帧生成质量上,FSDrive在128×192分辨率下的FID指标为10.1,优于多数扩散式世界模型(如GEM的10.5)并显著优于Doe-1(15.9) [10][11] - 在场景理解任务(DriveLM GVQA)中,FSDrive的Final Score达到0.57,超过OmniDrive(0.56)、Cube-LLM(0.50)等方法,多选准确率达0.72 [13][14] - 定性分析显示,该方法具备通过视觉推理纠正错误导航指令的能力,体现了其逆动力学能力和决策的可解释性 [16]
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
机器之心· 2025-09-30 16:45
核心观点 - FSDrive提出“时空视觉链式思考”方法,以统一的未来图像帧作为中间推理步骤,替代传统的文字或符号中介,旨在解决自动驾驶多模态大模型在推理过程中的时空关系模糊与信息丢失问题 [2][7] - 该方法的核心创新在于让模型直接“以图思考”,联合预测未来场景与感知结果,在视觉域内完成因果推断与决策规划,推动自动驾驶从“符号推理”走向“视觉推理” [7][28] 技术创新 - 提出统一的“视觉中介”替代文字或符号中介,通过生成包含红色车道线和3D检测框的未来图像帧作为时空CoT,消除跨模态语义鸿沟 [7][8] - 以极小代价在现成多模态大语言模型上激活图像生成能力:仅通过扩展词表引入视觉token,无需改动模型架构或进行海量训练 [8][19] - 采用渐进式视觉CoT训练策略,先生成受物理约束的粗粒度感知图,再生成细节丰富的未来帧,显式注入物理合理性以提升预测真实性与一致性 [8][14][19] 方法框架 - 框架采用统一预训练范式,兼具理解与生成能力,输入为环视图像与任务指令,输出为统一未来帧和最终轨迹 [12][13] - 模型扮演双重角色:首先生成未来统一帧作为“世界模型”,然后作为“逆动力学模型”进行轨迹规划 [13][27] - 训练分为两个阶段:第一阶段进行统一预训练,混合训练视觉问答、未来帧生成及渐进式感知生成;第二阶段进行有监督微调,联合优化场景理解与轨迹规划 [19] 性能表现 - 在端到端轨迹规划任务中,基于Qwen2-VL-2B模型的FSDrive在ST-P3指标上平均L2误差为0.53米,碰撞率为0.19%;在UniAD指标上平均L2误差为0.96米,碰撞率为0.40%,优于对比方法 [17][29] - 在未来帧生成质量上,FSDrive在128×192分辨率下FID得分达到10.1,优于多数扩散式世界模型,兼顾了实时性与生成质量 [21][22] - 在场景理解任务中,FSDrive的Final Score达到0.57,多项语言生成指标与多选准确率表现稳健,验证了其“理解+生成”统一预训练的有效性 [23][25]