Workflow
端到端“视觉 - 语言 - 动作”(VLA)自动驾驶范式
icon
搜索文档
FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
36氪· 2025-09-30 18:36
文章核心观点 - FSDrive提出“时空视觉CoT”方法,让多模态大语言模型直接以图像进行思考,使用统一的未来图像帧作为中间推理步骤,以解决现有方法因依赖文本或符号中介而导致的时空关系模糊和细粒度信息丢失问题 [1][4] - 该方法在不改动原有模型架构的前提下,通过词表扩展和自回归视觉生成激活图像生成能力,并以渐进式视觉CoT注入物理先验,使模型兼具世界模型和逆动力学模型的双重角色 [1][5][8] - 该方法在自动驾驶的轨迹规划、未来帧生成和场景理解任务上展现出强大竞争力,以较低的数据和算力成本实现了高性能,推动了自动驾驶从符号推理向视觉推理的范式转变 [9][11][14][17] 技术创新与方法 - 核心创新在于用统一的“视觉中介”替代文字或表格中介,直接在视觉域内完成因果推断与决策规划,消除了跨模态语义鸿沟 [4][5] - 通过极低成本在现成MLLM上激活图像生成能力:仅扩展词表引入视觉token,无需大规模架构修改或海量训练,所需数据量约为其他统一方法的0.3% [5][8] - 采用渐进式视觉CoT策略:先生成带有物理约束的粗粒度感知图(车道线/3D框),再生成细节丰富的未来帧,显式注入物理合理性 [5][8] - 模型框架整合了理解与生成任务,输入为环视图像与任务指令,输出为含感知结果叠加的统一未来帧(时空视觉CoT)以及最终轨迹 [8] 性能表现与实验结果 - 在端到端轨迹规划任务中,FSDrive(基于Qwen2-VL-2B)相比Doe-1取得了更低的平均L2距离(0.53 vs 0.70)和更低的碰撞率(0.19 vs 0.21) [9] - 在未来帧生成质量上,FSDrive在128×192分辨率下的FID指标为10.1,优于多数扩散式世界模型(如GEM的10.5)并显著优于Doe-1(15.9) [10][11] - 在场景理解任务(DriveLM GVQA)中,FSDrive的Final Score达到0.57,超过OmniDrive(0.56)、Cube-LLM(0.50)等方法,多选准确率达0.72 [13][14] - 定性分析显示,该方法具备通过视觉推理纠正错误导航指令的能力,体现了其逆动力学能力和决策的可解释性 [16]