核心观点 - FSDrive提出“时空视觉链式思考”方法,以统一的未来图像帧作为中间推理步骤,替代传统的文字或符号中介,旨在解决自动驾驶多模态大模型在推理过程中的时空关系模糊与信息丢失问题 [2][7] - 该方法的核心创新在于让模型直接“以图思考”,联合预测未来场景与感知结果,在视觉域内完成因果推断与决策规划,推动自动驾驶从“符号推理”走向“视觉推理” [7][28] 技术创新 - 提出统一的“视觉中介”替代文字或符号中介,通过生成包含红色车道线和3D检测框的未来图像帧作为时空CoT,消除跨模态语义鸿沟 [7][8] - 以极小代价在现成多模态大语言模型上激活图像生成能力:仅通过扩展词表引入视觉token,无需改动模型架构或进行海量训练 [8][19] - 采用渐进式视觉CoT训练策略,先生成受物理约束的粗粒度感知图,再生成细节丰富的未来帧,显式注入物理合理性以提升预测真实性与一致性 [8][14][19] 方法框架 - 框架采用统一预训练范式,兼具理解与生成能力,输入为环视图像与任务指令,输出为统一未来帧和最终轨迹 [12][13] - 模型扮演双重角色:首先生成未来统一帧作为“世界模型”,然后作为“逆动力学模型”进行轨迹规划 [13][27] - 训练分为两个阶段:第一阶段进行统一预训练,混合训练视觉问答、未来帧生成及渐进式感知生成;第二阶段进行有监督微调,联合优化场景理解与轨迹规划 [19] 性能表现 - 在端到端轨迹规划任务中,基于Qwen2-VL-2B模型的FSDrive在ST-P3指标上平均L2误差为0.53米,碰撞率为0.19%;在UniAD指标上平均L2误差为0.96米,碰撞率为0.40%,优于对比方法 [17][29] - 在未来帧生成质量上,FSDrive在128×192分辨率下FID得分达到10.1,优于多数扩散式世界模型,兼顾了实时性与生成质量 [21][22] - 在场景理解任务中,FSDrive的Final Score达到0.57,多项语言生成指标与多选准确率表现稳健,验证了其“理解+生成”统一预训练的有效性 [23][25]
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
机器之心·2025-09-30 16:45