NeurIPS'25 Spotlight！自驾新范式FSDrive: VLA + 世界模型双管齐下（阿里&西交）

核心观点 - 提出一种名为时空思维链（spatio-temporal CoT）的新型推理方法，旨在解决现有视觉语言模型在自动驾驶中因使用离散文本思维链而导致的信息丢失问题 [1] - 该方法使视觉语言模型能够以可视化方式思考，通过生成统一图像帧来预测未来世界状态，从而增强轨迹规划能力 [1][5] - 提出统一的视觉生成与理解预训练范式，并设计渐进式生成策略，仅需极少量数据（约为现有方法的0.3%）即可激活模型的视觉生成潜力 [6][12] 技术方法 - 时空思维链推理：视觉语言模型作为世界模型生成统一图像帧，其中用红色车道分隔线和3D检测框表征未来空间关系，用普通未来帧表征时间演化动态关系 [5][16] - 统一视觉生成与理解预训练：基于现有MLLM架构，通过将VQ-VAE的图像码本加入大模型词汇表来扩展词汇空间，使其具备预测图像token的能力 [10][12] - 渐进式图像生成：采用由易到难的生成策略，先推理车道线token和3D检测框token以施加物理约束，再生成完整的未来帧补充细粒度细节 [6][15] 实验结果 - 在nuScenes数据集上的端到端轨迹规划实验中，FSDrive方法在多个指标上表现优异，例如在使用自车状态时，其L2距离在3秒预测 horizon 上达到0.46米，碰撞率为0.21% [19] - 在未来帧生成任务中，FSDrive取得了10.1的FID分数，优于对比方法如DriveDreamer（52.6 FID）和GenAD（15.4 FID） [20] - 在DriveLM GVQA基准测试中，FSDrive的最终得分达到0.57，准确率为72%，优于OminiDrive（0.56分，70%准确率）和Cube-LLM（0.50分，39%准确率） [22]