Workflow
FSDrive
icon
搜索文档
FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
36氪· 2025-09-30 18:36
文章核心观点 - FSDrive提出“时空视觉CoT”方法,让多模态大语言模型直接以图像进行思考,使用统一的未来图像帧作为中间推理步骤,以解决现有方法因依赖文本或符号中介而导致的时空关系模糊和细粒度信息丢失问题 [1][4] - 该方法在不改动原有模型架构的前提下,通过词表扩展和自回归视觉生成激活图像生成能力,并以渐进式视觉CoT注入物理先验,使模型兼具世界模型和逆动力学模型的双重角色 [1][5][8] - 该方法在自动驾驶的轨迹规划、未来帧生成和场景理解任务上展现出强大竞争力,以较低的数据和算力成本实现了高性能,推动了自动驾驶从符号推理向视觉推理的范式转变 [9][11][14][17] 技术创新与方法 - 核心创新在于用统一的“视觉中介”替代文字或表格中介,直接在视觉域内完成因果推断与决策规划,消除了跨模态语义鸿沟 [4][5] - 通过极低成本在现成MLLM上激活图像生成能力:仅扩展词表引入视觉token,无需大规模架构修改或海量训练,所需数据量约为其他统一方法的0.3% [5][8] - 采用渐进式视觉CoT策略:先生成带有物理约束的粗粒度感知图(车道线/3D框),再生成细节丰富的未来帧,显式注入物理合理性 [5][8] - 模型框架整合了理解与生成任务,输入为环视图像与任务指令,输出为含感知结果叠加的统一未来帧(时空视觉CoT)以及最终轨迹 [8] 性能表现与实验结果 - 在端到端轨迹规划任务中,FSDrive(基于Qwen2-VL-2B)相比Doe-1取得了更低的平均L2距离(0.53 vs 0.70)和更低的碰撞率(0.19 vs 0.21) [9] - 在未来帧生成质量上,FSDrive在128×192分辨率下的FID指标为10.1,优于多数扩散式世界模型(如GEM的10.5)并显著优于Doe-1(15.9) [10][11] - 在场景理解任务(DriveLM GVQA)中,FSDrive的Final Score达到0.57,超过OmniDrive(0.56)、Cube-LLM(0.50)等方法,多选准确率达0.72 [13][14] - 定性分析显示,该方法具备通过视觉推理纠正错误导航指令的能力,体现了其逆动力学能力和决策的可解释性 [16]
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
机器之心· 2025-09-30 16:45
核心观点 - FSDrive提出“时空视觉链式思考”方法,以统一的未来图像帧作为中间推理步骤,替代传统的文字或符号中介,旨在解决自动驾驶多模态大模型在推理过程中的时空关系模糊与信息丢失问题 [2][7] - 该方法的核心创新在于让模型直接“以图思考”,联合预测未来场景与感知结果,在视觉域内完成因果推断与决策规划,推动自动驾驶从“符号推理”走向“视觉推理” [7][28] 技术创新 - 提出统一的“视觉中介”替代文字或符号中介,通过生成包含红色车道线和3D检测框的未来图像帧作为时空CoT,消除跨模态语义鸿沟 [7][8] - 以极小代价在现成多模态大语言模型上激活图像生成能力:仅通过扩展词表引入视觉token,无需改动模型架构或进行海量训练 [8][19] - 采用渐进式视觉CoT训练策略,先生成受物理约束的粗粒度感知图,再生成细节丰富的未来帧,显式注入物理合理性以提升预测真实性与一致性 [8][14][19] 方法框架 - 框架采用统一预训练范式,兼具理解与生成能力,输入为环视图像与任务指令,输出为统一未来帧和最终轨迹 [12][13] - 模型扮演双重角色:首先生成未来统一帧作为“世界模型”,然后作为“逆动力学模型”进行轨迹规划 [13][27] - 训练分为两个阶段:第一阶段进行统一预训练,混合训练视觉问答、未来帧生成及渐进式感知生成;第二阶段进行有监督微调,联合优化场景理解与轨迹规划 [19] 性能表现 - 在端到端轨迹规划任务中,基于Qwen2-VL-2B模型的FSDrive在ST-P3指标上平均L2误差为0.53米,碰撞率为0.19%;在UniAD指标上平均L2误差为0.96米,碰撞率为0.40%,优于对比方法 [17][29] - 在未来帧生成质量上,FSDrive在128×192分辨率下FID得分达到10.1,优于多数扩散式世界模型,兼顾了实时性与生成质量 [21][22] - 在场景理解任务中,FSDrive的Final Score达到0.57,多项语言生成指标与多选准确率表现稳健,验证了其“理解+生成”统一预训练的有效性 [23][25]
NeurIPS'25 Spotlight!自驾新范式FSDrive: VLA + 世界模型双管齐下(阿里&西交)
自动驾驶之心· 2025-09-22 07:32
核心观点 - 提出一种名为时空思维链(spatio-temporal CoT)的新型推理方法,旨在解决现有视觉语言模型在自动驾驶中因使用离散文本思维链而导致的信息丢失问题 [1] - 该方法使视觉语言模型能够以可视化方式思考,通过生成统一图像帧来预测未来世界状态,从而增强轨迹规划能力 [1][5] - 提出统一的视觉生成与理解预训练范式,并设计渐进式生成策略,仅需极少量数据(约为现有方法的0.3%)即可激活模型的视觉生成潜力 [6][12] 技术方法 - 时空思维链推理:视觉语言模型作为世界模型生成统一图像帧,其中用红色车道分隔线和3D检测框表征未来空间关系,用普通未来帧表征时间演化动态关系 [5][16] - 统一视觉生成与理解预训练:基于现有MLLM架构,通过将VQ-VAE的图像码本加入大模型词汇表来扩展词汇空间,使其具备预测图像token的能力 [10][12] - 渐进式图像生成:采用由易到难的生成策略,先推理车道线token和3D检测框token以施加物理约束,再生成完整的未来帧补充细粒度细节 [6][15] 实验结果 - 在nuScenes数据集上的端到端轨迹规划实验中,FSDrive方法在多个指标上表现优异,例如在使用自车状态时,其L2距离在3秒预测 horizon 上达到0.46米,碰撞率为0.21% [19] - 在未来帧生成任务中,FSDrive取得了10.1的FID分数,优于对比方法如DriveDreamer(52.6 FID)和GenAD(15.4 FID) [20] - 在DriveLM GVQA基准测试中,FSDrive的最终得分达到0.57,准确率为72%,优于OminiDrive(0.56分,70%准确率)和Cube-LLM(0.50分,39%准确率) [22]