最近做 VLA 的一些心得体会

视觉语言模型在自动驾驶应用中的核心挑战与解决方案 - 文章核心观点：视觉语言模型在自动驾驶领域展现出潜力，尤其在可解释性方面具有优势，但其在落地应用前仍需克服幻觉、3D空间理解不足和速度慢等关键挑战，行业正通过改进感知范式、训练任务、模型交互和推理过程来应对这些问题[3] VLM应用于AD的主要问题与改进方向 - 幻觉问题具体表现为无中生有和视而不见，其根源在于静态感知，解决方案包括转向动态感知、通过多次校验或DPO减少训练数据及模型产生的幻觉、以及允许模型“回头放大看看”[3] - 3D空间理解能力不足源于预训练任务多为2D，解决方案是在训练时加入空间定位任务，例如混合具身数据，研究证明额外使用3D感知和PnC轨迹生成模块效果更好[3] - 速度慢是主要瓶颈，可通过KV Cache、Visual token压缩、以及通过混合数据和强化学习让模型学会“按需思考”并根据提示调节思考深度来优化[3] VLM在自动驾驶中的技术评估与学习范式 - 从学术评估指标看，VLA方案与基于Diffusion的方案效果不相上下，VLM的核心优势在于其可解释性[3] - 学习范式需要从模仿学习转向偏好学习，在强化学习阶段，多任务同时训练比单任务分阶段训练效果更好[3] - 防止基础模型发生灾难性遗忘的最简单有效方法是增加预训练数据[3] 提升VLM模型性能的技术路径 - 提供更丰富的监督信号有助于模型学到更好的表征，具体方式是在VLM基础上增加其他任务头，如预测下一帧画面、3D占据与流、物体检测、交通信号灯识别等，这种方式有助于实现缩放定律[3] - 思维链技术很重要，但在海量数据下应用不易，除了纯文本形式，多模态思维链正在兴起[3] - 目前VLM中视觉与语言的交互不足，限制了其作为基础模型的效果，改善思路是增强视觉-语言交互，例如Qwen3-VL使用Deepstack将图像token输入到LLM的不同层，或引入图像生成的辅助任务[3] 轨迹生成与模型评估的现状 - 轨迹的输出方式不重要，无论是VLM直接以文本输出、输出特殊token映射为轨迹，还是接扩散头生成轨迹，效果都不错，工业界主要采用扩散头生成轨迹，因其速度最快[3] - 评估面临挑战，闭环测试指标比开环差，原因包括训练目标与在线部署目标不一致，以及训练时的离线传感器数据与测试时实时观测数据分布不同[3] 关于思维链的深入探讨 - 是否需要推理时也加入视觉思维链？研究指出，仅用图像生成做思维链对视觉规划任务的指标和泛化性都有提升，例如FSDrive用图像思维链代替文本思维链可提升场景理解并降低碰撞率[3] - 让模型在思维链过程中调用工具能取得更好效果，例如调用视角、查看历史、放大、测距等[3] - 目前VLM添加思维链后在AD中效果不佳的原因包括：思维链质量不高、因果关系不强；测试集不够复杂；以及VLM基础模型本身因视觉-文本对齐不佳而无法拥有LLM的优良特性[3]