视觉语言模型（VLMs） - 财报，业绩电话会，研报，新闻

视觉语言模型（VLMs）

搜索文档

自动驾驶之心· 2025-10-14 07:33

论文核心观点 - 论文提出了一种名为FSDrive的自动驾驶框架，其核心创新在于引入了时空链式思考方法，使视觉语言模型能够通过视觉方式进行推理，从而解决现有方法在轨迹规划和场景理解中存在的时空关系模糊和细粒度信息丢失问题 [3][14] - 该方法通过统一的图像框架生成未来场景的视觉表征，将感知结果与未来帧结合，作为中间推理步骤，从而建立了端到端的视觉推理管道，消除了跨模态转换带来的语义差距 [5][14] - 论文还提出了一种统一的预训练范式，使模型同时具备视觉理解和生成能力，并通过渐进式图像生成方法来确保未来预测的物理合理性 [5][6] 相关研究背景 - 现有视觉语言模型在自动驾驶中的应用通常采用离散的文本链式思考方法，这可能导致时空信息不明确和细粒度细节丢失 [3] - 相关研究包括统一多模态理解和生成、视觉语言模型在自动驾驶中的应用以及世界模型在自动驾驶中的应用 [4] - 具体方法如Chameleon、Show-o、VILA-U使用VQ-VAE将图像转换为离散标记进行自回归预测，但存在下游任务语义信息不足的问题 [5] - 其他方法如Planting a seed of vision in large language model、DreamLLM使用基于ViT的视觉编码器，但通常依赖外部扩散模型，导致基础设施复杂 [5] - 一些方法如Janus、Chameleon需要大规模十亿级数据集进行从头训练，计算成本极高 [5] - 在自动驾驶领域，DriveGPT4通过迭代问答使用大语言模型解释行为，DriveVLM将大语言模型与端到端架构协同进行轨迹规划，Doe-1将自动驾驶重新表述为多模态生成任务，EMMA利用Gemini基础处理多模态输入输出，GAIA-1结合渐进式预测器和扩散解码器，DrivingGPT利用现有视觉生成大语言模型但存在语义信息不足的问题 [5] 研究方法与框架 - **时空链式思考方法**：视觉语言模型作为世界模型，生成统一的图像框架来预测未来世界状态，其中感知结果表示空间关系，未来帧表示时间演化关系 [5] - **作为中间推理步骤**：时空链式思考作为中间步骤，使模型能基于当前观测和未来预测进行轨迹规划，实现了统一的基于图像的推理，避免了模态不一致问题 [5][13] - **统一预训练范式**：通过将VQ-VAE的图像标记扩展到大语言模型的词汇表中，使模型能预测图像标记，从而同时获得生成能力 [5] - **视觉理解预训练**：使用视觉问答任务来保留模型对复杂驾驶场景的语义理解能力 [5] - **视觉生成预训练**：通过自回归生成预测未来帧的视觉标记，利用视频数据捕捉世界动态，无需额外标注 [5] - **渐进式图像生成**：首先生成粗粒度的未来感知图像以施加物理约束，再生成完整的未来帧补充细节，避免违背物理规律 [6] - **训练策略**：模型从现有的大语言模型初始化，通过统一预训练阶段同时训练理解和生成任务，然后在监督微调阶段专注于场景理解和轨迹规划 [11] 实验设置与数据 - **数据集**：使用nuScenes数据集评估轨迹规划和未来帧生成，该数据集包含1000个场景，训练集28,130个样本，验证集6,019个样本，未标注样本193,082个 [12]；使用DriveLM数据集评估场景理解任务 [12] - **评估指标**：轨迹规划使用L2位移误差和碰撞率，未来帧生成使用FID，场景理解使用BLEU、ROUGE_L、CIDEr等文本生成指标以及ChatGPT Score和多项选择题准确率 [12] - **实现细节**：使用Qwen2-VL-2B模型初始化，进行32个epoch的预训练，微调阶段使用12个epoch，学习率1×10⁻⁴，批量大小16，使用8个NVIDIA RTX A6000 GPU [12] 主要实验结果 - **轨迹规划性能**：在nuScenes数据集上，FSDrive在不使用车辆状态信息时，1秒、2秒、3秒的L2位移误差分别为0.28米、0.52米、0.80米，平均0.53米；碰撞率分别为0.06%、0.13%、0.32%，平均0.17%，性能优于Doe-1等现有方法 [12] - **未来帧生成质量**：在128×192分辨率下，生成的未来帧FID为10.1，与专门的扩散模型相比具有竞争力，且模型规模更小 [9] - **场景理解能力**：在DriveLM GVQA基准上，FSDrive最终得分达到0.57，优于Cube-LLM和OminiDrive等近期方法 [10] 消融研究与分析 - **预训练的影响**：未来帧生成的预训练使L2位移误差降低16.4%，碰撞率降低15.8%，验证了世界模型预测的有效性；综合理解和生成的预训练取得了最佳性能 [13] - **不同链式思考方法比较**：提出的时空链式思考方法在碰撞率上取得了31%的显著改善，表明统一的基于图像的推理能有效识别未来碰撞风险 [13] - **未来帧生成的消融**：更大的预训练数据集能提升视觉生成能力；渐进式生成方法对自回归图像生成有改进 [13] - **定性分析**：时空链式思考能通过基于观察的轨迹规划和未来预测来缓解错误的导航指令，证明了模型的逆动力学建模能力 [13] 未来研究方向 - **多视角未来帧生成**：当前方法仅针对前视视角，未来可扩展至生成车辆周围的多视角未来帧，以实现更全面的环境感知 [13] - **实时性与效率优化**：需研究模型压缩、量化、硬件加速等技术以优化实时性和计算效率，确保实际应用中的实时运行 [13] - **多模态融合的深度探索**：可研究更先进的跨模态注意力机制和多模态特征融合网络，以提升对复杂场景的理解和决策能力 [13] - **长时序未来预测**：当前预测集中在短时间范围，未来可引入记忆机制或改进的Transformer架构以实现更长时序的预测 [13] - **模型可解释性与安全性**：需提高模型决策过程的可解释性，并通过对抗训练等方法增强模型在面对异常情况时的安全性和鲁棒性 [13] - **跨场景泛化能力**：需研究如何提高模型在不同驾驶场景和数据集上的泛化能力，例如通过更多数据预训练和数据增强技术 [13] - **与其他技术集成**：可研究将FSDrive与强化学习、模型预测控制等其他自动驾驶技术集成，以实现更完整的解决方案并进行实地测试 [13]

时空链式思考（Spatio - Temporal CoT）

统一预训练范式

自动驾驶

FutureSightDrive（FSDrive）

视觉语言模型（VLMs）

时空链式思考（Spatio - Temporal CoT）

统一预训练范式

自动驾驶

FutureSightDrive（FSDrive）

视觉语言模型（VLMs）

告别高耗时！上交Prune2Drive：自动驾驶VLM裁剪利器，加速6倍性能保持

自动驾驶之心· 2025-08-29 07:32

研究背景与挑战 - 视觉语言模型（VLMs）为自动驾驶提供统一的感知、推理与决策框架，通过联合建模视觉输入与自然语言指令实现可解释性更强的场景理解，端到端设计可缓解传统模块化系统的误差传播问题 [2] - VLMs在真实驾驶场景部署面临核心障碍：多视图高分辨率图像带来巨大计算开销，自动驾驶系统通常采用6个同步相机实现全环境感知，这些图像经视觉编码器会生成大量视觉token，而Transformer架构的自注意力机制存在二次复杂度，视觉token与文本token拼接后会显著增加推理延迟与内存消耗，难以满足实时性要求 [3] - 现有token修剪方法存在三大局限：仅针对单张图像设计忽略多视图场景下的空间语义多样性与视图间冗余；多依赖特定层注意力权重选token与Flash Attention等高效注意力实现不兼容；未考虑不同相机视图对驾驶决策的贡献差异采用均匀修剪或手工设定比例无法实现全局最优 [4] Prune2Drive框架核心设计 - 提出Token-wise Farthest Point Sampling（T-FPS）机制，受点云处理中最远点采样启发，核心目标是最大化多视图token的语义与空间覆盖度而非仅依赖单个token显著性 [6] - T-FPS采用余弦距离衡量token间语义相似性避免因嵌入空间尺度差异导致的误选，每次新增token时选择与已选token集合语义距离最大的token，确保保留非冗余且语义丰富的信息 [7] - 设计视图自适应修剪控制器，将视图专属修剪比例转化为优化问题，以任务性能最大化为目标同时约束总修剪量保证效率，优化目标含奖励项通过语言相似度衡量VLM输出与真值任务匹配度，惩罚项为所有视图修剪比例总和反映计算开销 [11][12][13] 实验设计与结果 - 实验针对两大自动驾驶多视图VLM基准数据集DriveLM和DriveLMM-o1，验证Prune2Drive性能保留与效率提升能力，对比基线包括FastV、SparseVLM、DART、PACT等主流无重训token修剪方法 [16] - 在DriveLM数据集上修剪75%（保留180 token/图）时准确率达0.80（原模型0.81），BLEU-4达0.60高于所有基线，Match评分34.0甚至超过原模型33.9，平均得分58.3仅比原模型低0.8；修剪90%（保留72 token/图）时平均得分57.4比FastV高3.3比PACT高0.6 [20] - 在DriveLMM-o1数据集上修剪90%（保留25 token/图）时风险评估准确率达68.34比PACT高1.33，场景感知与目标理解达69.86比FastV高3.43，整体推理得分68.3比所有基线高1-3分 [21][22] - 效率提升显著：在保留10%token场景下，DriveMM上预填充阶段加速6.40倍，解码阶段加速1.09倍，FLOPs仅为原模型13.4%；DriveLMM-o1上预填充阶段加速2.64倍，解码阶段加速1.04倍，FLOPs为原模型20.3% [24][25] 消融实验与关键发现 - 距离度量中余弦距离表现最优，DriveLMM-o1整体得分达68.3；若改用选最近token策略性能暴跌至63.0，证明冗余token剔除对性能的关键作用；l1和l2距离性能稍差说明余弦距离更适配token嵌入空间的语义相似性衡量 [26][27] - 优化策略中TPE效果最好，DriveLM平均得分57.4；GridSearch和Evolutionary仅轻微落后分别得57.2和57.1，证明框架对优化策略鲁棒性 [27] - 定性对比显示FastV存在位置偏差因依赖注意力权重而过多保留后视图token漏掉前视图关键车辆；DART均匀修剪各视图未考虑视图重要性导致后右视图关键障碍物丢失；Prune2Drive通过视图自适应比例和T-FPS精准保留前视图白色车、黑色车及后右视图黑色车 [31] 核心优势总结 - 即插即用无需重训VLM，不依赖注意力图，兼容Flash Attention等高效实现 [31] - 多视图适配首次考虑自动驾驶多视图的空间语义多样性与视图贡献差异 [31] - 性能-效率平衡极端修剪保留10%token下仅降3-6%性能，同时实现6.4倍加速与86%以上FLOPs降低 [31]