自动驾驶技术范式演进 - 自动驾驶系统正从传统的模块化流水线(感知、预测、规划分离)向端到端(E2E)联合学习范式演进 [3][6] - 视觉-语言模型(VLMs)被引入以注入跨模态先验知识和常识推理,进一步丰富了端到端范式 [4][6] - 当前基于VLM的规划器面临三大核心挑战:离散文本推理与连续控制之间的模态不匹配、自回归思维链解码带来的高延迟、以及效率低下或非因果的规划器设计限制了实时部署能力 [7][9] ColaVLA框架核心创新 - 提出ColaVLA,一种统一的视觉-语言-动作框架,将推理过程从文本域迁移至统一的潜变量空间,并与分层并行轨迹解码器相结合 [4][10] - 设计认知潜变量推理器,通过自车自适应选择机制和仅两次VLM前向传播,将场景理解压缩为紧凑的、面向决策的元动作嵌入 [4][10][11] - 提出分层并行规划器,在单次前向传播中生成多尺度、因果一致的轨迹,实现了高效、准确且安全的轨迹生成 [4][12][20] 认知潜变量推理器技术细节 - 推理过程分为四步:驾驶场景理解、关键目标识别、潜变量重思考和策略决策合成 [21][23][26][27] - 引入自车自适应路由器,通过FiLM调制使视觉token与车辆瞬时状态对齐,并筛选出Top-K个安全关键视觉token,形成高效的信息瓶颈 [11][23][25] - 通过将推理空间限制在C个元动作token内,实现了熵减,并生成多个可能的驾驶策略,为后续预测提供结构化先验 [27] 分层并行规划器技术细节 - 规划器采用“意图-运动”多阶段解码,将预测时域划分为S个嵌套阶段,从粗到细地生成轨迹 [28] - 设计因果保持混合注意力掩码,允许每个尺度的token同时关注筛选后上下文和紧邻的前一尺度,但禁止访问未来尺度,确保物理一致的“从粗到细”解码 [30][33][35] - 采用置信度引导并行解码机制,同时处理多个候选驾驶策略,在单次前向传播中完成,确保高效率并防止模态崩溃 [33] 实验设置与训练策略 - 实现基于LLaVA v1.5框架,采用LLaMA-7B作为语言模型,图像编码器初始化采用EVA-02-L [34] - 训练采用两阶段策略:先在问答对上预训练VLM实现感知-规划对齐,再集成规划器进行联合微调,VLM内部仅更新LoRA参数以保留预训练知识 [36] 开环性能评估结果 - 在nuScenes开环基准测试中,ColaVLA取得了最佳的整体准确性和安全性,平均L2误差为0.30米,平均碰撞率为0.23% [37] - 与最强的基于动作基线SOLVE-E2E(平均L2误差0.31米;平均碰撞率0.30%)相比,L2误差降低3%,碰撞率降低23% [37] - 与基于文本的VLM规划器相比,该框架的VLM前向传播次数减少超过5倍,彰显了卓越效率 [37] 闭环性能评估结果 - 在NeuroNCAP闭环基准测试中,ColaVLA达到新的当前最优性能,NeuroNCAP评分为3.48,较最强现有方法ImpromptuVLA(2.06)绝对提升1.10(相对提升53%) [38] - 安全性方面,模型将平均碰撞率从65.1%降至36.8%,其中静态碰撞率从54.8%改善至32.3%(降低约41%) [38] 推理效率评估结果 - ColaVLA实现了最低延迟,推理耗时为727毫秒 [39][40] - 与依赖文本自回归推理的SOLVE-VLM(3719毫秒)和OmniDrive(3727毫秒)相比,实现了超过5倍的推理加速 [39][40] 消融实验分析 - 潜变量推理及其重思考阶段对提升模型推理能力、降低预测误差至关重要,引入后平均L2误差从32.2厘米降至30.4厘米 [43][44] - 在闭环评估中,分层并行规划器显著优于基于MLP和扩散模型的规划器,NeuroNCAP平均评分从约1.0提升至1.50 [45] - 自车自适应路由器中保留视觉token数量K的选择至关重要,K=256在语义覆盖和计算效率之间实现了最佳平衡 [46][47] - 在分层回归策略中,本文提出的插值策略取得了最佳性能,验证了其在结构化、因果一致轨迹推理中的有效性 [47][49][51]
滴滴最近在加速了!ColaVLA:潜在认知推理的分层并行VLA框架(清华&港中文&滴滴)
自动驾驶之心·2025-12-30 17:20