ColaVLA - 财报，业绩电话会，研报，新闻

ColaVLA

搜索文档

机器之心· 2026-04-02 20:11

文章核心观点 - 自动驾驶领域的研究范式正在发生转变，从依赖显式文本链式推理转向在统一潜空间进行隐式推理，并结合分层并行轨迹规划，以实现更高效、更安全且更适合实时驾驶的决策系统 [5][6][36][37] 核心思路与框架设计 - 提出了名为ColaVLA的全新框架，其核心贡献在于将推理从文本空间迁移到潜空间，并将轨迹生成从串行过程改为分层并行过程 [3][6] - 框架由两个核心部分组成：负责高层驾驶认知的潜空间推理器，以及负责生成连续轨迹的分层并行规划器，旨在重新定义推理与动作之间的接口 [9][11] 潜空间推理器的工作原理 - 推理器模仿人类司机的四步认知过程，但均在统一潜空间中隐式完成，避免了生成自然语言带来的延迟和表示错位 [10][11][13] - 四步过程包括：1) 理解全局场景；2) 通过自适应的路由器筛选出与驾驶相关的关键视觉实体；3) 使用可学习的元查询进行复核式推理；4) 输出直接面向动作生成的高层驾驶先验 [10][12][13] 分层并行规划器的优势 - 规划器采用“先粗后细”的分层生成逻辑，先确定粗粒度驾驶意图，再逐步补充细节，更符合真实驾驶员的决策方式 [15][16][19] - 设计了一种保持因果关系的注意力机制，确保信息从粗到细逐层细化，避免信息泄漏 [16] - 能够在单次前向传播中并行完成多尺度、多模式的轨迹解码，显著提升了生成效率 [17][19] 实验性能与结果 - 在nuScenes数据集的开环评测中，ColaVLA在动作类方法中取得最优综合表现，平均L2误差为0.30米，平均碰撞率为0.23% [22] - 在更关键的闭环评测NeuroNCAP中，平均得分达到3.48，平均碰撞率降至36.8%，优于多种前序方法 [24][26] - 在未显式生成文本思维链的情况下，其闭环表现优于依赖文本推理的对比方法，表明内部决策表征与动作生成的对齐更为关键 [25] 效率表现 - 经过工程优化后，在H200上的端到端推理延迟为228毫秒/帧，比文本式方法快5到10倍，为实时自动驾驶应用提供了可行性 [27][28] 消融实验的关键发现 - 潜空间推理模块有效，加入该模块能降低轨迹误差，增加“复核”阶段可进一步提升效果 [30] - 分层并行规划器本身优于普通的MLP头和扩散模型头，说明其结构更符合驾驶动作的生成逻辑 [31] - 关键视觉token的数量需要平衡，过多会引入冗余，过少会丢失信息 [32] - 最优的轨迹生成方式是先确定关键点，再逐层补齐细节，这与驾驶动作的因果结构相符 [33] 研究的意义与范式转变 - 该研究证明自动驾驶的推理不一定需要依赖显式文本思维链，潜空间推理同样能保留高层决策能力 [36][42] - 代表了一种范式转变：从文本推理转向潜空间推理，从串行解码转向并行解码，从展示推理过程转向兼顾安全、效率与闭环表现 [37][41] - 核心价值在于重新设计了一种真正适合自动驾驶的大模型推理方式，当推理形式与动作生成真正对齐时，系统能在安全、效率和闭环表现上获得全面提升 [40][42]

Autonomous Driving

Latent Reasoning

Hierarchical Parallel Planning

Hierarchical Parallel Planning

Autonomous Driving

ColaVLA

滴滴最近在加速了！ColaVLA：潜在认知推理的分层并行VLA框架（清华&港中文&滴滴）

自动驾驶之心· 2025-12-30 17:20

自动驾驶技术范式演进 - 自动驾驶系统正从传统的模块化流水线（感知、预测、规划分离）向端到端（E2E）联合学习范式演进 [3][6] - 视觉-语言模型（VLMs）被引入以注入跨模态先验知识和常识推理，进一步丰富了端到端范式 [4][6] - 当前基于VLM的规划器面临三大核心挑战：离散文本推理与连续控制之间的模态不匹配、自回归思维链解码带来的高延迟、以及效率低下或非因果的规划器设计限制了实时部署能力 [7][9] ColaVLA框架核心创新 - 提出ColaVLA，一种统一的视觉-语言-动作框架，将推理过程从文本域迁移至统一的潜变量空间，并与分层并行轨迹解码器相结合 [4][10] - 设计认知潜变量推理器，通过自车自适应选择机制和仅两次VLM前向传播，将场景理解压缩为紧凑的、面向决策的元动作嵌入 [4][10][11] - 提出分层并行规划器，在单次前向传播中生成多尺度、因果一致的轨迹，实现了高效、准确且安全的轨迹生成 [4][12][20] 认知潜变量推理器技术细节 - 推理过程分为四步：驾驶场景理解、关键目标识别、潜变量重思考和策略决策合成 [21][23][26][27] - 引入自车自适应路由器，通过FiLM调制使视觉token与车辆瞬时状态对齐，并筛选出Top-K个安全关键视觉token，形成高效的信息瓶颈 [11][23][25] - 通过将推理空间限制在C个元动作token内，实现了熵减，并生成多个可能的驾驶策略，为后续预测提供结构化先验 [27] 分层并行规划器技术细节 - 规划器采用“意图-运动”多阶段解码，将预测时域划分为S个嵌套阶段，从粗到细地生成轨迹 [28] - 设计因果保持混合注意力掩码，允许每个尺度的token同时关注筛选后上下文和紧邻的前一尺度，但禁止访问未来尺度，确保物理一致的“从粗到细”解码 [30][33][35] - 采用置信度引导并行解码机制，同时处理多个候选驾驶策略，在单次前向传播中完成，确保高效率并防止模态崩溃 [33] 实验设置与训练策略 - 实现基于LLaVA v1.5框架，采用LLaMA-7B作为语言模型，图像编码器初始化采用EVA-02-L [34] - 训练采用两阶段策略：先在问答对上预训练VLM实现感知-规划对齐，再集成规划器进行联合微调，VLM内部仅更新LoRA参数以保留预训练知识 [36] 开环性能评估结果 - 在nuScenes开环基准测试中，ColaVLA取得了最佳的整体准确性和安全性，平均L2误差为0.30米，平均碰撞率为0.23% [37] - 与最强的基于动作基线SOLVE-E2E（平均L2误差0.31米；平均碰撞率0.30%）相比，L2误差降低3%，碰撞率降低23% [37] - 与基于文本的VLM规划器相比，该框架的VLM前向传播次数减少超过5倍，彰显了卓越效率 [37] 闭环性能评估结果 - 在NeuroNCAP闭环基准测试中，ColaVLA达到新的当前最优性能，NeuroNCAP评分为3.48，较最强现有方法ImpromptuVLA（2.06）绝对提升1.10（相对提升53%） [38] - 安全性方面，模型将平均碰撞率从65.1%降至36.8%，其中静态碰撞率从54.8%改善至32.3%（降低约41%） [38] 推理效率评估结果 - ColaVLA实现了最低延迟，推理耗时为727毫秒 [39][40] - 与依赖文本自回归推理的SOLVE-VLM（3719毫秒）和OmniDrive（3727毫秒）相比，实现了超过5倍的推理加速 [39][40] 消融实验分析 - 潜变量推理及其重思考阶段对提升模型推理能力、降低预测误差至关重要，引入后平均L2误差从32.2厘米降至30.4厘米 [43][44] - 在闭环评估中，分层并行规划器显著优于基于MLP和扩散模型的规划器，NeuroNCAP平均评分从约1.0提升至1.50 [45] - 自车自适应路由器中保留视觉token数量K的选择至关重要，K=256在语义覆盖和计算效率之间实现了最佳平衡 [46][47] - 在分层回归策略中，本文提出的插值策略取得了最佳性能，验证了其在结构化、因果一致轨迹推理中的有效性 [47][49][51]