Hierarchical Parallel Planning
搜索文档
ColaVLA:自动驾驶大模型,不一定非要把「思考过程」写成文字
机器之心· 2026-04-02 20:11
文章核心观点 - 自动驾驶领域的研究范式正在发生转变,从依赖显式文本链式推理转向在统一潜空间进行隐式推理,并结合分层并行轨迹规划,以实现更高效、更安全且更适合实时驾驶的决策系统 [5][6][36][37] 核心思路与框架设计 - 提出了名为ColaVLA的全新框架,其核心贡献在于将推理从文本空间迁移到潜空间,并将轨迹生成从串行过程改为分层并行过程 [3][6] - 框架由两个核心部分组成:负责高层驾驶认知的潜空间推理器,以及负责生成连续轨迹的分层并行规划器,旨在重新定义推理与动作之间的接口 [9][11] 潜空间推理器的工作原理 - 推理器模仿人类司机的四步认知过程,但均在统一潜空间中隐式完成,避免了生成自然语言带来的延迟和表示错位 [10][11][13] - 四步过程包括:1) 理解全局场景;2) 通过自适应的路由器筛选出与驾驶相关的关键视觉实体;3) 使用可学习的元查询进行复核式推理;4) 输出直接面向动作生成的高层驾驶先验 [10][12][13] 分层并行规划器的优势 - 规划器采用“先粗后细”的分层生成逻辑,先确定粗粒度驾驶意图,再逐步补充细节,更符合真实驾驶员的决策方式 [15][16][19] - 设计了一种保持因果关系的注意力机制,确保信息从粗到细逐层细化,避免信息泄漏 [16] - 能够在单次前向传播中并行完成多尺度、多模式的轨迹解码,显著提升了生成效率 [17][19] 实验性能与结果 - 在nuScenes数据集的开环评测中,ColaVLA在动作类方法中取得最优综合表现,平均L2误差为0.30米,平均碰撞率为0.23% [22] - 在更关键的闭环评测NeuroNCAP中,平均得分达到3.48,平均碰撞率降至36.8%,优于多种前序方法 [24][26] - 在未显式生成文本思维链的情况下,其闭环表现优于依赖文本推理的对比方法,表明内部决策表征与动作生成的对齐更为关键 [25] 效率表现 - 经过工程优化后,在H200上的端到端推理延迟为228毫秒/帧,比文本式方法快5到10倍,为实时自动驾驶应用提供了可行性 [27][28] 消融实验的关键发现 - 潜空间推理模块有效,加入该模块能降低轨迹误差,增加“复核”阶段可进一步提升效果 [30] - 分层并行规划器本身优于普通的MLP头和扩散模型头,说明其结构更符合驾驶动作的生成逻辑 [31] - 关键视觉token的数量需要平衡,过多会引入冗余,过少会丢失信息 [32] - 最优的轨迹生成方式是先确定关键点,再逐层补齐细节,这与驾驶动作的因果结构相符 [33] 研究的意义与范式转变 - 该研究证明自动驾驶的推理不一定需要依赖显式文本思维链,潜空间推理同样能保留高层决策能力 [36][42] - 代表了一种范式转变:从文本推理转向潜空间推理,从串行解码转向并行解码,从展示推理过程转向兼顾安全、效率与闭环表现 [37][41] - 核心价值在于重新设计了一种真正适合自动驾驶的大模型推理方式,当推理形式与动作生成真正对齐时,系统能在安全、效率和闭环表现上获得全面提升 [40][42]