潜变量推理
搜索文档
滴滴最近在加速了!ColaVLA:潜在认知推理的分层并行VLA框架(清华&港中文&滴滴)
自动驾驶之心· 2025-12-30 17:20
>>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Qihang Peng等 编辑 | 自动驾驶之心 滴滴最近开始加速算法预研了,清华&港中文mmlab&滴滴最新的VLA工作 - ColaVLA。 很有意思的一篇工作,提出"Cognitive Latent Reasoner"实现驾驶场景理解、 关键目标识别、Latent Rethinking和驾驶决策的生成,"Hierarchical Parallel Planner"利用多尺度的Target和驾驶决策实现分层并行的轨迹解码,由粗到细的生成更优的自 车轨迹。开闭环上的结果还不错,比ImpromptuVLA高一些。 自动驾驶需要从复杂的多模态输入中生成安全可靠的轨迹。传统模块化流水线将感知、预测和规划分离开来,而近年来的端到端(E2E)系统则对这些任务进行联合 学习。 视觉-语言模型(VLMs)通过引入跨模态先验知识和常识推理进一步丰富了这一范式,但当前基于VLM的规划器面临三大核心挑战: 本文提出ColaVLA,一种统一的视觉-语言-动作框架,该框架将推理过程从文本域迁移至统一潜变量空间,并与分层并行轨迹解码器相结合。认知潜变量推理器通过 自车 ...