Workflow
ReCogDrive
icon
搜索文档
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-09-28 15:21
端到端之后,学术界和工业界聚焦的方向是什么?无疑是VLA。VLA提供了类人思考的能力,把车辆决策的过程通过思维链的形式展现出来,从而提供 更可靠更安全的自动驾驶能力。 自动驾驶VLA目前可以分为模块化VLA、一体化VLA和推理增强VLA三个子领域。 自动驾驶VLA涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等等。最前沿的算法包括CoT、MoE、RAG、强化学 习。通过学习VLA,可以让自己对自动驾驶的感知系统有更深刻的认知。 为此我们联合 清华大学的教研团队 开展了这门《自动驾驶VLA与大模型实战课程》!课程包含自动驾驶VLA三个子领域前沿算法的细致讲解,并会配 备两个实战及一个课程大作业深入理解自动驾驶VLA。 扫码报名!抢占早鸟名额 讲师介绍 咖喱,清华大学硕士生 :在ICCV/IROS/EMNLP/Nature Communications发表论文若干篇。目前从事多模态感知、自动驾驶VLA、大模型Agent等前沿算 法的预研,并已主持和完成多项自动驾驶感知和大模型框架工具,拥有丰富的自动驾驶、大模型研发和实战经验。 从技术的成熟度及就业的需求来看,自动驾驶VLA是各家 ...
一文尽览!近一年自动驾驶VLA优秀工作汇总~
自动驾驶之心· 2025-07-15 20:30
自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式,视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作,重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene,解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法:导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能,实现超视距推理能力[2][6] - 在NuInstruct基准测试中,Qwen2.5-7B模型表现最佳,多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA,统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练,在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力,可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据,通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS,创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集,包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准,包含16,185个QA对,覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术,但车端必要性存疑[50] - 时序处理研究不足,与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平,验证技术可行性[50]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 22:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]