Workflow
OpenEMMA
icon
搜索文档
刷完了端到端和VLA新工作,这9个开源项目最值得复现......
自动驾驶之心· 2026-01-10 11:47
文章核心观点 - 文章精选了2025年高价值的自动驾驶开源项目,其筛选标准基于代码可获取性、项目活跃度及GitHub Star数量,旨在为快速上手端到端自动驾驶提供从数据清洗、训练配方到闭环评测的全套工程参考方案[4][5] 开源项目概览 - **DiffusionDrive**: 由华中科技大学与地平线联合发布,通过引入多模态驾驶锚点与截断扩散日程,将扩散模型的去噪步骤简化为2-4步,实现了45 FPS的实时性能,并在NAVSIM基准上取得88.1的PDMS分数[6][8] - **OpenEMMA**: 由德克萨斯农工大学、密歇根大学等多所高校联合发布,通过引入Chain-of-Thought推理机制,在多种现有多模态大语言模型上提升复杂场景下的泛化能力,无需从头训练巨量参数[11] - **Diffusion-Planner**: 由清华大学、中国科学院自动化研究所等机构联合发布,基于Transformer的扩散模型生成多模态轨迹,解决了模仿学习的“平均解”困境,在nuPlan大规模闭环基准上取得领先性能,并在200小时的实车配送数据集上验证了其适应性[14] - **UniScene**: 由上海交通大学、东方理工大学宁波数字孪生研究院等机构联合发布,提出以占据为统一中间表达的多模态生成框架,通过“布局→占据→多模态数据”的渐进式生成机制,同步产出视频、点云与占据标注,降低数据制备成本[15][16] - **ORION**: 由华中科技大学与小米汽车联合发布,提出统一对齐视觉、推理与动作空间的框架,通过QT-Former聚合历史信息并利用LLM输出“规划token”,在Bench2Drive闭环评测中显著提升了驾驶得分与成功率[18] - **FSDrive**: 由西安交通大学、高德地图与阿里巴巴达摩院联合发布,提出“用画面思考”的视觉化推理范式,训练统一的VLA模型预测包含结构化先验的未来场景画面,并在nuScenes、NAVSIM等基准上提升了轨迹精度与安全性[21] - **AutoVLA**: 由加利福尼亚大学洛杉矶分校发布,提出将连续轨迹离散化为物理可行的动作token的自回归生成式框架,模型通过监督微调和强化学习微调,在nuPlan、Waymo等多个基准上验证了其竞争力[24] - **OpenDriveVLA**: 由慕尼黑工业大学与慕尼黑大学发布,是一个开源的端到端驾驶VLA模型,采用分层视觉-语言对齐方法,在nuScenes数据集上验证了其在开放环路规划与驾驶问答任务上的有效性[26] - **SimLingo**: 提出了一个多任务联合训练框架,旨在实现驾驶行为、视觉语言理解与语言-动作一致性三者的统一对齐,作为CARLA Challenge 2024的获胜方案之一,在Bench2Drive等闭环评测中达到领先水平[29] 项目亮点与趋势 - **技术焦点**: 多个项目聚焦于解决端到端自动驾驶中感知与规划间的模态断层问题,通过引入结构化先验、视觉化推理或统一语义空间等方法进行融合[8][18][21][26] - **性能优化**: 项目致力于在保持或提升规划质量的同时优化实时性能,例如DiffusionDrive通过简化扩散步骤实现45 FPS的实时推理[8] - **数据与成本**: 针对高质量数据获取成本高昂的瓶颈,出现了如UniScene这类专注于多模态数据合成的框架,以降低下游任务的数据制备投入[16] - **框架轻量化**: 部分项目如OpenEMMA,通过改进推理机制而非增加参数量,旨在降低算力与数据门槛,加速大模型在自动驾驶领域的落地[11] - **工程价值**: 文章强调这些开源项目提供了可复用的工程模板、完整训练配方和评测方案,是开发者构建技术直觉和快速上手的“工程积木”[4][31]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 22:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]