ReCogDrive - 财报，业绩电话会，研报，新闻

ReCogDrive

搜索文档

自动驾驶之心· 2025-10-16 07:33

自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向，提供了类人思考能力并通过思维链形式展现决策过程，以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域：模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟，学术界和工业界关注度逐渐下降，自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业，包括智驾方案供应商和车企，均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline（感知→语言→规划→控制），语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器，实现感知→控制的端到端映射，通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块（如Chain-of-Thought、记忆体、工具调用），同步输出控制信号和自然语言解释，支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础，涵盖Vision、Language、Action三个模块基础知识及大模型结合，并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法，包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA，重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA，配套实战代码学习选取华科和小米最新提出的ReCogDrive，涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA，讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法，并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业，要求学员基于ms-swift框架自定义数据集和加载模型，进行训练任务微调，并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展，旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员，具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU，推荐算力在4090及以上，并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念，以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程，预计两个半月结课，采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]

清华教研团队！两个月从零搭建一套自己的自动驾驶VLA模型

自动驾驶之心· 2025-09-28 15:21

自动驾驶VLA技术趋势 - 端到端技术后，视觉语言动作模型成为学术界与工业界焦点，其提供类人思考能力并通过思维链形式展现车辆决策过程，从而提升自动驾驶可靠性及安全性[1] - 自动驾驶VLA目前划分为三个主要子领域：模块化VLA、一体化VLA以及推理增强VLA[1] - 主流自动驾驶企业，包括智驾方案供应商与车企，均在积极投入资源进行自动驾驶VLA的自研攻关，反映出行业对该技术方案的迫切需求[4] 核心技术构成与算法前沿 - 自动驾驶VLA的核心技术涵盖视觉感知、大语言模型、动作建模、大模型部署以及数据集制作等多个关键环节[6] - 该领域最前沿的算法包括思维链、混合专家模型、检索增强生成以及强化学习等[6] - 模块化VLA强调多阶段流程，语言模型在规划决策中扮演主动角色，而一体化VLA则实现感知到控制的端到端直接映射，消除模块间延迟[16] - 推理增强VLA的新趋势是引入长思维链推理、记忆和交互模块，其特点是行动与解释并行输出，支持长时序规划与因果解释[17] 行业应用与人才培养 - 为满足行业对VLA人才的迫切需求，设计了系统的学习路线图，包含从原理到实战的完整内容，旨在推动技术发展并助力从业者深入理解VLA[4][6][22] - 课程内容覆盖三大VLA子领域的前沿算法，并配备实战项目与大作业，重点培养学员复现主流算法及自主设计VLA模型的能力，适用于科研与工程落地[6][16][20][26] - 学习要求学员自备高性能GPU，并具备自动驾驶基础、Transformer大模型、强化学习等相关技术知识，目标使学员在实习、校招及社招中受益[26]

一文尽览！近一年自动驾驶VLA优秀工作汇总~

自动驾驶之心· 2025-07-15 20:30

自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式，视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作，重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene，解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法：导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能，实现超视距推理能力[2][6] - 在NuInstruct基准测试中，Qwen2.5-7B模型表现最佳，多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA，统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练，在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力，可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据，通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS，创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集，包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准，包含16,185个QA对，覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术，但车端必要性存疑[50] - 时序处理研究不足，与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平，验证技术可行性[50]

自动驾驶之心· 2025-06-22 22:09

自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式视觉-语言-动作(VLA)方法伴随具身智能兴起相关论文横扫前沿领域 [2] - 主机厂如理想文远知行小米小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作关注自适应推理强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段覆盖4类非结构化场景显著提升模型性能 [14][18] - DriveAction基准含16185个QA对直接关联驾驶操作支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强需适配车端实时性要求 [47] - 小米博世清华等机构积极布局VLA研发形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]