自动驾驶VLA

搜索文档
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-18 07:33
VLA绝对是今年自动驾驶学术界和工业界的主流关键词。 去年的端到端+VLM,标志着智能驾驶从规则驱动向数据驱动的根本转变。在实际中使用我们发现,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场 景仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。 VLA本质上也可以算作是一种端到端,不过更加直白和干净,很多方法也取消了传统端到端的复杂的3D感知任务。借鉴VLM更强大的通用泛化能力,除了任务更简洁, VLA更重要的还是提供了一种解决corner case的可能性。 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。自动驾驶VLA的技术栈仍然没有收敛!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 前一段时间我们推出了《端到端与VLA自动驾驶小班课》,这门课侧重在端到端自动驾驶的技术栈梳理,同学们的反馈很好。 所以很多同学联系自动驾驶之心想学习更多 关于VLA的前沿知识! 因此我们联合国内外的教研团队共同打造了《自动驾驶VLA实战教程》,针对自动驾驶VLA的技术栈进行了全面的梳理。 学习自动驾驶VLA,是一个一站式强化多领域 ...
决定了!还是冲击自动驾驶算法
自动驾驶之心· 2025-08-30 12:03
自动驾驶行业人才需求与就业趋势 - 自动驾驶算法岗位薪资在AI行业中属于顶薪水平 特别是端到端、VLA和强化学习等方向[1] - 行业存在大量人才需求 主机厂和Tier 1企业积极招聘优秀人才攻坚L3/L4级别量产难题[1] - 具身智能领域热度上升 部分从业者转向机器人赛道 但自动驾驶行业仍需更多专业人才[1] 自动驾驶之心知识社区生态 - 社区成立三年 已发展成集视频、图文、学习路线、问答和求职交流的综合型平台[1] - 当前社区规模超过4000人 目标两年内达到近万人规模[1] - 社区提供40+技术路线梳理 涵盖端到端自动驾驶、VLA benchmark等前沿方向[2][5] - 邀请数十位产业界和学术界一线专家入驻 包括经常出现在顶会和访谈中的行业领袖[2] 技术研究方向与资源汇总 - 汇总近40个自动驾驶技术方向 包括BEV感知、扩散模型、世界模型等核心领域[5][13] - 整理近60个自动驾驶数据集 包含多模态大模型预训练数据集和VLA微调专用数据集[13][30] - 提供100问系列专业解答 包括TensorRT部署、毫米波雷达融合等工程实践问题[6] - 开源项目覆盖3D目标检测、闭环仿真3DGS、自动驾驶大模型等关键领域[29] 行业培训与学术交流 - 开设全栈方向学习课程 专门针对0基础入门者设计[7][9] - 举办超过100场专业技术直播 邀请顶尖高校和企业专家分享最新研究成果[54] - 直播内容涵盖V2X技术发展、神经符号系统、3D检测基础模型等前沿话题[54] - 与国内外300多家机构和自动驾驶公司建立交流机制[66] 企业合作与就业服务 - 与多家自动驾驶公司建立内推机制 直接对接企业招聘需求[9] - 社区成员来自蔚小理、地平线、华为、大疆等头部企业[13] - 覆盖高校包括上海交大、清华大学、CMU、ETH等国内外知名院校[13] - 提供职业规划咨询 帮助解决offer选择、研究方向选择等实际问题[59][61] 技术发展前沿动态 - 端到端自动驾驶成为学术界和工业界研究热点 涵盖一段式/二段式量产方案[31] - 2025年VLA(视觉语言动作模型)成为最火方向 社区详细梳理最新综述和开源数据集[36] - 世界模型技术汇总涵盖技术前沿和业界应用 成为当前研究重点[33] - 3DGS与NeRF技术应用于自动驾驶场景重建与闭环仿真[32] 行业发展趋势分析 - 2025年上半年自动驾驶面临量产挑战 学术界关注技术方向转型[64] - 端到端范式在学术界呈现多样化发展 但数据集迭代速度需跟上技术发展[63] - 无图NOA量产方案依赖在线高精地图技术 成为工业界关注重点[43] - 主流量产方案仍采用多模块融合方式 需要5个以上模型协同工作[61]
自动驾驶VLA工作汇总(模块化/端到端/推理增强)
自动驾驶之心· 2025-08-12 19:42
文章核心观点 - 文章梳理了近两年VLA(Vision-Language-Action)在自动驾驶领域的发展路线和算法汇总,涵盖前置工作、模块化VLA、端到端VLA和推理增强VLA等多个方向 [1][3][4][6] - 介绍了多个相关论文和开源项目,包括DriveGPT4、TS-VLM、DynRsl-VLM、RAG-Driver、OpenDriveVLA、DriveMoE等 [3][4][6][9] - 提供了自动驾驶之心知识星球的详细信息,包括技术路线、学习资源和行业资源 [7][10][15] VLA前置工作 - DriveGPT4提出通过大型语言模型实现可解释的端到端自动驾驶 [3] - TS-VLM采用文本引导的SoftSort池化方法用于多视角驾驶推理的视觉语言模型 [3] - DynRsl-VLM通过动态分辨率视觉语言模型增强自动驾驶感知能力 [3] 模块化VLA - RAG-Driver在多模态大型语言模型中通过检索增强的上下文学习实现通用驾驶解释 [4] - OpenDriveVLA致力于构建端到端自动驾驶的大型视觉语言动作模型 [4] - DriveMoE采用专家混合方法构建端到端自动驾驶的视觉语言动作模型 [4] - LangCoop探索语言协作驾驶 [4] - SafeAuto利用多模态基础模型实现知识增强的安全自动驾驶 [4] - ReCogDrive提出强化认知框架用于端到端自动驾驶 [4] 端到端VLA - ADriver-I构建自动驾驶通用世界模型 [6] - EMMA是端到端多模态自动驾驶模型 [6] - CoVLA提供全面的视觉语言动作数据集用于自动驾驶 [6] - SimLingo实现仅视觉的闭环自动驾驶与语言动作对齐 [6] - DiffVLA采用视觉语言引导扩散规划用于自动驾驶 [6] - S4-Driver是具备时空视觉表示的可扩展自监督驾驶多模态大型语言模型 [6] - ORION是通过视觉语言指令动作生成的整体端到端自动驾驶框架 [6] - Impromptu VLA提供开放权重和开放数据用于驾驶视觉语言动作模型 [6][9] 推理增强VLA - FutureSightDrive通过时空思维链实现视觉思考的自动驾驶 [9] - AutoVLA是具备自适应推理和强化微调的端到端自动驾驶视觉语言动作模型 [9] - Drive-R1通过强化学习桥接自动驾驶视觉语言模型中的推理和规划 [9] 自动驾驶之心知识星球 - 社区汇总40+技术路线、60+数据集和行业主流仿真平台 [7][15] - 提供自动驾驶感知、仿真、规划控制等多领域学习路线 [15] - 成员来自国内外知名高校和头部自动驾驶公司 [15] - 建立与多家自动驾驶公司的岗位内推机制 [11] - 为入门者提供完备的技术栈和路线图 [12] - 为研究者提供有价值的产业体系和项目方案 [13]
自动驾驶前沿方案:从端到端到VLA工作一览
自动驾驶之心· 2025-08-10 11:31
自动驾驶技术趋势 - 端到端自动驾驶方案分为一段式和二段式,一段式直接建模传感器输入到轨迹输出,二段式侧重感知输入与轨迹预测联合优化 [3] - 主流一段式方案包括基于感知的UniAD、基于扩散模型的DiffusionDrive、基于世界模型的Drive-OccWorld,量产中会融合多种方法优势 [3] - VLA(视觉语言模型+端到端)通过大模型提升场景理解能力,当前研究涵盖语言解释器、模块化VLA、端到端VLA及推理增强算法 [5] 技术资源体系 - 社区整合40+技术路线,覆盖VLA benchmark、综述、入门路线及产业项目方案 [7][15] - 汇总60+自动驾驶数据集,包括多模态大模型预训练/微调数据集、强化学习数据集等 [35] - 梳理近40+开源项目,涉及3D目标检测、BEV感知、世界模型、3DGS等前沿领域 [33] 行业生态与人才 - 社区成员来自国内外顶尖高校(清华、CMU、ETH等)及头部企业(蔚小理、华为、英伟达等) [19] - 建立企业内推机制,覆盖RoboTaxi、重卡、造车新势力等自动驾驶相关公司 [10][29] - 定期举办100+场技术直播,分享VLA、3D检测、扩散模型等最新研究成果 [82] 关键技术研究方向 - 端到端自动驾驶研究聚焦纯视觉/多模态方案、世界模型结合、长尾分布处理等细分方向 [26][37] - 世界模型应用涵盖场景生成、交通仿真、传感器仿真等技术落地路径 [26][41] - BEV感知作为量产基石,覆盖纯视觉/多模态方案及工程部署优化 [50] - 3D目标检测技术路线包括激光点云、单目/双目视觉、多模态融合等方法 [52]