端到端自动驾驶

搜索文档
双非硕多传感融合方向,技术不精算法岗学历受限,求学习建议。。。
自动驾驶之心· 2025-08-13 21:06
自动驾驶之心知识星球,截止到目前已经完成了产业、学术、求职、问答交流等多个领域的闭环。几个运营的小伙伴每天都在复盘,什么样的社区才是大家需要 的?我们有没有什么地方没有考虑到?花拳绣腿的不行、没人交流的也不行、找不到工作的更不行。星球内部为大家梳理了近40+技术路线,无论你是咨询行业 应用、还是要找最新的VLA benchmark、综述和学习入门路线,都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾,都是活跃在一线产业界 和工业界的大佬(经常出现的顶会和各类访谈中哦)。欢迎随时提问,他们将会为大家答疑解惑。 我们是一个认真做内容的社区,一个培养未来领袖的地方。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 双非的同学还是很难的,尤其是自驾算法方向的同学。。。 最近有双非的同学咨询我后续的学习建议,多传感器融合定位方向但学东西都不是很精,现在考虑毕业找工作开始发愁。。。 (向峰哥和柱哥提问,欢迎加入『自动驾驶之心知识星球』) 对于双非的同学,我真心的建议一定要找对圈子。身边的同学五花八门,学习氛围不是很浓,意志不强很容易被带偏。技术短板只要肯 ...
传统感知逐渐被嫌弃,VLA已经上车了?!
自动驾驶之心· 2025-08-13 14:04
理想i8与VLA司机大模型 - 理想i8成为首款搭载VLA司机大模型的理想车型 核心能力包括空间理解 思维能力 沟通与记忆能力以及行为能力 [2] - VLA能力提升体现在三方面 更懂语义(多模态输入) 更擅长推理(思维链) 更接近人类驾驶直觉 [2] - 行驶中可响应自然语言指令如"靠边停一下""往前走50米" 并能根据记忆设定路段速度 主动规避障碍 [5] VLA技术发展现状 - VLA是自动驾驶量产新里程碑 技术从E2E+VLM递进发展 行业多家公司投入研发 [7] - 技术栈涉及大语言模型 BEV感知 扩散模型 强化学习等多领域 转行门槛较高 [19] - 当前招聘需求旺盛 VLA算法专家岗位薪资达40-70K 量化部署工程师40-60K [15] 端到端自动驾驶课程体系 课程内容架构 - 第一章概述端到端发展历史 从模块化到一段式 二段式及VLA范式的演进 [26] - 第二章重点讲解大语言模型 BEV感知 扩散模型等背景知识 覆盖未来两年高频技术关键词 [26][33] - 第三章解析二段式端到端 包括PLUTO CARPLANNER(CVPR'25)等经典算法 [27] - 第四章深度剖析一段式端到端子领域 涵盖UniAD 世界模型 扩散模型及VLA前沿方案 [28][30][32][35] 教学特色 - 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [21] - 配套RLHF微调大作业 可迁移至VLA算法 提供ORION等实战项目 [35][37] - 课程目标使学员达到1年经验算法工程师水平 掌握BEV感知 多模态大模型等关键技术 [42] 行业技术趋势 - 世界模型应用广泛 涵盖场景生成 端到端驾驶及闭环仿真 成为近年热门方向 [30] - 扩散模型与VLM结合实现VLA 多模轨迹预测提升环境适应性 多家公司尝试落地 [32] - VLA技术上限高但难度大 小米ORION 慕尼黑工大OpenDriveVLA等方案推动量产进程 [35]
闭环碰撞率爆降50%!DistillDrive:异构多模态蒸馏端到端新方案
自动驾驶之心· 2025-08-12 07:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 华东理工大学、商汤研究院、悉尼大学 最新的工作! DistillDrive:异构蒸馏框架显著降低自动驾驶碰 撞率50% ! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 简介 端到端自动驾驶近年来取得了显著进展,这主要得益于感知技术和模仿学习的进步。如图1(b)所示,该方法直接从复杂的传感器输入学习到最终的规划和决 策,消除了中间的数据传递和目标表征过程,从而显著减少了级联误差。然而在闭环实验中,图1(a)中感知分离的规划模型表现优于端到端模型,这得益于其 论文链接:https://arxiv.org/abs/2508.05402 代码链接:https://github.com/YuruiAI/DistillDrive 对比学习和仿真实验。尽管如此,它在感知和规划之间面临着耦合障碍。 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Rui Yu等 编辑 | 自动驾驶之心 写在前面 & ...
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-08-11 20:17
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 具身智能无疑是今年最热的方向。从几年前的沉寂到去年的疯狂,再到25上半年开始逐渐冷静。大家慢慢回过神来,具身机器人还远远未到生产力的阶段。 (向峰哥和柱哥提问,欢迎加入『自动驾驶之心知识星球』) 以下是知识星球内部一位双非同学的提问,非常有代表性: 各位大佬们好,我目前是一个双非的研究生,我的研究方向是多传感器融合定位的,然后学过python,深度学习,ros,但都学的不是很精,现在想多学一点为 以后找工作用,感觉算法岗我的学历可能不太行,请问各位大佬们我应该往哪个方向学比较好呢?具身智能感觉也还不太成熟,不确定这波热度能到什么时 候?请问各位大佬后面应该学些什么知识呢? 星主回答:你的技术栈都比较偏机器人一些,SLAM和ROS这块都可以尝试一下和机器人/具身智能打交道。这块需求也比较大,可以做一些优化、集成类工作~另 一方面,我们了解到大一些的公司各家的hc都不是很高,要求基本上都是端到端、大模型、VLA、强化学习、3DGS这些比较前沿的方向。如果你做的是这块,是 有机会的,很多tire 1的公司或者主机厂 ...
即将开课!端到端与VLA自动驾驶小班课来啦(扩散模型/VLA等)
自动驾驶之心· 2025-08-11 07:32
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,自UniAD获得CVPR Best Paper后引发国内智驾军备竞赛 [2] - 2024年理想汽车宣布E2E+VLM双系统架构量产,技术通过传感器数据直接输出规划或控制信息,避免模块化方法误差累积 [2] - BEV感知打破模块化壁垒,UniAD统一感知和规划任务,推动端到端技术进入新阶段 [2] - 当前技术需掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等跨领域知识 [3] 技术课程核心内容 - 课程涵盖二段式端到端(PLUTO)、一段式端到端(UniAD)、基于世界模型(OccWorld)、基于扩散模型(DiffusionDrive)及VLA方向 [7] - 第一章解析端到端发展历史及模块化到端到端的演变,对比一段式、二段式、VLA范式优缺点 [9] - 第二章重点讲解背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习及BEV感知 [9][12] - 第三章聚焦二段式端到端,分析PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [10] - 第四章深入一段式端到端与VLA,覆盖UniAD、OccWorld、DiffusionDrive及ORION等实战案例 [11] 课程特色与目标 - 采用Just-in-Time Learning理念,帮助学员快速掌握核心技术栈并构建领域框架 [4][5] - 结合实战环节完成理论到实践闭环,包括RLHF微调及VLA算法复现 [6][13] - 学员需具备自动驾驶基础、Transformer/BEV感知等知识,课程目标为达到1年算法工程师水平 [18] - 课程进度安排为3个月,分章节解锁内容并配备VIP群答疑 [18] 行业趋势与就业需求 - 端到端自动驾驶成为智能驾驶代表方向,学术界与工业界加速布局VLA等前沿技术 [2][11] - VLA技术因上限高、难度大成为招聘热点,涉及VLM、BEV、扩散模型等多技术融合 [11] - 扩散模型在多模轨迹预测中应用广泛,DiffusionDrive等作品推动工业界落地尝试 [11][12]
自动驾驶二十年,这个自动驾驶黄埔军校一直在精打细磨...
自动驾驶之心· 2025-08-10 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自从2009年, 谷歌开启自动驾驶技术研发热潮(现称 Waymo ), 自动驾驶发展近二十年了,当下正处于行业下沉的关键期。 一路走来,从模块化方法到现在的端到端/VLA方法,伴随着智驾能力的不断攀升,我们对实现真正的自动驾驶也抱有更高的期待,真心希望智能驾驶可以融入 我们日常的出行当中。在这期间,我们也一直在紧跟自动驾驶前沿。我们一直精打细磨的知识星球到目前为止已经完成了产业、学术、求职、问答交流等多个领 域的闭环。几个运营的小伙伴每天都在复盘,什么样的社区才是大家需要的?刚入行的小白如何快速入门?有基础的同学如何持续提升?转行的小伙伴如何有效 学习?我们做了很多很多...... 未来我们计划继续优化星球内容,今天也和大家汇报一下:打算开展一个星友面对面的模块,争取每个月线上和大家一起聊聊,针对共性的问题一起探讨下。未 来还将持续邀请邀请学术界和工业界的大佬做一些有深度的圆桌访谈! 我们是一个认真做内容的社区,一个培养未来领袖的地方。自动驾驶之心一直致力在推动行业发展,成为企业和高校沟通的桥梁。我们的愿景是 ...
即将开课!彻底搞懂端到端与VLA全栈技术(一段式/二段式/VLA/扩散模型)
自动驾驶之心· 2025-08-06 07:32
理想i8与VLA技术发布 - 理想i8在品牌十周年之际上市,重点推出辅助驾驶功能升级,并首发VLA(视觉-语言-动作模型)司机大模型,成为首款搭载该技术的理想车型 [2] - VLA将作为全系i8车型标配功能,计划于8月随车辆交付 [2] - VLA技术突破体现在三方面:多模态语义理解(空间/思维/沟通记忆/行为)、思维链推理能力、接近人类驾驶直觉的决策能力 [3] - 具体功能包括:执行自然语言指令(如"靠边停")、记忆路段速度偏好、语音搜索目的地(如"找最近星巴克")、复杂路况风险评估与避障 [6] VLA技术架构与行业影响 - VLA整合端到端与大模型优势,融合视觉空间理解(BEV感知)、语言模型思维推理(含RAG记忆)、多模态输入处理能力 [3] - 技术演进路径:从E2E+VLM到VLA,代表自动驾驶量产新里程碑,引发行业人才转型热潮(传统规控/感知方向从业者转向VLA) [5] - 技术流派分化:一段式(UniAD/OccWorld/DiffusionDrive)与二段式(PLUTO)并行发展,VLA成为大模型时代端到端新方向 [8][23] - 人才市场需求旺盛:VLA算法专家月薪达40-70K(15薪),博士级顶尖人才年薪90-120K(16薪),实习岗位日薪220-400元 [11] 端到端技术发展趋势 - 技术迭代加速:2023年工业级端到端方案已不适应2024年环境,需掌握多模态大模型/BEV感知/强化学习/扩散模型等复合技能 [14] - 学术前沿动态:基于感知的UniAD、基于世界模型的OccWorld、基于扩散模型的DiffusionDrive形成三大技术分支 [23] - VLA成为技术制高点:融合VLM/BEV/扩散模型/强化学习,代表端到端自动驾驶最高难度,小米ORION等开源项目推动工业落地 [25] 技术人才培养体系 - 行业推出《端到端与VLA自动驾驶小班课》,覆盖技术发展史、背景知识(Transformer/BEV/扩散模型/RLHF)、一段式/二段式实现方案 [21][22][24] - 课程设计特点:Just-in-Time快速入门、构建研究框架(论文分类/创新点提取)、RLHF微调实战(ORION案例复现) [16][17][18][26] - 培养目标:3个月达到1年经验算法工程师水平,掌握主流框架复现能力(扩散模型/VLA),适配实习/校招/社招需求 [32]
面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)
自动驾驶之心· 2025-08-05 07:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 北京大学,小鹏汽车 最新的工作! FastDriveVLA:对抗性视觉token剪枝,50%压缩率下性能保持 97.3%! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文链接:https://www.arxiv.org/pdf/2507.23318 不过,VLM/VLA 模型通常将输入图像编码为大量视觉,会带来高昂的计算开销与推理延迟,在车载芯片上实际部署时有着较高的时延压力。为缓解这一问题,现 有研究主要从两个方向进行视觉 token 剪枝: 1. 注意力机制导向方法 依据文本 token 与视觉 token 之间的注意力权重进行筛选。但是因为驾驶任务中的文本指令往往固定且简短,提供的监督信息有限,导致剪枝效果不佳。 2. 相似度导向方法 论文作者 | Jiajun Cao等 编辑 | 自动驾驶之心 写在前面 && 笔者理解 近年来,端到端自动 ...
性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV'25)
自动驾驶之心· 2025-08-04 07:32
核心观点 - 上海科技大学与香港中文大学联合提出的ReAL-AD框架通过模拟人类"策略-战术-操作"三层级联推理机制,显著提升端到端自动驾驶的决策能力 [3] - 该框架引入视觉-语言模型(VLM)作为"副驾驶",将环境感知转化为结构化推理指令,实现从语义策略到可执行轨迹的分层解码 [3][5] - 在nuScenes和Bench2Drive数据集测试中,ReAL-AD的L2误差和碰撞率比基线模型降低超30%,驾驶评分提升11% [36][37][39] 技术架构 策略推理注入器 - 采用VLM生成驾驶策略文本(如"看到足球→可能有小孩→需减速避让"),通过预训练语言编码器映射至语义空间 [7][11] - 设计轻量级adaptor模块弥合语义空间与视觉特征的差距,使用余弦相似度损失确保策略语义与规划动态一致 [12] 战术推理整合器 - 将抽象策略转化为结构化指令,包括方向、紧急、车道、速度四类可执行命令 [15][17] - 通过正则表达式解析VLM输出,并采用类别特定编码器生成反应层(方向/紧急)与监管层(车道/速度)指令 [16][19] 分层轨迹解码器 - 第一层解码器基于反应级指令生成粗略运动模式(潜码z^ε),第二层融合监管级指令输出精细轨迹 [22][25] - 采用双潜变量流处理时间维度,粗粒度流预测宏观运动模式,细粒度流生成精确航点序列 [27] 性能表现 开环评估 - 在nuScenes数据集实现0.48米平均L2误差(行业基线0.72米)和0.15%碰撞率(基线0.22%) [36][38] - Bench2Drive数据集上达到0.84米L2误差,较VAD基线提升10.6% [39] 闭环评估 - 驾驶评分提升至41.17(基线39.42),成功率提高1.36个百分点 [39] - 使用Qwen-VL模型时保持0.87米L2误差,验证框架兼容性 [39] 技术创新 - 首创策略-战术双阶段指令生成机制,使VLM输出可直接指导轨迹规划 [14][19] - 分层变分解码器实现人类式"先直觉反应后精细调整"的决策过程,较传统MLP解码器降低7%轨迹误差 [25][41] - 复合损失函数整合策略语义对齐、轨迹编码监督和分层KL散度约束,优化端到端训练效果 [29][31][33]
开课倒计时!国内首个自动驾驶端到端项目级教程来啦~
自动驾驶之心· 2025-08-02 14:00
端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂技术竞争的核心领域 自去年E2E+VLM双系统架构成功以来 行业加速迭代 今年上半年VLA概念进一步推动量产方案升级 [2] - 行业人才需求旺盛 3-5年经验的VLM/VLA岗位年薪达百万 月薪高达80K 校招/社招转岗需求激增 [2] - 技术流派分化明显 包括以PLUTO为代表的二段式端到端 以UniAD为代表的一段式端到端 以及基于世界模型/扩散模型/VLA的新兴流派 [4] 技术流派分类与特点 - **二段式端到端**:通过模型实现自车规划 代表工作包括港科技PLUTO 浙大CarPlanner(CVPR'25) 中科院Plan-R1 相比一段式具有明确规划模块优势 [4][20] - **一段式端到端**: - 基于感知的方法:UniAD持续迭代 地平线VAD和CVPR'24的PARA-Drive推动性能提升 [21] - 基于世界模型的方法:AAAI'25的Drive-OccWorld和复旦OccLLaMA拓展场景生成与闭环仿真应用 [21] - 基于扩散模型的方法:DiffusionDrive/Diffusion Planner/吉大DiffE2E实现多模轨迹预测 适应环境不确定性 [21] - 基于VLA的方法:小米ORION 慕尼黑工大OpenDriveVLA 最新ReCogDrive代表大模型时代技术前沿 [21] 核心技术栈与学习路径 - 必备技术包括大语言模型 BEV感知 扩散模型理论 强化学习与RLHF DEEPSEEK优化技术等 构成未来两年求职高频考点 [6][22] - 学习难点在于多领域知识融合(多模态大模型/BEV/强化学习/视觉Transformer/扩散模型) 论文碎片化 缺乏实战闭环指导 [12][13] - 行业推出《端到端与VLA自动驾驶小班课》 采用Just-in-Time Learning理念 覆盖技术框架构建(第二章) 二段式(第三章) 一段式与VLA(第四章) 及RLHF微调实战(第五章) [14][15][16][21][23] 职业发展前景 - VLA/VLM大模型算法专家岗位3-5年经验硕士薪资达40-70K·15薪 博士应届生可达90-120K·16薪 实习生日薪220-400元 [11] - 职业路径包括算法岗技能深化 或转型自动驾驶大模型工程师 需掌握VLM/VLA多模态 模型量化部署等核心技术 [9][10] - 课程目标使学员达到1年经验算法工程师水平 可复现扩散模型/VLA框架 应用于实习/校招/社招场景 [28] 课程体系设计 - 第一章梳理端到端发展历史 对比模块化/一段式/二段式/VLA范式优缺点 分析学术与工业界动态 [19] - 第二章重点突破背景知识 包括Transformer扩展至视觉Transformer CLIP/LLAVA多模态基础 BEV感知实现3D检测/车道线/OCC等核心功能 [22] - 实战环节配置Diffusion Planner和小米ORION开源项目 结合RLHF微调大作业强化工程能力 [21][23] - 课程周期3个月 8月15日开课 分阶段解锁章节 需自备4090及以上GPU算力 要求具备Transformer/BEV/强化学习基础概念 [28]