端到端自动驾驶
搜索文档
闭环碰撞率爆降50%!DistillDrive:异构多模态蒸馏端到端新方案
自动驾驶之心· 2025-08-12 07:33
端到端自动驾驶技术发展 - 端到端自动驾驶近年来发展迅速,对工业界和学术界均产生深远影响,但现有工作过度关注自车状态作为唯一学习目标,缺乏面向规划的理解能力 [2] - DistillDrive框架通过异构蒸馏显著降低自动驾驶碰撞率50%,闭环性能提升3个百分点 [2] - 与感知分离的规划模型相比,端到端模型直接从传感器输入学习到最终规划决策,减少级联误差但闭环表现较差 [3] DistillDrive技术创新 - 采用多模态解耦规划模型作为教师模型,通过知识蒸馏监督端到端模型的运动引导实例交互 [6] - 引入强化学习优化状态到决策的映射关系,利用生成式建模构建面向规划的实例 [6] - 主要贡献包括:多模态实例监督蒸馏架构、基于强化学习的状态优化、生成模型实现的分布级交互 [7] 技术实现细节 - 教师模型包含智能体编码器、场景编码器、规划解码器、预测头和状态优化模块 [20] - 学生模型采用稀疏场景表示和生成模型中的规划导向交互,通过KL散度监督分布 [25][27] - 知识蒸馏架构包含编码器实例蒸馏、解码器实例蒸馏和运动属性蒸馏三阶段 [30] 实验验证结果 - 在nuScenes数据集上碰撞率降低50%,L2误差减少10%,闭环性能提升3个百分点 [37] - NAVSIM数据集上PDMS指标比Transfuser高出2.5%,DAC和EP指标显著提升 [38] - 感知性能与SparseDrive相当,但在IDS等指标上有所提升 [39] 行业技术发展 - 端到端自动驾驶技术快速发展,UniAD利用注意力机制集成检测跟踪建图,VAD通过向量化表示平衡准确性与性能 [9] - 知识蒸馏在自动驾驶规划领域应用广泛,Roach、PlanKD和Hydra-MDP等采用不同蒸馏策略 [11] - 强化学习在CARLA等仿真环境中应用成熟,结合模仿学习可防止分布外值过度估计 [14][16] 未来发展方向 - 计划将世界模型与语言模型结合提升规划性能 [55] - 采用更有效的强化学习方法理解场景语义几何空间与决策规划空间关系 [55] - 行业正形成大模型、VLA、端到端、数据闭环等技术交流社区,涵盖30+技术方向 [58][60]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-08-11 20:17
具身智能行业现状 - 具身智能是2025年最热门方向之一 但当前仍处于技术探索阶段 尚未达到生产力转化阶段[1] - 行业经历从沉寂到疯狂再到冷静的周期 初创公司融资活跃但技术成熟度有限[3] - 头部企业对具身智能人才需求集中在端到端、大模型、VLA、强化学习等前沿方向[3] 自动驾驶技术发展趋势 - 主流技术路线正从无图方案向端到端架构迁移 技术栈迭代周期为1-2年[3] - 行业关注重点包括LV融合、BEV感知、3DGS、世界模型等方向[3][20][26] - 传统机器人技术仍是产品主线 但前沿算法研究投入持续加大[3] 自动驾驶人才需求 - 算法岗竞争激烈 学历门槛较高 更倾向招收掌握端到端、大模型等前沿技术的人才[3] - 机器人/具身智能领域存在SLAM、ROS等技术优化与集成类岗位机会[3] - 初创公司提供全面技术培养机会 但工作强度较大[3] 自动驾驶技术社区资源 - 社区覆盖40+技术路线 包含VLA benchmark、综述、学习路线等系统化资源[6][20] - 汇集国内外顶尖高校实验室及头部企业资源 形成产学研闭环[19][20][27][29] - 提供60+数据集、40+开源项目及主流仿真平台资源[20][33][35] 前沿技术研究热点 - 端到端自动驾驶技术涵盖量产方案、VLA算法、世界模型结合等方向[26][37] - 3DGS与NeRF技术在场景重建、闭环仿真领域应用广泛[39] - 视觉语言模型(VLM)在预训练数据集、思维链推理等方向快速发展[43] - BEV感知作为量产基石 覆盖纯视觉与多模态方案[50] - 扩散模型应用于数据生成、场景重建等场景[48] 行业活动与交流 - 社区组织超100场专业技术直播 涵盖VLA、世界模型等前沿主题[82] - 建立头部企业内推机制 实现求职与岗位高效匹配[9][18] - 成员可自由提问工作选择、研究方向等实际问题并获得解答[83]
即将开课!端到端与VLA自动驾驶小班课来啦(扩散模型/VLA等)
自动驾驶之心· 2025-08-11 07:32
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,自UniAD获得CVPR Best Paper后引发国内智驾军备竞赛 [2] - 2024年理想汽车宣布E2E+VLM双系统架构量产,技术通过传感器数据直接输出规划或控制信息,避免模块化方法误差累积 [2] - BEV感知打破模块化壁垒,UniAD统一感知和规划任务,推动端到端技术进入新阶段 [2] - 当前技术需掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等跨领域知识 [3] 技术课程核心内容 - 课程涵盖二段式端到端(PLUTO)、一段式端到端(UniAD)、基于世界模型(OccWorld)、基于扩散模型(DiffusionDrive)及VLA方向 [7] - 第一章解析端到端发展历史及模块化到端到端的演变,对比一段式、二段式、VLA范式优缺点 [9] - 第二章重点讲解背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习及BEV感知 [9][12] - 第三章聚焦二段式端到端,分析PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [10] - 第四章深入一段式端到端与VLA,覆盖UniAD、OccWorld、DiffusionDrive及ORION等实战案例 [11] 课程特色与目标 - 采用Just-in-Time Learning理念,帮助学员快速掌握核心技术栈并构建领域框架 [4][5] - 结合实战环节完成理论到实践闭环,包括RLHF微调及VLA算法复现 [6][13] - 学员需具备自动驾驶基础、Transformer/BEV感知等知识,课程目标为达到1年算法工程师水平 [18] - 课程进度安排为3个月,分章节解锁内容并配备VIP群答疑 [18] 行业趋势与就业需求 - 端到端自动驾驶成为智能驾驶代表方向,学术界与工业界加速布局VLA等前沿技术 [2][11] - VLA技术因上限高、难度大成为招聘热点,涉及VLM、BEV、扩散模型等多技术融合 [11] - 扩散模型在多模轨迹预测中应用广泛,DiffusionDrive等作品推动工业界落地尝试 [11][12]
自动驾驶二十年,这个自动驾驶黄埔军校一直在精打细磨...
自动驾驶之心· 2025-08-10 00:03
自动驾驶行业发展现状 - 自动驾驶技术自2009年谷歌(Waymo)开启研发热潮以来已发展近二十年,当前处于行业下沉关键期,技术路径从模块化方法演进至端到端/VLA方法 [2] - 行业技术能力持续攀升,但实现真正自动驾驶仍需突破,智能驾驶融入日常出行是长期目标 [2] 技术资源与知识体系 - 社区梳理40+技术路线,覆盖VLA benchmark、综述、学习路线等,缩短行业检索时间 [4] - 汇总60+自动驾驶数据集、40+开源项目及主流仿真平台,包含感知/仿真/规划控制等学习路线 [16] - 技术方向覆盖BEV感知、3D目标检测、多传感器融合、Occupancy Network等28个细分领域 [23][47][49][51][54] - 前沿技术包括扩散模型、世界模型、视觉语言模型(VLM)、端到端自动驾驶等热点方向 [38][40][42][45] 行业生态与人才网络 - 社区成员来自上海交大、清华、CMU等顶尖高校及蔚小理、华为、大疆等头部企业,形成产学研闭环 [16] - 与多家自动驾驶公司建立内推机制,直接对接企业招聘需求 [7] - 提供职业发展咨询,涵盖岗位选择、技术转型等实际问题 [80][83] 技术交流与内容产出 - 每月举办星友线上讨论会,针对共性问题深度探讨 [2] - 累计举办超100场专业直播,邀请清华、上海AI Lab等机构专家分享最新研究成果 [79] - 内容形式包含开源项目分析、数据集解读、量产方案拆解等实战型主题 [30][32][34] 教育培训体系 - 针对小白提供完备入门技术栈和路线图 [9] - 为从业者设计算法进阶课程,涵盖CUDA编程、模型部署等工程化内容 [5][64][66] - 开发"自动驾驶100问"系列,聚焦TensorRT部署、毫米波雷达融合等实战问题 [5]
即将开课!彻底搞懂端到端与VLA全栈技术(一段式/二段式/VLA/扩散模型)
自动驾驶之心· 2025-08-06 07:32
理想i8与VLA技术发布 - 理想i8在品牌十周年之际上市,重点推出辅助驾驶功能升级,并首发VLA(视觉-语言-动作模型)司机大模型,成为首款搭载该技术的理想车型 [2] - VLA将作为全系i8车型标配功能,计划于8月随车辆交付 [2] - VLA技术突破体现在三方面:多模态语义理解(空间/思维/沟通记忆/行为)、思维链推理能力、接近人类驾驶直觉的决策能力 [3] - 具体功能包括:执行自然语言指令(如"靠边停")、记忆路段速度偏好、语音搜索目的地(如"找最近星巴克")、复杂路况风险评估与避障 [6] VLA技术架构与行业影响 - VLA整合端到端与大模型优势,融合视觉空间理解(BEV感知)、语言模型思维推理(含RAG记忆)、多模态输入处理能力 [3] - 技术演进路径:从E2E+VLM到VLA,代表自动驾驶量产新里程碑,引发行业人才转型热潮(传统规控/感知方向从业者转向VLA) [5] - 技术流派分化:一段式(UniAD/OccWorld/DiffusionDrive)与二段式(PLUTO)并行发展,VLA成为大模型时代端到端新方向 [8][23] - 人才市场需求旺盛:VLA算法专家月薪达40-70K(15薪),博士级顶尖人才年薪90-120K(16薪),实习岗位日薪220-400元 [11] 端到端技术发展趋势 - 技术迭代加速:2023年工业级端到端方案已不适应2024年环境,需掌握多模态大模型/BEV感知/强化学习/扩散模型等复合技能 [14] - 学术前沿动态:基于感知的UniAD、基于世界模型的OccWorld、基于扩散模型的DiffusionDrive形成三大技术分支 [23] - VLA成为技术制高点:融合VLM/BEV/扩散模型/强化学习,代表端到端自动驾驶最高难度,小米ORION等开源项目推动工业落地 [25] 技术人才培养体系 - 行业推出《端到端与VLA自动驾驶小班课》,覆盖技术发展史、背景知识(Transformer/BEV/扩散模型/RLHF)、一段式/二段式实现方案 [21][22][24] - 课程设计特点:Just-in-Time快速入门、构建研究框架(论文分类/创新点提取)、RLHF微调实战(ORION案例复现) [16][17][18][26] - 培养目标:3个月达到1年经验算法工程师水平,掌握主流框架复现能力(扩散模型/VLA),适配实习/校招/社招需求 [32]
面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)
自动驾驶之心· 2025-08-05 07:33
端到端自动驾驶技术演进 - 端到端自动驾驶方案在单一模型中完成从感知到规划的全过程,相比传统模块化方案减少了信息损失并简化了系统架构 [3] - 视觉-语言-动作(VLA)模型通过引入大语言模型的推理能力,在复杂场景理解和决策方面表现优于传统方法 [3] - 近期研究如SOLVE、OpenDriveVLA结合大模型技术,显著提升了系统性能和可解释性 [9] VLA模型的计算挑战与剪枝需求 - VLA模型将输入图像编码为大量视觉token(如3249个),导致高昂计算开销和推理延迟 [4] - 现有剪枝方法包括注意力机制导向法(如FastV、SparseVLM)和相似度导向法(如VisPruner、DivPrune),但存在监督信息不足或误删关键token的问题 [4][14] - 驾驶场景中文本指令固定且简短,难以提供有效剪枝指导 [4] FastDriveVLA创新框架 - 提出重建式视觉token剪枝框架,核心思想是模仿人类驾驶行为,仅保留与决策相关的前景区域token [5] - 开发即插即用剪枝器ReconPruner,参数量仅0.07B,通过MAE风格像素重建任务训练 [17][19] - 引入对抗式前景-背景重建策略,强制低分token重建背景以防止模型退化 [5][20] nuScenes-FG数据集构建 - 基于nuScenes数据集使用GroundedSAM进行精细前景分割,涵盖人、道路、车辆等关键要素 [12][15] - 包含24.1万张图像-mask对,覆盖六个车载摄像头视角 [6][15] - 明确定义前景与背景区域,背景如建筑物、天空等不影响驾驶决策 [12] 实验性能表现 - 在50%剪枝比例下(保留1624个token),L2误差为32.10cm(相对性能保持99.1%),碰撞率0.25%(保持97.3%) [30][32] - 在25%剪枝比例下(保留2436个token),L2误差31.80cm(超过基线0.1%),碰撞率0.26%(超过基线1.0%) [30] - 在75%剪枝比例下(保留812个token),仍保持最优性能,L2误差32.64cm(保持97.5%) [30] 效率提升效果 - FLOPs降低7.5倍,从38.2T减少至5.1T [37][40] - Prefill延迟减少3.7倍,从187ms/token降至51ms/token [37][40] - Decode延迟减少1.3倍,从23ms/token降至18ms/token [37][40] 方法优势验证 - 消融实验表明像素重建与对抗策略结合效果最佳,单独使用任一策略性能下降 [31][32] - 相比前景掩码剪枝方法(Gt-mask+Text-attn),在50%剪枝率下L2误差降低0.06cm,碰撞率降低0.01% [33][35] - 可视化结果显示能精确保留车道、车辆等关键token,避免背景干扰 [38][46] 行业应用价值 - 为VLA模型高效推理提供新范式,特别适用于具有明确前景区域的自动驾驶任务 [43] - 构建的nuScenes-FG数据集为后续研究提供通用基准 [13][43] - 轻量级设计(0.07B参数)和短训练时间(3小时/2卡H800)利于实际部署 [17][27]
性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV'25)
自动驾驶之心· 2025-08-04 07:32
核心观点 - 上海科技大学与香港中文大学联合提出的ReAL-AD框架通过模拟人类"策略-战术-操作"三层级联推理机制,显著提升端到端自动驾驶的决策能力 [3] - 该框架引入视觉-语言模型(VLM)作为"副驾驶",将环境感知转化为结构化推理指令,实现从语义策略到可执行轨迹的分层解码 [3][5] - 在nuScenes和Bench2Drive数据集测试中,ReAL-AD的L2误差和碰撞率比基线模型降低超30%,驾驶评分提升11% [36][37][39] 技术架构 策略推理注入器 - 采用VLM生成驾驶策略文本(如"看到足球→可能有小孩→需减速避让"),通过预训练语言编码器映射至语义空间 [7][11] - 设计轻量级adaptor模块弥合语义空间与视觉特征的差距,使用余弦相似度损失确保策略语义与规划动态一致 [12] 战术推理整合器 - 将抽象策略转化为结构化指令,包括方向、紧急、车道、速度四类可执行命令 [15][17] - 通过正则表达式解析VLM输出,并采用类别特定编码器生成反应层(方向/紧急)与监管层(车道/速度)指令 [16][19] 分层轨迹解码器 - 第一层解码器基于反应级指令生成粗略运动模式(潜码z^ε),第二层融合监管级指令输出精细轨迹 [22][25] - 采用双潜变量流处理时间维度,粗粒度流预测宏观运动模式,细粒度流生成精确航点序列 [27] 性能表现 开环评估 - 在nuScenes数据集实现0.48米平均L2误差(行业基线0.72米)和0.15%碰撞率(基线0.22%) [36][38] - Bench2Drive数据集上达到0.84米L2误差,较VAD基线提升10.6% [39] 闭环评估 - 驾驶评分提升至41.17(基线39.42),成功率提高1.36个百分点 [39] - 使用Qwen-VL模型时保持0.87米L2误差,验证框架兼容性 [39] 技术创新 - 首创策略-战术双阶段指令生成机制,使VLM输出可直接指导轨迹规划 [14][19] - 分层变分解码器实现人类式"先直觉反应后精细调整"的决策过程,较传统MLP解码器降低7%轨迹误差 [25][41] - 复合损失函数整合策略语义对齐、轨迹编码监督和分层KL散度约束,优化端到端训练效果 [29][31][33]
开课倒计时!国内首个自动驾驶端到端项目级教程来啦~
自动驾驶之心· 2025-08-02 14:00
端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂技术竞争的核心领域 自去年E2E+VLM双系统架构成功以来 行业加速迭代 今年上半年VLA概念进一步推动量产方案升级 [2] - 行业人才需求旺盛 3-5年经验的VLM/VLA岗位年薪达百万 月薪高达80K 校招/社招转岗需求激增 [2] - 技术流派分化明显 包括以PLUTO为代表的二段式端到端 以UniAD为代表的一段式端到端 以及基于世界模型/扩散模型/VLA的新兴流派 [4] 技术流派分类与特点 - **二段式端到端**:通过模型实现自车规划 代表工作包括港科技PLUTO 浙大CarPlanner(CVPR'25) 中科院Plan-R1 相比一段式具有明确规划模块优势 [4][20] - **一段式端到端**: - 基于感知的方法:UniAD持续迭代 地平线VAD和CVPR'24的PARA-Drive推动性能提升 [21] - 基于世界模型的方法:AAAI'25的Drive-OccWorld和复旦OccLLaMA拓展场景生成与闭环仿真应用 [21] - 基于扩散模型的方法:DiffusionDrive/Diffusion Planner/吉大DiffE2E实现多模轨迹预测 适应环境不确定性 [21] - 基于VLA的方法:小米ORION 慕尼黑工大OpenDriveVLA 最新ReCogDrive代表大模型时代技术前沿 [21] 核心技术栈与学习路径 - 必备技术包括大语言模型 BEV感知 扩散模型理论 强化学习与RLHF DEEPSEEK优化技术等 构成未来两年求职高频考点 [6][22] - 学习难点在于多领域知识融合(多模态大模型/BEV/强化学习/视觉Transformer/扩散模型) 论文碎片化 缺乏实战闭环指导 [12][13] - 行业推出《端到端与VLA自动驾驶小班课》 采用Just-in-Time Learning理念 覆盖技术框架构建(第二章) 二段式(第三章) 一段式与VLA(第四章) 及RLHF微调实战(第五章) [14][15][16][21][23] 职业发展前景 - VLA/VLM大模型算法专家岗位3-5年经验硕士薪资达40-70K·15薪 博士应届生可达90-120K·16薪 实习生日薪220-400元 [11] - 职业路径包括算法岗技能深化 或转型自动驾驶大模型工程师 需掌握VLM/VLA多模态 模型量化部署等核心技术 [9][10] - 课程目标使学员达到1年经验算法工程师水平 可复现扩散模型/VLA框架 应用于实习/校招/社招场景 [28] 课程体系设计 - 第一章梳理端到端发展历史 对比模块化/一段式/二段式/VLA范式优缺点 分析学术与工业界动态 [19] - 第二章重点突破背景知识 包括Transformer扩展至视觉Transformer CLIP/LLAVA多模态基础 BEV感知实现3D检测/车道线/OCC等核心功能 [22] - 实战环节配置Diffusion Planner和小米ORION开源项目 结合RLHF微调大作业强化工程能力 [21][23] - 课程周期3个月 8月15日开课 分阶段解锁章节 需自备4090及以上GPU算力 要求具备Transformer/BEV/强化学习基础概念 [28]
理想发布会三小时,最狠的是:VLA 要上路了?!
自动驾驶之心· 2025-07-30 11:01
理想i8与VLA技术发布 - 理想i8在品牌十周年之际上市,重点升级辅助驾驶功能并首发VLA(视觉-语言-动作模型)司机大模型[2] - VLA将于8月在i8上交付,其能力提升体现在多模态输入、思维链推理和人类驾驶直觉三大方向[3][4] - VLA具备四大核心能力:空间理解(视觉)、思维能力与沟通记忆(语言模型+RAG)、行为能力,可执行自然语言指令如"靠边停""找星巴克",并实现动态路径规划与障碍规避[5][7] 端到端自动驾驶技术演进 - 技术路径从E2E+VLM递进至VLA,成为行业新里程碑,吸引传统规控/感知领域人才转型[7] - 当前技术需融合多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等跨领域知识[16] - 主流范式包括:基于感知的UniAD/VAD、基于世界模型的Drive-OccWorld/OccLLaMA、基于扩散模型的DiffusionDrive/DiffE2E,以及最前沿的VLA方案如ORION/OpenDriveVLA[25] VLA人才市场需求 - 行业对VLA/VLM专家需求旺盛,算法专家岗位年薪达40-70万(15薪),博士顶尖人才可达90-120万(16薪)[13] - 技术岗位覆盖模型量化部署、多模态算法等方向,实习生日薪220-400元,反映人才争夺激烈[13] 端到端自动驾驶课程体系 - 课程设计直击学习痛点:通过Just-in-Time Learning理念快速入门,构建领域框架,结合RLHF微调等实战环节[17][18][19] - 知识体系覆盖:端到端发展史(模块化到VLA范式)、BEV感知/扩散模型/VLM等关键技术、二段式PLUTO/CarPlanner等经典算法[23][24][26] - 教学安排:8月15日开课,分5章三个月完成,配套VIP答疑与代码实战,目标培养具备1年经验的端到端算法工程师[27][32][33]
从端到端到VLA,自动驾驶量产开始往这个方向发展...
自动驾驶之心· 2025-07-26 21:30
端到端自动驾驶行业现状 - 端到端自动驾驶已成为国内主流新能源主机厂抢占的技术高地,E2E+VLM双系统架构去年取得成功后,VLA概念在2024年上半年掀起新一轮量产方案迭代[2] - 行业对端到端技术人才需求旺盛,3-5年经验的VLM/VLA岗位年薪高达百万,月薪达70K[2] - 学术界和工业界聚焦端到端技术,但存在技术流派分化问题,包括UniAD、PLUTO、OccWorld、DiffusionDrive等多种算法方案[2][7] 端到端技术发展特点 - 技术演进快速,2023年的工业级端到端算法方案已不适应2024年环境,需掌握多模态大模型、BEV感知、强化学习等跨领域知识[3] - 技术栈呈现多元化发展,包括基于感知的一段式(UniAD)、基于世界模型的一段式(OccWorld)、基于扩散模型的一段式(DiffusionDrive)以及VLA方向[7][11] - 学习门槛较高,存在论文数量繁多(年新增数百篇)、知识碎片化、缺乏高质量文档等挑战[3] 端到端课程核心内容 - 课程覆盖五大技术模块:端到端算法介绍、背景知识、二段式端到端、一段式端到端与VLA、RLHF微调实战[9][10][11][13] - 重点技术包括:PLUTO二段式架构(CVPR'25 CarPlanner)、UniAD感知方案(CVPR'24 PARA-Drive)、世界模型(AAAI'25 Drive-OccWorld)、扩散模型(DiffE2E)、VLA(小米ORION)[7][10][11] - 实战环节包含Diffusion Planner代码复现和ORION开源模块应用,目标实现工业级算法落地[11][13] 行业技术趋势 - VLA成为端到端自动驾驶的"皇冠技术",小米ORION、慕尼黑工大OpenDriveVLA等方案显示大模型与自动驾驶的深度结合[11] - 扩散模型在轨迹预测领域取得突破,DiffusionDrive等方案实现多模轨迹输出,适应自动驾驶不确定性环境[7][11] - 世界模型技术应用扩展,Drive-OccWorld等方案同时支持场景生成、端到端控制和闭环仿真[11] 人才能力要求 - 需构建跨领域知识体系,包括视觉Transformer(CLIP/LLaVA)、BEV感知(3D检测/车道线/OCC)、扩散模型理论、VLM强化学习(RLHF/GRPO)[12] - 工程能力要求涵盖PyTorch框架、GPU计算(推荐RTX4090)、数学基础(概率论/线性代数)及算法复现能力[20] - 职业发展目标为1年经验端到端算法工程师水平,具备技术框架设计能力和项目落地经验[20]