Workflow
端到端自动驾驶
icon
搜索文档
港中文最新!ReAL-AD:迈向类人推理的端到端自动驾驶,轨迹性能提升30%(ICCV'25)
自动驾驶之心· 2025-07-20 16:36
核心观点 - 提出ReAL-AD框架,通过三层人类认知模型(驾驶策略、驾驶决策、驾驶操作)实现类人推理的端到端自动驾驶 [2][8] - 集成视觉-语言模型(VLMs)增强环境感知和结构化推理能力,规划准确性和安全性提升超过30% [2][11][34] - 采用层次化轨迹解码器实现从粗到细的轨迹规划,L2误差减少33%,碰撞率降低32% [9][34] 技术架构 - **策略推理注入器**:解析VLM生成的交通情境见解,制定高层次驾驶策略 [8][17] - **驾驶推理整合器**:将战略意图细化为可解释的驾驶选择(如变道、超车、速度调整) [8][20] - **层次化轨迹解码器**:两阶段变分解码器,先建立粗略运动模式再细化轨迹 [24][26] 实验验证 - **数据集**:NuScenes(1,000个20秒场景)和Bench2Drive(13,638片段/200万帧) [30] - **开环指标**:平均L2误差0.48米(NuScenes)、0.84米(Bench2Drive),碰撞率0.15%/0.12% [34] - **闭环指标**:驾驶评分提升至41.17,成功率11.36%,优于基线模型UniAD/VAD [35] 行业对比 - **传统方法局限**:依赖固定稀疏轨迹监督,无法模拟人类分层决策过程 [3][7] - **现有VLM应用**:多作为辅助模块提供语义线索,缺乏与决策层次的有机整合 [5][12] - **创新点**:首次将VLM推理嵌入三层决策架构,实现战略-战术-操作的全链路协同 [8][11] 性能优化 - **消融实验**:移除战略推理注入器导致L2误差增加12%,碰撞率上升19% [36] - **解码器设计**:两层结构比单层L2误差降低0.14米,三层会引入过拟合 [39] - **损失函数**:相似性损失有效弥合文本特征与轨迹预测特征的模态差距 [38]
死磕技术的自动驾驶黄埔军校,三周年了。。。
自动驾驶之心· 2025-07-19 11:04
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 2025年自动驾驶、具身智能、大模型Agent三大赛道是AI竞争高地 [2] - 端到端自动驾驶成为主流学习方向,建议从BEV感知开始逐步深入 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,拥有近4000名成员 [2] - 社区汇聚100+行业专家,提供30+技术方向学习路线 [2] - 覆盖端到端自动驾驶、世界模型、视觉大语言模型等前沿方向 [2][4] 视觉大语言模型研究 - CVPR 2024发布多篇视觉语言模型预训练论文,涉及效率提升和公平性优化 [11] - 视觉语言模型评估涵盖图像分类、文本检索、行为识别等任务 [16][17][18] - 大规模预训练数据集包括LAION5B(50亿图文对)、WebLI(120亿图文对) [15] 自动驾驶数据集 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等 [21] - 语言增强数据集支持自然语言导航、视觉问答等任务 [22] - 图像分类评估数据集包含ImageNet-1k(128万训练图)、CIFAR-100等 [16] 技术应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答系统 [23] - 自动驾驶感知方向研究语言引导3D检测、开放词汇分割等任务 [24] - 决策控制领域探索大语言模型在轨迹预测和运动规划中的应用 [25][26] 世界模型研究进展 - 2024年发布DriveWorld、GAIA-1等驾驶世界模型,支持场景生成与理解 [30][32] - 世界模型可预测未来视觉观测并辅助规划决策 [32] - 研究涵盖4D场景重建、占用预测等方向 [32] 扩散模型应用 - 扩散模型在自动驾驶中用于场景生成、数据增强和轨迹预测 [39] - CVPR 2024发布MagicDriveDiT等街景生成模型 [39] - 研究聚焦时空一致性、多视角生成等挑战 [39] 端到端自动驾驶 - 方法分为模仿学习、强化学习和多任务学习三大类 [61] - 最新工作如DriveGPT4、DriveMLM探索大模型与规划控制结合 [27][51] - 挑战包括长尾分布处理、安全验证等 [55][57] 行业资源与生态 - 社区提供TensorRT部署、BEV感知等工程问题解决方案 [71][73] - 与地平线、蔚来等公司建立内推渠道 [110] - 成员来自卡耐基梅隆、清华等高校及头部自动驾驶公司 [106][107]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-17 19:10
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术发展出多分支 包括基于感知的UniAD 基于世界模型的OccWorld 基于扩散模型的DiffusionDrive 以及大模型驱动的VLA方向 [9] 技术挑战与行业需求 - 端到端技术需掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等跨领域知识 学习路径复杂且论文碎片化 [5] - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 小米ORION等VLA项目推动行业预研热潮 [2][20] - 学术界与工业界持续探索技术边界 但高质量文档缺失 实战指导不足 影响技术落地效率 [5][26] 课程核心内容设计 - 课程覆盖端到端发展史 技术范式比较 数据集评测等基础内容 重点解析BEV感知 扩散模型 VLM等背景知识 [11][12] - 二段式端到端章节分析PLUTO CarPlanner等经典算法 对比一段式方案的优缺点 [12] - 精华章节聚焦一段式端到端 详解UniAD PARA-Drive OccLLaMA DiffusionDrive等前沿工作 配套Diffusion Planner实战 [13][15][17] - VLA方向选取ORION OpenDriveVLA等案例 结合BEV 扩散模型 强化学习技术展开实战 [20] 技术框架与实战应用 - 课程构建端到端技术框架 帮助学员分类论文 提取创新点 形成研究体系 [7] - 实战环节包括Diffusion Planner代码复现 RLHF微调大作业 目标为达到1年算法工程师水平 [17][22][27] - 技术栈覆盖Transformer CLIP LLAVA等基础模型 强化学习RLHF GRPO等进阶方法 [18] 行业影响与人才需求 - 端到端技术推动自动驾驶量产方案革新 主机厂加速布局算法预研与交付 [23] - 课程面向具备自动驾驶基础及Python/PyTorch能力者 目标匹配企业实习 校招 社招需求 [24][27] - 技术掌握后可应用于场景生成 闭环仿真 多模轨迹预测等实际场景 提升工业落地能力 [15][17]
入职小米两个月了,还没摸过算法代码。。。
自动驾驶之心· 2025-07-16 16:46
自动驾驶行业趋势与职业发展 - 自动驾驶行业当前处于快速发展阶段,大模型与端到端技术成为核心方向[4][6] - 小米汽车在自动驾驶领域势头强劲,虽薪资水平中等但短期发展潜力较大[7] - 医学图像与工业检测领域技术门槛低于自动驾驶,可作为从业者备选方向[6] 求职与技能提升策略 - 实习经历需适当包装,重点突出与目标岗位相关的技术亮点[3][6] - 建议利用公司资源补充自动驾驶算法实践经验(如BEV、端到端),同时学习VLA、SFT等技术[6] - 需同步准备秋招与实习转正,多offer可增强薪资谈判能力[5][6] 技术研究方向与资源 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶为四大前沿方向[10] - 自动驾驶数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,包括NuScenes、BDD100K等主流数据集[25][26] - 扩散模型在自动驾驶中应用于场景生成、3D补全等任务,如DriveDreamer、MagicDriveDiT等创新方法[43] 社区与学习平台 - 知识星球提供自动驾驶课程、硬件资料及招聘信息,已形成学术-产品-就业闭环生态[8][62] - 社区目标3年内聚集万人规模,现有华为天才少年及领域专家入驻[8] - 会员可获取5000+干货内容、100+场行业直播及求职咨询等权益[62] 端到端自动驾驶进展 - 开源仓库收录E2E驾驶最新研究成果,涵盖感知、预测、规划全流程[45][49] - 特斯拉FSD验证了端到端模型可行性,但开环评估仍存争议[49] - 典型方法包括DriveGPT4(大模型驱动)、VADv2(概率规划)等[52][55]
一文尽览!近一年自动驾驶VLA优秀工作汇总~
自动驾驶之心· 2025-07-15 20:30
自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式,视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作,重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene,解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法:导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能,实现超视距推理能力[2][6] - 在NuInstruct基准测试中,Qwen2.5-7B模型表现最佳,多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA,统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练,在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力,可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据,通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS,创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集,包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准,包含16,185个QA对,覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术,但车端必要性存疑[50] - 时序处理研究不足,与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平,验证技术可行性[50]
面试了很多端到端候选人,发现还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-13 21:18
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可达百万年薪 [2] - 端到端系统实现从传感器输入到车辆规划/控制信息的直接建模 避免模块化方法间的误差累积 BEV感知打通模块化壁垒 UniAD统一感知和规划任务 [2] - 学术界和工业界聚焦端到端技术 衍生出多种算法流派 UniAD并非最终解 新算法不断涌现 [2] 端到端技术发展现状 - 技术方向包括多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂 论文数量繁多 知识碎片化 [4] - 高质量文档缺乏 提高入门难度 学习目标驱动导航需结合实战 但缺乏系统指导 难以从理论过渡到实践 [4] - 最新技术流派包括:PLUTO为代表的二段式端到端 UniAD为代表的基于感知的一段式端到端 OccWorld为代表的基于世界模型的一段式端到端 DiffusionDrive为代表的基于扩散模型的一段式端到端 [9] 端到端课程体系 - 课程特点:直击痛点快速入门 构建领域框架提升研究能力 理论结合实践学以致用 [5][6][7] - 课程大纲:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA 课程大作业 [11][12][13][15] - 重点章节:一段式端到端与VLA为课程精华 涵盖基于感知/世界模型/扩散模型/VLA的四大子领域 [13] 技术深度解析 - 二段式端到端:分析PLUTO CarPlanner Plan-R1等经典与前沿工作 对比一段式优缺点 [12] - 一段式端到端:UniAD和VAD为奠基作 PARA-Drive为最新进展 世界模型应用广泛 扩散模型实现多模轨迹预测 VLA为当前技术皇冠 [13] - 关键技术:Transformer CLIP LLAVA BEV感知 扩散模型 RLHF GRPO等构成完整技术栈 [14] 课程实施细节 - 开课时间8月15日 三个月完成 采用离线视频教学+VIP群答疑+三次线上答疑模式 [20] - 学员需自备4090及以上GPU 具备自动驾驶基础 熟悉Transformer 强化学习 BEV感知等技术概念 [22] - 预期成果:达到1年经验算法工程师水平 掌握端到端技术框架 可复现主流算法 应用于实际项目 [22]
某智驾公司一言难尽的融资。。。
自动驾驶之心· 2025-07-12 20:00
自动驾驶行业融资动态 - 某智驾公司因估值过高且量产项目稀少导致融资困难,估值接近头部企业但缺乏实际项目支撑 [3] - 该公司与头部车企达成特殊融资协议:车企投资智驾公司后,资金需全额返投至车企旗下经营困难的零部件子公司 [4] - 该操作实质为资金循环流转,旨在为车企子公司创造外部融资的公关宣传点,类似操作在该车企已有先例 [4] 行业竞争格局分化 - 头部智驾公司凭借算法优势与量产能力持续获得项目,年融资轮次可达1-2轮,形成良性发展循环 [5] - 技术实力薄弱的企业面临项目获取与融资双重困境,仅能获得有限市场份额 [5] - 2023年智驾市场竞争加剧,企业生存状态呈现"冰火两重天"两极分化 [5] 行业发展核心要素 - 实际量产交付能力被视为企业长期发展的关键,超越技术概念炒作的重要性 [5] - 算法性能提升与工程化落地能力是获得市场认可的基础要素 [5] - 部分企业为维系客户关系选择配合资本运作,但可能偏离技术深耕主线 [4][5] 技术发展趋势 - 行业聚焦端到端自动驾驶、世界模型等前沿技术方向 [7][9] - 感知技术领域形成BEV感知、Occupancy等30+技术路线矩阵 [7] - 大模型技术正渗透至感知、决策等多个技术环节 [7][9]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 20:40
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术栈涉及多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂且知识碎片化 [3] 技术课程核心内容 - 课程直击学习痛点 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [4] - 构建端到端自动驾驶研究框架 帮助学员分类论文 提取创新点 形成研究体系 [5] - 理论结合实践 涵盖PLUTO(二段式) UniAD(一段式感知) OccWorld(世界模型) DiffusionDrive(扩散模型) VLA(大模型)等主流技术 [6] 课程大纲与关键技术 - 第一章概述端到端发展历史 模块化到端到端的演变 一段式 二段式 VLA范式优缺点及工业界应用 [8] - 第二章重点讲解背景知识 包括VLA涉及的大语言模型 扩散模型 强化学习 以及BEV感知 为未来两年高频面试技术 [8][9] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner Plan-R1等工作的优缺点 [9] - 第四章深入一段式端到端与VLA 涵盖UniAD PARA-Drive(感知) Drive-OccWorld OccLLaMA(世界模型) DiffusionDrive DiffE2E(扩散模型) ORION OpenDriveVLA ReCogDrive(VLA)等前沿工作 [10] - 第五章大作业为RLHF微调实战 涉及预训练和强化学习模块搭建 可迁移至VLA算法 [12] 行业趋势与人才需求 - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 技术上限高且工业界需求旺盛 [2][10] - 扩散模型与VLA结合成为热点 多模轨迹预测适应自动驾驶不确定性环境 多家公司尝试落地 [10] - 主机厂加速布局端到端算法预研和量产 如小米ORION等开源项目推动技术发展 [10][13]
筹备了半年!端到端与VLA自动驾驶小班课来啦(一段式/两段式/扩散模型/VLA等)
自动驾驶之心· 2025-07-09 20:02
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,通过传感器数据直接输出规划或控制信息,避免模块化方法的误差累积 [1] - BEV感知打通模块化壁垒,UniAD统一感知和规划任务,标志着端到端时代的来临 [1] - 2024年理想汽车宣布E2E+VLM双系统架构量产,显示工业界对端到端技术的重视 [1] - 技术方向多样化:PLUTO(二段式)、UniAD(感知一段式)、OccWorld(世界模型一段式)、DiffusionDrive(扩散模型一段式)等算法涌现 [4] 技术挑战与学习痛点 - 端到端技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识,学习路径复杂 [3] - 论文数量繁多且知识碎片化,缺乏高质量文档和系统实战指导,入门难度高 [3] - 目标驱动导航需闭环任务支持,但理论与实践衔接困难 [3] 课程核心内容与特点 - 课程覆盖端到端算法发展历史、技术范式(一段式、二段式、VLA)及工业界应用 [8][10] - 重点讲解背景知识:Transformer、BEV感知、扩散模型、VLM强化学习技术(RLHF、GRPO) [8] - 二段式端到端聚焦PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [9] - 一段式端到端涵盖UniAD、OccWorld、DiffusionDrive、VLA等子领域,配套Diffusion Planner和ORION实战 [10][12][13] - 大作业为RLHF微调实战,可迁移至VLA算法 [14] 课程结构与安排 - 分五章展开:端到端概述、背景知识、二段式、一段式与VLA、RLHF大作业 [8][9][10][14] - 8月15日开课,三个月结课,离线视频+VIP群答疑+三次线上答疑 [20] - 章节解锁时间:第一章(8.01)、第二章(8.15)、第三章(8.30)、第四章(9.15)、第五章(10.30) [20] 目标人群与学习收获 - 需具备GPU(推荐4090+)、自动驾驶基础、Transformer/BEV/强化学习概念、Python/PyTorch能力 [22] - 学完可达1年经验算法工程师水平,掌握端到端框架及BEV、扩散模型、VLA等关键技术 [23] - 可复现主流算法,应用于实习、校招、社招场景 [23]
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 20:30
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 特斯拉的纯视觉方案凭借成本优势和算法革新正在撼动多传感器融合的主流地位 [2] - 激光雷达成本已降至200美元,比亚迪自研体系内价格再降70%,技术红利背后是从业者持续升级的压力 [2] 自动驾驶人才市场变化 - 传统激光雷达感知算法工程师面临技术路线冲击,规划控制领域从PID到强化学习的转型带来技能升级紧迫感 [2] - 学生新手面临选择困难:感知算法赛道内卷加剧,数据闭环工程师需掌握分布式计算与AI模型调优能力,车路协同方向要求跨界知识融合 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,聚集近4000名成员和100+行业专家 [7] - 社区覆盖30+技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy、3D目标检测等几乎所有子方向 [7] - 提供学术界与工业界前沿直播、求职内推渠道,每周活跃度位居国内前20 [7] 前沿技术方向 - 视觉大语言模型(VLM)在自动驾驶中的应用包括场景理解、轨迹生成和决策控制 [26][27] - 世界模型技术如GAIA-1、DriveDreamer通过生成式AI模拟驾驶场景演化,提升系统预测能力 [32][33] - 扩散模型在自动驾驶中用于场景合成、数据增强和轨迹预测,相关研究数量快速增长 [35][40] 数据集与评估 - 主流自动驾驶数据集包括nuScenes(12亿帧)、Waymo Open Dataset(12亿帧)和BDD100K(10万视频) [23][24] - VLM预训练数据集规模从1M(SBU Caption)到12B(WebLI),评估指标涵盖mAP(目标检测)、mIoU(语义分割)等 [17][18] 端到端自动驾驶进展 - 端到端方法逐步替代模块化架构,DriveGPT4、DriveMLM等模型实现感知-规划一体化 [29][53] - 技术挑战包括长尾场景处理、系统可解释性以及与传统规控方法的协同 [54][55] - 行业研究报告显示,特斯拉FSD的端到端方案推动量产落地进程加速 [47] 工业界应用案例 - 智能交通领域采用VLM实现语言引导车辆检索和视觉问答,提升交互效率 [25] - 自动驾驶决策控制中,DiLu、LanguageMPC等模型利用大语言模型增强决策可解释性 [28] - 仿真测试依赖扩散模型生成高保真场景,如DriveDreamer-2支持定制化视频生成 [30] 技术社区资源 - 知识星球提供四大板块:技术领域分类、学术直播、求职资料和问题解答 [10][11] - 汇总Awesome资源列表,包括视觉大语言模型、扩散模型和端到端自动驾驶的论文与代码库 [12][35] - 学习路线覆盖BEV感知、Occupancy、CUDA加速等30+方向,配套工程解决方案与优化思路 [66][67]