Workflow
端到端自动驾驶
icon
搜索文档
端到端和VLA,正在吸引更多智驾公司的关注......
自动驾驶之心· 2025-10-23 08:04
端到端与VLA自动驾驶行业需求 - 主机厂和供应商对端到端及VLA技术人才的需求旺盛,反映出行业技术迭代加速 [1] - 端到端自动驾驶算法主要分为一段式和两段式两大技术范式,其中UniAD是一段式的代表性工作 [1] - 基于VLA的端到端算法是当前学术和工业界的热点,相关论文呈爆发式增长并正推动量产落地 [1] 端到端与VLA技术栈 - 核心技术涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等多个前沿领域 [3] - 一段式端到端算法可进一步细分为基于感知、扩散模型、世界模型及VLA等多种实现路径 [1] - 从模块化算法演进至端到端,再发展到VLA,代表了自动驾驶技术发展的主要方向 [3] 自动驾驶VLA与大模型实战课程 - 课程由学术界专家主导,系统梳理从VLM作为解释器到模块化VLA、一体化VLA及推理增强VLA的技术体系 [3] - 课程内容涵盖Vision/Language/Action三大模块,并设有大作业指导学员从零搭建VLA模型及数据集 [3] - 授课教师来自清华大学及QS30高校,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,GitHub项目总Star数超过2k [8][11] 端到端与VLA自动驾驶课程 - 课程由工业界专家主导,重点讲解一段式/两段式端到端算法的核心理论与模型 [12] - 课程设计包括基于扩散模型的Diffusion Planner和基于VLA的ORION算法两大实战项目 [12] - 授课教师为国内顶级主机厂算法专家,拥有端到端及大模型算法的预研和量产交付经验 [14] 课程目标人群要求 - 学员需自备GPU,推荐算力为4090及以上 [15] - 要求学员具备一定的自动驾驶领域基础,并熟悉Transformer、强化学习、BEV感知等基本概念 [16] - 学员需拥有概率论、线性代数基础,并掌握Python和PyTorch编程能力 [16]
从地平线自动驾驶2025年的工作,我们看到了HSD的野心......
自动驾驶之心· 2025-10-22 08:03
公司战略与整体进展 - 公司在2025年经历组织调整和资源整合后,在自动驾驶领域双线并进,一方面推动新一代辅助驾驶系统HSD的大规模量产落地,另一方面通过前沿论文重塑自动驾驶的底层逻辑 [2] - 公司正从技术供应商向行业标准定义者跃迁,其全新的HSD系统采用创新的"一段式端到端+强化学习"架构,突破传统感知-决策-控制模块的延迟瓶颈 [2] - 公司集中发力在端到端和世界模型两个最热门的方向上,得益于从UniAD时期就积累的大量学术经验,并已将重点铺在了一段式端到端的量产 [3] - 公司在Diffusion、强化学习、GoalFlow、世界模型等领域颇有建树,未来预计会有更多自动驾驶和具身智能方面的基石工作问世 [4] 端到端自动驾驶技术 - ResAD框架通过归一化残差轨迹建模,将学习目标从直接预测未来轨迹转变为预测轨迹相对于惯性参考的偏差,在NAVSIM基准测试中以88.6的PDMS分数达到最先进性能 [6][8] - CorDriver框架引入"安全走廊"作为中间表示,在nuScenes数据集上相比VAD等方法,与交通参与者的碰撞率降低66.7%,与路缘的碰撞率降低46.5% [9][11] - TTOG框架统一运动预测与路径规划任务,在nuScenes数据集上平均L2误差降低36.06%,在Bench2Drive上驾驶分数提升22%,尤其在少样本场景下表现出强大泛化能力 [12][14][15] - MomAD框架引入轨迹动量和感知动量机制,在nuScenes和Turning-nuScenes数据集上显著降低长时预测和转弯场景中的碰撞率,提升轨迹平滑性和一致性 [16][18][19] - GoalFlow框架采用目标驱动的流匹配,在NavSim基准测试中PDMS分数达到90.3,仅需单步去噪即可达到优异性能,推理速度比传统扩散模型快数十倍 [20][22][24] - RAD框架基于3D高斯泼溅技术构建强化学习环境,相比纯模仿学习方法碰撞率降低3倍,显著提升驾驶安全性 [23][26][29] - DiffusionDrive框架采用截断扩散策略,在NAVSIM数据集上取得88.1 PDMS,在nuScenes上比VAD降低20.8% L2误差和63.6%碰撞率,实现45 FPS的实时性能 [27][30][35] 自动驾驶场景生成与世界模型 - Epona模型实现解耦的时空建模和异步多模态生成,在NuScenes数据集上取得最佳FVD指标,并将最长生成时长从现有方法的15秒大幅提升至2分钟 [31][33][36] - UMGen框架能同时生成自车动作、交通参与者、交通地图和图像四种关键模态,生成长达60秒的多样化、多模态一致的驾驶场景 [34][38][41] - DrivingWorld模型基于GPT风格视频生成框架,在仅使用15帧条件输入的情况下可生成超过40秒的高保真视频,时长是现有最佳模型的2倍以上 [39][42][46] 自动驾驶视觉语言模型 - AlphaDrive框架首次将基于GRPO的强化学习与规划推理相结合,在规划准确率上比仅用监督微调的模型显著提升25.52%,并展现出高效的数据利用能力,仅用20%的训练数据即可超越基线模型35.31% [43][45][47]
转行多家自动驾驶大厂的经验分享
自动驾驶之心· 2025-10-21 08:06
社区核心定位 - 社区定位为国内首个自动驾驶全栈技术交流平台,集学术与工程问题讨论于一体,目标是打造完整的自驾生态 [17][18] - 社区已汇聚超过4000名成员,目标在未来2年内发展到近万人规模 [4][5] - 成员背景覆盖国内外顶尖高校(如上海交大、北京大学、CMU、清华大学等)和头部公司(如蔚小理、地平线、华为、大疆等) [18] 社区资源体系 - 社区系统梳理了近40种自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端等核心领域 [11][19] - 资源形式包括视频课程、图文资料、技术问答和求职交流,并提供近40种开源项目、近60种数据集及主流仿真平台汇总 [4][18][19] - 提供七大专属视频教程,覆盖世界模型、自动驾驶大模型、3D目标检测等前沿主题,并已举办超过100场行业大佬直播分享 [14][91][93] 技术内容覆盖 - 感知技术全面覆盖BEV感知、3D目标检测、多传感器融合、Occupancy Network等量产关键技术,并详细梳理了纯视觉与多模态方案 [56][58][60] - 重点布局端到端自动驾驶、VLA、世界模型等前沿方向,汇总了一段式/二段式量产方案及最新学术界进展 [40][48][50] - 仿真技术聚焦3DGS与NeRF在闭环仿真中的应用,结合Carla、Apollo等平台提供工程实践指南 [42][43][86] 职业发展支持 - 建立与多家自动驾驶公司的内推机制,直接对接企业招聘需求 [14] - 社区定期探讨行业公司前景与跳槽机会,并提供岗位内推服务 [22][95] - 汇总国内外高校自动驾驶团队及企业信息,为成员提供升学与职业规划参考 [30][32]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-18 00:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
扛内卷,一个足够有料的4000人自动驾驶社区
自动驾驶之心· 2025-10-16 07:33
行业现状与趋势 - 自动驾驶行业进入冷静期和行业整合期,技术路线趋于收敛,量产方案趋同 [2] - 行业内出现从自动驾驶向具身智能等新领域转型的趋势,部分业内资深人士投身具身智能创业 [2] - 技术发展路径存在VLA/WA(视觉语言动作模型/世界模型)的路线之争,背后是更大的行业变革 [2] - 行业洗牌加速,能够留存并担当主力的从业者多为技术栈丰富的综合型人才 [2] 社区资源与规模 - “自动驾驶之心知识星球”社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人 [4] - 社区目标在未来2年内将规模扩大至近万人,旨在打造技术分享与交流的聚集地 [4] - 社区联合了学术界与工业界专家,成员背景覆盖上海交大、北京大学、CMU、清华大学、蔚小理、地平线、华为等近300家高校及头部公司 [14] 技术内容覆盖范围 - 社区系统化梳理了超过40个自动驾驶技术方向的学习路线,包括BEV感知、多传感器融合、端到端自动驾驶、VLA、世界模型、规划控制等 [6][9][15] - 提供近60个自动驾驶相关数据集、行业主流仿真平台及开源项目的汇总资料 [15][32][34] - 技术问答涵盖端到端入门、VLA学习路线、数据闭环工程实践、多模态大模型应用等前沿实用问题 [6][7][18] 学习与课程体系 - 社区提供原创系列视频课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真、端到端及大模型技术等 [10] - 设有“自动驾驶100问”系列专题,包括TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程实践主题 [9] - 针对初学者规划了全栈方向的学习课程与完备的入门技术栈路线图 [10][15] 行业交流与活动 - 社区不定期举办技术直播,已累计超过一百场,邀请学术界与工业界专家分享VLA、世界模型、3D检测、规划控制等前沿研究成果与应用 [86] - 建立与多家自动驾驶公司的岗位内推机制,为成员提供求职与跳槽机会 [10][19] - 社区内部形成交流氛围,成员可就工作选择、研究方向、技术难题等话题进行自由提问并获得解答 [88][91]
复旦SeerDrive:一种轨迹规划和场景演化的双向建模端到端框架
自动驾驶之心· 2025-10-15 07:33
文章核心观点 - 端到端自动驾驶现有方案存在忽略场景动态演化和忽视车辆行为对环境影响两大问题 [1][5] - SeerDrive提出轨迹规划与场景演化的双向建模范式,通过预测未来BEV表示捕捉场景动态,并让规划结果反馈给场景预测优化,形成闭环迭代 [3][4] - 该方法在NAVSIM和nuScenes数据集上达到SOTA性能,PDMS分数达88.9,超越Hydra-NeXt等现有方法 [23][24] SeerDrive设计原理 - 整体pipeline包含特征编码、未来BEV世界建模、未来感知规划、迭代优化四大模块 [4] - 核心是通过"预测未来场景→指导规划→反馈优化场景"的闭环实现双向交互 [4] - 采用解耦策略让当前与未来场景分别指导规划,再通过运动感知层归一化融合结果 [15] 技术实现细节 - 特征编码将多模态传感器输入和车辆自身状态编码为结构化特征,生成当前场景BEV特征图 [7][8] - 未来BEV世界建模基于当前BEV和ego特征预测未来场景演化,生成未来BEV特征而非复杂图像 [10][11] - 未来感知规划采用解耦策略分别利用当前感知与未来场景预判,避免表示混淆 [14][15] - 引入闭环迭代优化强化轨迹规划与场景演化的双向依赖,实验验证迭代2次时性能与效率最优 [16][17][18] 实验验证结果 - NAVSIM测试集上PDMS分数达88.9,超越Hydra-NeXt(88.6)、WoTE(88.3)等方法 [23] - 采用V2-99骨干网络时PDMS进一步提升至90.7,超过GoalFlow的90.3且计算成本更低 [23] - nuScenes验证集平均L2位移误差为0.43m,平均碰撞率为0.06%,显著优于SparseDrive等方法 [24] - 消融实验表明去掉未来感知规划或迭代优化均导致PDMS下降,验证双向建模和迭代优化的关键作用 [26][27] 行业技术对比 - 与UniAD、VADv2等方法仅优化规划过程不同,SeerDrive建模场景演化与规划的双向依赖 [37] - 与世界模型DriveDreamer等生成高保真图像相比,SeerDrive采用BEV表示更轻量且适配规划需求 [44] - 与WoTE仅用世界模型从候选轨迹中选最优不同,SeerDrive将未来BEV作为规划的特征级输入实现深度交互 [44]
学术和量产的分歧,技术路线的持续较量!从技术掌舵人的角度一览智驾的十年路....
自动驾驶之心· 2025-10-15 07:33
自动驾驶技术十年发展回顾 - 自动驾驶行业自2015年蓬勃发展至今已走过十年历程 [3] - 十年间涌现出视觉Transformer、BEV感知、多传感器融合、端到端自动驾驶、大模型、VLA、世界模型等众多闪耀技术 [3] - 自动驾驶的量产方案在技术发展过程中互相碰撞和融合 [3] 圆桌对话核心议题 - 回顾过去10年自动驾驶技术迭代的几个里程碑事件 [13] - 复盘过去两年自动驾驶领域的发展 [13] - 探讨世界模型和VLA的技术路线之争 [4][13] - 分析端到端是否已成为智驾技术栈的基石 [13] - 探讨学术界和工业界对L3自动驾驶的思考 [4][13] - 分析学界研究方向在收敛而工程端在拼落地的现状 [13] - 为新入行的自动驾驶人提供职业发展建议 [4][13] 主讲嘉宾背景 - 崔轲迪担任百度BV风投副总裁 [5] - 孙昊现任博世中央研究院自动驾驶负责人,研究方向为自动驾驶感知和端到端智能系统,拥有新加坡国立大学博士和麻省理工新加坡研究中心博士后经历 [5] - 许凌云现任长安科技泊车业务负责人,拥有中国科学院博士和卡内基梅隆机器人研究所博士后经历,曾获DARPA SUBT无人车挑战赛2019年世界冠军 [5] - 郑文钊为加州大学伯克利分校人工智能实验室博士后研究员,在TPAMI、CVPR等顶级期刊会议发表论文50余篇,谷歌学术引用2700余次 [6] 活动信息 - 圆桌对话定于10月15日晚举行 [9] - 活动由自动驾驶之心运营负责人Gloria和知乎大V刘斯坦共同主持 [7][8] - 完整版深度内容已独家上线知识星球「自动驾驶之心」,涵盖所有技术细节、QA及未公开内容 [17]
地平线残差端到端是如何实现的?ResAD:残差学习让自动驾驶决策更接近人类逻辑
自动驾驶之心· 2025-10-14 07:33
文章核心观点 - 地平线、华科和武大团队提出的ResAD框架通过归一化残差轨迹建模方法解决了端到端自动驾驶中因果混淆和规划困境两大核心问题 [2][5][49] - ResAD不直接预测整条轨迹而是先提供惯性参考线再让模型学习调整量将学习目标从轨迹预测转变为理解驾驶决策原因 [2][16][18] - 该方法在NAVSIM v1和v2基准测试中实现了最先进性能PDMS达886 EPDMS达855展现出卓越的安全性和规划效率 [36][37][38][39] 技术方法创新 - 轨迹残差建模将真实轨迹与基于恒定速度模型的惯性参考线之间的差值作为学习目标迫使模型关注导致方向调整的因果因素 [16][17][18] - 逐点残差归一化技术通过最小-最大缩放解决远场误差主导优化问题确保模型优先关注近处安全关键的小调整 [3][19][20][21] - 惯性参考扰动机制通过对自车速度添加随机噪声生成多模态轨迹假设摆脱对静态预定义轨迹词库的依赖 [22][23][24][40] 性能表现 - 在NAVSIM v1基准上ResAD的PDMS为886其中无责任碰撞率为980可行驶区域合规性为973自我进度为825 [36][37] - 在更复杂的NAVSIM v2基准上EPDMS提升至855在行驶方向合规性达995交通信号灯合规性达998车道保持能力达970 [38][39] - 消融研究表明轨迹残差建模将DAC指标从943提升至966惯性参考扰动将PDMS从872进一步提升至886 [42] 行业比较优势 - 相较于DiffusionDrive等依赖静态预定义轨迹词库的方法ResAD生成的轨迹与驾驶上下文更一致避免了无效路径规划 [9][40] - 该方法在Transfuser和TransfuserDP两种异构规划模型上均显著提升性能PDMS分别提高14和13验证了其通用有效性 [46][48] - 实车测试显示系统能处理施工路段借道绕行动态障碍物切入等复杂场景并做出拟人化决策如平稳减速和主动超车 [6]
端到端和VLA占据自动驾驶前沿方向的主流了。。。
自动驾驶之心· 2025-10-13 12:00
端到端自动驾驶算法技术趋势 - 端到端自动驾驶已成为量产核心算法 技术栈丰富 主要分为一段式和两段式两大范式 [1] - 一段式代表性算法为UniAD 直接从传感器输入建模自车轨迹输出 二段式基于感知结果进一步输出自车和他车轨迹 [1] - 一段式算法衍生出多个子领域 包括基于感知 扩散模型 世界模型及VLA的端到端算法 其中VLA相关论文呈现爆发式增长 工业界加速量产布局 [1] 自动驾驶技术课程内容架构 - 行业推出《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》 由工业界与学术界专家联合授课 聚焦前沿技术方向 [3] - VLA实战课程涵盖三大领域:从VLM作为自动驾驶解释器 到模块化VLA 一体化VLA 以及主流推理增强VLA 配套理论基础与实战大作业 [3] - 端到端课程重点讲解一段式/两段式算法 涵盖BEV感知 大语言模型 扩散模型和强化学习 设置Diffusion Planner和ORION算法两大实战项目 [10] 课程师资与学员要求 - 师资团队包括清华大学硕士生及QS30高校博士 在ICCV/IROS/EMNLP等顶级会议发表多篇论文 具备多模态感知 VLA算法研发及量产交付经验 [7][9][10] - 学员需自备GPU 推荐算力在4090及以上 需具备自动驾驶基础 Transformer大模型 BEV感知等技术概念 以及概率论 线性代数和Python/PyTorch编程能力 [13]
Waymo提出Drive&Gen:用生成视频评估端到端自动驾驶(IROS'25)
自动驾驶之心· 2025-10-13 07:33
文章核心观点 - 自动驾驶领域出现新范式,即端到端驾驶模型与视频生成模型的结合,旨在解决彼此的评估和性能提升难题 [3] - Waymo、谷歌DeepMind与约翰霍普金斯大学联合提出Drive&Gen框架,通过协同评估方法连接驾驶与生成模型,实现双向赋能 [3][6] - 该框架证明高质量合成数据能有效诊断并提升E2E规划器的泛化能力,尤其在分布外场景下性能提升显著 [17][21][23][24] 技术框架与原理 - Drive&Gen框架包含一个可控的视频生成模型和一个E2E驾驶规划器,核心思想是"协同评估" [8] - 视频生成模型基于W A L T视频扩散模型扩展,能通过场景布局和运行条件等丰富控制信号生成高度定制化驾驶视频 [9][11] - 提出全新评估指标"行为置换检验",通过比较规划器在真实与生成视频上的轨迹集合差异来量化生成视频的真实性 [13] - BPT指标比传统FVD和ADE更能捕捉影响驾驶决策的关键差异,例如当移除车辆边界框信息时,BPT和ADE显著恶化而FVD变化不大 [14][16] 实验验证与性能提升 - 在相同条件下,生成视频能让规划器产生与真实视频相似的轨迹预测,BPT失败拒绝率达到69 62%,接近95%的理论上限 [18][19] - 利用合成数据微调E2E规划器后,整体性能提升:在真实验证集上的5秒平均位移误差从0 7548降低至0 7333 [21][22] - 在雨天分布外场景中,性能提升明显,ADE@5s从0 8536降低到0 8382 [23] - 在夜间场景下,ADE@5s从0 7372降低到0 7101 [24] - 定性结果显示,经合成数据微调后模型能做出更果断安全的驾驶决策,如减少绿灯前犹豫停车和绕行迟缓等问题 [25] 行业影响与前景 - 高质量可控合成数据被证明是极具成本效益的方案,能有效弥补真实世界数据不足,帮助拓展自动驾驶运行设计域 [26] - 该研究为生成式AI赋能自动驾驶研发提供了系统性评估和优化方法论,推动在虚拟世界中训练和测试自动驾驶的进程 [26]