Workflow
端到端自动驾驶
icon
搜索文档
模仿学习之外,端到端轨迹如何优化?轻舟一篇刷榜的工作......
自动驾驶之心· 2025-11-10 11:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Lin Liu等 编辑 | 自动驾驶之心 轻舟智航等团队一篇打榜NavSim v2的工作,指出了两个问题: 为解决这些局限,北交、轻舟、燕山大学、澳洲昆士兰大学的团队提出了CATG——一种基于Constrained flow matching的规划框架。具体而言,CATG显式建模flow matching过程,这一过程本质上可缓解mode collapse,并支持多种条件信号的灵活引导。我们的核心贡献包括:其一,在flow matching过程中创新性地引入显式约束, 确保生成轨迹符合关键的安全规则和运动学准则;其二,将驾驶激进程度参数化为生成过程中的控制信号,实现对轨迹风格的精准调控。值得注意的是,在NavSim v2 挑战赛中,CATG以51.31的EPDMS得分获得亚军,并荣获创新奖。 论文标题: Beyond Imitation: Constraint-Aware Trajectory Generation with Flow Matc ...
“中文AI三大顶会”已有两家报导了理想近期AI进展
理想TOP2· 2025-11-09 22:59
中文AI媒体对理想汽车的报道热度 - 机器之心、量子位、新智元被戏称为“中文AI三大顶会”,在懂中文的AI从业者中拥有广泛读者群 [1] - 量子位于2025年11月8日发布关于ICCV自动驾驶新范式的文章,获得3.2万阅读、926大拇指赞、1617次转发和610爱心赞,阅读量在其近一周推文中排名第二 [1] - 机器之心于2025年10月31日发布关于理想汽车L4自动驾驶新范式的文章,作为次条推送获得3.9万阅读,该阅读量在机器之心的次条和头条中均属较高水平 [1] - 机器之心对理想汽车的报道跟进最为细致,覆盖了i8发布会自动驾驶内容并对多篇论文进行跟踪 [4] - 量子位除2025年11月的报道外,上一次专门撰写理想汽车的内容是对其24Q1财报的解读,再之前的报道集中在2021年 [10] - 新智元对理想汽车的上次报道集中在2022年 [15] 理想汽车自动驾驶技术进展与行业认可 - 理想汽车在ICCV 2025上提出“训练闭环”新范式,为全球首个将世界模型与强化学习结合并落地量产自动驾驶系统的公司 [2] - 该技术通过合成数据解决罕见场景问题,使MPI(人类接管里程)显著提升,技术细节扎实,对自动驾驶/AI领域从业者极具参考价值 [2] - 评论区对理想的评价非常正面,用户称赞其为“中国车企楷模”,认为其科研硬核得不像车企 [2] - 理想的研发资金近一半投在了人工智能领域 [2] - 专注于自动驾驶内容的媒体“自动驾驶之心”在2024年至2025年间约有45篇文章讲述理想汽车,表明理想已成为该领域主流玩家 [17] - 理想汽车从2021年开始辅助驾驶研发,历程从最初的BEV方案发展到无图辅助驾驶 [5] - 公司在自动驾驶技术上探索端到端(e2e)和视觉语言模型(VLM)的实现路径 [5] 理想汽车的AI战略与长期愿景 - 理想汽车在2022年9月内部达成共识,认为要实现自动驾驶,公司必须成为一家AI公司,并于2023年1月正式对外公布,目的之一是招人广告 [17] - 公司创始人李想在2015年因相信自动驾驶能实现且智能车产业足够大而选择创业,当时未意识到自动驾驶本质是AI问题 [17] - 至2024年12月,李想接受了OpenAI定义的AI五阶段理论,认为自动驾驶变成中短期可实现目标,并认为VLA是解决方案 [17] - 公司现阶段需要自己做基座模型,自己开发大语言模型(LLM) [17] - 公司从事这些研究的最终目的不仅是为了实现自动驾驶,更是基于对OpenAI AI五阶段的远期展望,为了挑战成长极限,旨在成为最顶尖的AI公司 [18] - 有AI领域账号在2025年4月对理想汽车做LLM感到困惑,不确定其是想开辟新赛道还是在车企中做差异化竞争 [17] 理想汽车在AI圈的品牌认知度 - 截至2025年5月,理想汽车在自动驾驶以外的中文AI圈知名度很低 [22] - 尽管量子位、机器之心在2025年11月的报道提升了其知名度,但预期现阶段理想在中文自动驾驶圈已非常有名并被充分认可为主流玩家,在非自动驾驶中文AI圈则知名度相当低 [22]
地平线ResAD:残差学习让自动驾驶决策更接近人类逻辑
自动驾驶之心· 2025-11-08 00:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhiyu Zheng等 编辑 | 自动驾驶之心 想让车子自己开,传统方法得像搭积木:先"看"(感知),再"猜"(预测),最后"做决定"(规划)。这套流程环环相扣,一个环节出错,后面全跟着错, 既不高效,也不安全。 这样一来,学习目标就从 "轨迹是什么?" 变成了 "为什么要调整方向?" 。模型被迫去关注那些导致调整的真实原因,比如障碍物、交通规则等,而不是死 记硬背数据里的巧合。 我们还引入了 逐点残差归一化 ,确保模型不会因为要纠正遥远的、不确定的大偏差,而忽略了近处关键的小调整。 实验证明,这套方法非常有效。在 NAVSIM 基准测试中,ResAD取得了领先的成绩。这说明,通过引入"惯性参考"这个物理常识,并让模型专注于学习"为 何要改变",我们让端到端自动驾驶的学习任务变得更简单、更安全、更可靠。 因果混淆 :模型可能会"偷懒",学一些表面功夫。比如它看到前车刹车灯亮就刹车,但根本不理解是因为路口变红灯了。结果可能跟着前车一起闯红 灯, ...
传统规划控制不太好找工作了。。。
自动驾驶之心· 2025-10-30 08:04
行业技术趋势 - 自动驾驶规划控制岗位的职责范围正在扩大,不再仅仅是逻辑兜底,端到端和VLA的量产趋势正在蚕食传统规划控制的生存空间 [2] - 行业秋招面试更看重规则算法与端到端技术的结合,仅掌握传统规控基础已难以获得优质offer [2] - 工业界实际关注的加分项包括不确定环境下的决策规划问题,例如Contingency Planning和博弈式交互规划经验 [2] - 业内核心议题是明确端到端技术与传统规划控制在量产中的角色定位,前沿算法如一段式、二段式、自动驾驶与大模型及VLA是未来PnC岗位必须掌握的内容 [2] - 端到端自动驾驶是近两年的热点,传统规控工程师需了解其与传统方法的优劣及实际落地中的数据驱动收益最大化策略 [29] 课程核心目标与定位 - 课程设计直面工作难点和实际量产问题,旨在教授业内使用的经典方案、热门端到端方案以及两者在实际落地中的融合方式 [6] - 课程重点的两个工程项目可直接写入简历,尤其适合缺乏相关实习经验或简历项目不突出的学员在秋招前提升竞争力 [6] - 课程为小班教学,招收学员不超过50人,主打保姆级陪伴与教学,学完目标对标2年算法工程师经验 [7] - 课程后期提供求职辅导,包括修改简历、模拟面试和推荐工作机会,以助力学员拿到offer [8] - 课程适用于有一定实习或工作基础的学员,非面向纯小白,购买本课程可免费获赠一套基础课程 [12] 课程内容与教学安排 - 课程使用C++和Python作为主要开发工具,所有代码将开源,学员需具备一定的编程基础 [15] - 课程第一章将全面复盘规划控制基础算法,建立学员对领域的整体概念和全局视野 [20] - 第二章将利用基础算法构建完整的决策规划框架,包括路径-速度解耦框架、时空联合框架及数据驱动框架 [21] - 第三章聚焦不确定环境下的决策规划问题,讲解系统性解决方案Contingency Planning,从理论到代码全方位掌握 [24] - 第四章讲解博弈交互式规划方法,通过Dynamic Game Model理论实现自车与他车的联合轨迹优化 [26] - 第五章新增端到端自动驾驶内容,涵盖一段式、二段式端到端以及VLM & VLA技术 [29] - 第六章提供PnC岗位面试辅导,包括简历修改、模拟面试及面试技巧传授 [31] 课程附加价值与成果 - 根据反馈,前两批近100名学员已成功获得华为、百度、地平线、Momenta、小米、极氪及蔚小理等公司的offer [10] - 讲师宁远老师将提供一对一简历修改和Offer选择指导,实现保姆级陪伴 [10] - 课程提供价值1000元以上的附加福利,包括首次免费简历修改(价值500元)和赠送基础课程或满减券(价值500元) [33][36] - 学员在开课一周内仍可对导师专业性提出质疑,经核实后可申请全额退款 [43]
地平线HSD的确值得留意
自动驾驶之心· 2025-10-29 11:30
地平线HSD技术体验评估 - 2025年10月在杭州西湖对A车型地平线HSD工程车进行了1.5小时试驾,辅助驾驶能力相当不错,明显优于理想L7 VLA截至2025年10月的量产版本[5] - 试驾过程中除1次三点掉头外实现0次接管,在安心感、舒适感、丝滑度、时延及堵车连续启停舒适度方面均表现良好,全程几乎没有调整速度的欲望[6] - 地平线HSD技术架构为车端视觉信息输入、输出轨迹的VA式端到端,激光雷达定位为安全冗余,云端有语言介入,认为VA式端到端还有很大潜力可挖[5] 理想汽车VLA技术对比 - 2025年8月在北京顺义体验的理想i8 VLA工程车能力明显强于当时成都L7 VLA与北京i6 VLA的量产版本[5] - 无法明确判断2025年10月杭州体验的HSD工程车与2025年8月北京体验的理想i8 VLA工程车哪个体验更好[5] - 对VLA技术的观点是认为大量时候不需要语言,且串联式VLA对算力和带宽要求过高[5] 地平线团队合作与产品差异 - 接触的三个地平线智驾团队成员诚实度很高,主动详细说明系统在极端天气、非标场景、复杂博弈下的局限性[7] - 地平线HSD在不同车型上表现差异显著,A车型工程车辅助驾驶能力很不错,而B车型则很一般,差异原因包括芯片算力不同及与车企配合度有关[6] - 地平线与主机厂合作中,车机与智驾适配需高度尊重主机厂意见,导致SR界面布局和导航操作逻辑存在不符合直觉的问题[7] 行业技术发展现状 - 地平线团队成员评估HSD目前可能有FSD V13版本约60%的水平,但属于非严谨论证[7] - HUD和车机界面构成智驾体验重要部分,SR界面应放在左边而非右边,更改导航目的地按钮的设计也需要优化[7] - 行业中存在VA式端到端与VLA两种技术路径的探讨,VA式端到端被认为还有很大潜力[5]
ICCV 2025「端到端自动驾驶」冠军方案分享!
自动驾驶之心· 2025-10-29 08:04
赛事成就与排名 - 浪潮信息AI团队在ICCV 2025自动驾驶国际挑战赛的端到端自动驾驶赛道中夺得冠军,EPDMS综合得分为53.06 [2] - 该团队提出的创新框架"SimpleVSF"在榜单中排名第一,得分显著领先于第二名(51.31)和第三名(51.08) [3] - 此次夺冠是公司继2022年、2023年登顶nuScenes榜单以及2024年在CVPR自动驾驶挑战赛夺冠后的又一重要成果 [13] 技术框架与核心创新 - SimpleVSF框架创新地构建了以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案 [2] - 框架引入VLM增强打分机制,通过将前视图像与车辆状态输入VLM生成认知指令,使轨迹评估融入对交通意图与场景语义的理解 [8] - VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6% [8] - 框架采用双重融合决策机制,包括权重融合器和基于VLM的选择融合器,融合后的结果相比单一模型性能提升达10% [10][11] - 框架采用扩散模型生成高质量候选轨迹,运用ViT-L等先进视觉骨干网络进行特征提取,并引入Qwen2.5VL系列视觉语言模型 [13] 行业挑战与赛题设置 - 端到端自动驾驶当前主要问题在于难以理解如礼让行人、拥堵跟车等高层次语义与场景常识,限制了其在真实开放道路中的可靠性与泛化能力 [5] - 赛题旨在提升模型在复杂动态环境中高效可靠决策的能力,比赛分为两阶段,第二阶段基于真实场景通过Gaussian Splatting技术生成合成场景以测试模型泛化能力 [6] - 比赛引入"反应式背景交通参与者",要求模型具备交互式预测与意图理解能力,而非简单的轨迹外推 [6] - 比赛以NAVSIM v2数据驱动仿真框架作为评估平台,考验纯视觉环视相机输入的轨迹预测与行为规划能力,并优化九项关键指标 [4] 技术影响与行业意义 - SimpleVSF框架有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从"纯几何式"向"认知式"转变 [7] - 该技术为高动态、高交互交通环境下的智能决策提供了全新思路,突破了现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限 [2] - 端到端自动驾驶通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向 [5]
给自动驾驶业内新人的一些建议
自动驾驶之心· 2025-10-29 08:04
社区概况与定位 - 社区名称为“自动驾驶之心知识星球”,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [1][3] - 社区已运营三年,当前成员规模超过4000人,并计划在未来2年内发展到近万人规模 [1][3] - 社区旨在为初学者和进阶者提供技术分享与交流平台,解决行业壁垒高、试错成本高、缺乏完整学习体系等问题 [1][3] 社区资源与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端驾驶等多个领域 [5][6][14][15] - 资源形式包括近40个开源项目汇总、近60个自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [14] - 提供原创直播课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真及端到端与大模型技术等9大系列 [9] 成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、百度等自动驾驶头部公司 [14] - 社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员简历直达心仪公司 [10] - 社区定期邀请学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播 [84] 具体技术内容与问答 - 社区日常讨论问题包括端到端自动驾驶入门、VLA学习路线、多模态大模型数据集、多传感器融合就业前景、3DGS与闭环仿真结合等前沿话题 [7][18] - 技术资料库详细梳理了3D目标检测、BEV感知、扩散模型、世界模型、视觉语言模型、自动驾驶VLA等热点领域的最新综述、方法汇总与开源数据集 [20][37][39][43][45] - 提供“自动驾驶100问”系列实战资料,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程化主题 [8]
特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线
36氪· 2025-10-27 16:11
技术发布与核心观点 - 特斯拉在计算机视觉顶会ICCV上展示了其世界模拟器 该模拟器能够生成逼真的驾驶场景视频 [1] - 特斯拉自动驾驶副总裁Ashok Elluswamy首次揭秘了公司的自动驾驶技术路线图 并明确表示端到端AI是智能驾驶的未来 [1][5] 世界模拟器功能与应用 - 世界模拟器可为自动驾驶任务生成新的挑战场景 例如模拟右侧车辆突然连并两条线闯入预设路径 [2] - 生成的场景视频不仅用于自动驾驶模型的训练 也可作为电子游戏供人类体验 [2] - 该模拟器技术同样适用于其他具身智能场景 如特斯拉的擎天柱机器人 [4] 端到端自动驾驶技术优势 - 特斯拉采用端到端神经网络实现自动驾驶 该网络利用来自多个摄像头、运动信号、音频及地图等数据 直接生成车辆控制指令 [8] - 端到端方法相比模块化方法的主要优势包括:更易于从数据中学习人类价值观、通过梯度整体优化网络、易于扩展处理长尾问题、具有确定性延迟的同质计算 [8] - 该方法能处理复杂权衡 例如在视野开阔且对向车道无车时 决策借用对向车道绕过积水 这用传统编程逻辑难以表达 [8][10] 端到端自动驾驶的挑战与解决方案 - 端到端自动驾驶面临评估困难 特斯拉的世界模拟器正是针对此难题 它使用海量数据集训练 能根据当前状态和行动合成未来状态 用于闭环性能评估和大规模强化学习 [11] - 系统面临"维数灾难" 输入信息量巨大 例如7个摄像头×36FPS×5百万像素×30秒画面等数据 大约会产生20亿输入Token 而神经网络需将其精简为2个输出Token(转向和加速) [13] - 为解决维数灾难 特斯拉通过庞大车队每天收集相当于500年驾驶总和的数据 并使用复杂数据引擎筛选高质量样本 以提升模型泛化能力 [13] - 针对可解释性和安全性调试困难的问题 模型可以生成可解释的中间Token用作推理Token [15] 技术实现细节 - 特斯拉的生成式高斯泼溅技术具有出色泛化能力 无需初始化即可建模动态物体 并可与其他模型联合训练 [18] - 该技术中所有的高斯函数均基于量产车配置的摄像头生成 [20] - 推理过程可通过自然语言和视频背景进行 该推理模型的一个小版本已在FSD v14.x版本中运行 [21] 行业技术路线对比 - 尽管端到端被视为未来 但业界在具体算法路线上存在VLA和世界模型之争 [24] - 华为和蔚来是世界模型路线的代表 而元戎启行和理想则选择VLA路线 也有观点认为应结合两者 [24] - VLA路线的优势在于可利用互联网海量数据积累常识 并借助语言能力进行长时序推理 有尖锐观点认为不使用VLA是因为算力不足 [24] - 世界模型路线支持者则认为其更接近问题本质 例如华为车BU CEO靳玉志认为VLA路径看似取巧并不能真正实现自动驾驶 [24] - 特斯拉的方案备受关注 因其在自动驾驶发展历程中的技术选择具有风向标意义 [24]
特斯拉世界模拟器亮相ICCV!VP亲自解密端到端自动驾驶技术路线
量子位· 2025-10-27 13:37
世界模拟器技术 - 特斯拉在ICCV顶会上推出世界模拟器 可生成看似真实的驾驶场景用于自动驾驶测试 [1][4] - 模拟器功能包括生成新的挑战场景 如右侧车辆突然连并两条线闯入预设路径 以及让AI在已有场景中执行避障任务 [5][7] - 生成的场景视频不仅用于自动驾驶模型训练 还可作为电子游戏供人类体验 [9] 端到端自动驾驶技术路线 - 特斯拉自动驾驶副总裁明确表示端到端AI是自动驾驶的未来 该方法利用多摄像头图像、运动信号、音频、地图等数据直接生成控制指令 [12][13][17] - 与模块化方法相比 端到端优势包括更易从数据中学习人类价值观、通过梯度整体优化网络、可扩展性更强以及具有确定性延迟 [17][18] - 端到端架构面临评估难题 特斯拉世界模拟器通过合成未来状态来连接策略模型 以闭环方式评估性能并支持强化学习 [22][23][24] 技术挑战与解决方案 - 端到端系统面临维数灾难 输入信息可达20亿Token 需精简为2个控制动作 [26][27][28] - 公司通过庞大车队每日收集相当于500年驾驶总和的数据 并利用数据引擎筛选高质量样本以提升模型泛化能力 [29][30] - 针对可解释性问题 模型可生成中间Token用作推理Token 生成式高斯泼溅技术可建模动态物体并与端到端模型联合训练 [32][35] 行业技术路线分歧 - 业界存在VLA和世界模型两条端到端自动驾驶技术路线分歧 华为、蔚来代表世界模型路线 元戎启行、理想选择VLA路线 [38][39] - VLA路线支持者认为该范式可利用互联网海量数据积累常识 并通过语言能力进行长时序推理 有观点认为不用VLA是因算力不足 [39][40] - 世界模型支持者如华为车BU CEO认为VLA路径看似取巧不能真正实现自动驾驶 特斯拉方案因历史选择正确而受关注 [41][43][44]
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 08:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]