Workflow
端到端自动驾驶
icon
搜索文档
筹备了半年!端到端与VLA自动驾驶小班课来啦(一段式/两段式/扩散模型/VLA等)
自动驾驶之心· 2025-07-09 20:02
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,通过传感器数据直接输出规划或控制信息,避免模块化方法的误差累积 [1] - BEV感知打通模块化壁垒,UniAD统一感知和规划任务,标志着端到端时代的来临 [1] - 2024年理想汽车宣布E2E+VLM双系统架构量产,显示工业界对端到端技术的重视 [1] - 技术方向多样化:PLUTO(二段式)、UniAD(感知一段式)、OccWorld(世界模型一段式)、DiffusionDrive(扩散模型一段式)等算法涌现 [4] 技术挑战与学习痛点 - 端到端技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识,学习路径复杂 [3] - 论文数量繁多且知识碎片化,缺乏高质量文档和系统实战指导,入门难度高 [3] - 目标驱动导航需闭环任务支持,但理论与实践衔接困难 [3] 课程核心内容与特点 - 课程覆盖端到端算法发展历史、技术范式(一段式、二段式、VLA)及工业界应用 [8][10] - 重点讲解背景知识:Transformer、BEV感知、扩散模型、VLM强化学习技术(RLHF、GRPO) [8] - 二段式端到端聚焦PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [9] - 一段式端到端涵盖UniAD、OccWorld、DiffusionDrive、VLA等子领域,配套Diffusion Planner和ORION实战 [10][12][13] - 大作业为RLHF微调实战,可迁移至VLA算法 [14] 课程结构与安排 - 分五章展开:端到端概述、背景知识、二段式、一段式与VLA、RLHF大作业 [8][9][10][14] - 8月15日开课,三个月结课,离线视频+VIP群答疑+三次线上答疑 [20] - 章节解锁时间:第一章(8.01)、第二章(8.15)、第三章(8.30)、第四章(9.15)、第五章(10.30) [20] 目标人群与学习收获 - 需具备GPU(推荐4090+)、自动驾驶基础、Transformer/BEV/强化学习概念、Python/PyTorch能力 [22] - 学完可达1年经验算法工程师水平,掌握端到端框架及BEV、扩散模型、VLA等关键技术 [23] - 可复现主流算法,应用于实习、校招、社招场景 [23]
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 20:30
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 特斯拉的纯视觉方案凭借成本优势和算法革新正在撼动多传感器融合的主流地位 [2] - 激光雷达成本已降至200美元,比亚迪自研体系内价格再降70%,技术红利背后是从业者持续升级的压力 [2] 自动驾驶人才市场变化 - 传统激光雷达感知算法工程师面临技术路线冲击,规划控制领域从PID到强化学习的转型带来技能升级紧迫感 [2] - 学生新手面临选择困难:感知算法赛道内卷加剧,数据闭环工程师需掌握分布式计算与AI模型调优能力,车路协同方向要求跨界知识融合 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,聚集近4000名成员和100+行业专家 [7] - 社区覆盖30+技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy、3D目标检测等几乎所有子方向 [7] - 提供学术界与工业界前沿直播、求职内推渠道,每周活跃度位居国内前20 [7] 前沿技术方向 - 视觉大语言模型(VLM)在自动驾驶中的应用包括场景理解、轨迹生成和决策控制 [26][27] - 世界模型技术如GAIA-1、DriveDreamer通过生成式AI模拟驾驶场景演化,提升系统预测能力 [32][33] - 扩散模型在自动驾驶中用于场景合成、数据增强和轨迹预测,相关研究数量快速增长 [35][40] 数据集与评估 - 主流自动驾驶数据集包括nuScenes(12亿帧)、Waymo Open Dataset(12亿帧)和BDD100K(10万视频) [23][24] - VLM预训练数据集规模从1M(SBU Caption)到12B(WebLI),评估指标涵盖mAP(目标检测)、mIoU(语义分割)等 [17][18] 端到端自动驾驶进展 - 端到端方法逐步替代模块化架构,DriveGPT4、DriveMLM等模型实现感知-规划一体化 [29][53] - 技术挑战包括长尾场景处理、系统可解释性以及与传统规控方法的协同 [54][55] - 行业研究报告显示,特斯拉FSD的端到端方案推动量产落地进程加速 [47] 工业界应用案例 - 智能交通领域采用VLM实现语言引导车辆检索和视觉问答,提升交互效率 [25] - 自动驾驶决策控制中,DiLu、LanguageMPC等模型利用大语言模型增强决策可解释性 [28] - 仿真测试依赖扩散模型生成高保真场景,如DriveDreamer-2支持定制化视频生成 [30] 技术社区资源 - 知识星球提供四大板块:技术领域分类、学术直播、求职资料和问题解答 [10][11] - 汇总Awesome资源列表,包括视觉大语言模型、扩散模型和端到端自动驾驶的论文与代码库 [12][35] - 学习路线覆盖BEV感知、Occupancy、CUDA加速等30+方向,配套工程解决方案与优化思路 [66][67]
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 16:44
计算机视觉与自动驾驶研究热点 - 2024年CVPR和ICCV两大顶会的研究热点集中在四大领域:通用计算机视觉、自动驾驶相关、具身智能、3D视觉 [2] - 通用计算机视觉细分方向包括diffusion模型、图像质量评估、半监督学习、零样本学习、开放世界检测等 [3] - 自动驾驶领域聚焦端到端系统、闭环仿真3DGS、多模态大模型、扩散模型、世界模型、轨迹预测等技术 [3] - 具身智能领域重点研究方向为VLA(视觉语言动作模型)、零样本学习、机器人操作、端到端控制、sim2real迁移、灵巧抓取等 [3] - 3D视觉领域热点包括点云补全、单视图重建、3D高斯泼溅(3DGS)、3D匹配、视频压缩、神经辐射场(NeRF)等 [3] 自动驾驶技术应用方向 - 自动驾驶核心技术涵盖大模型应用、VLA系统、端到端解决方案、3D高斯泼溅(3DGS)、BEV感知、多传感器融合等 [4] - 具体技术分支包括毫米波雷达与视觉融合、激光雷达与视觉融合、多传感器标定、车道线检测、在线地图构建、Occupancy网络等 [4] - 决策规划领域涉及高性能计算、语义分割、轨迹预测、世界建模、3D目标检测等关键技术 [4] 具身智能与机器人技术 - 具身智能核心方向包括视觉语言导航、强化学习、Diffusion Policy、具身交互、机器人位姿估计等 [4] - 机器人控制技术覆盖运动规划、双足/四足机器人控制、遥控操作、触觉感知、SLAM等 [4] - 零样本学习在具身智能中具有重要应用价值 [4] 3D视觉与通用CV技术 - 3D视觉关键技术包含点云处理、3D高斯泼溅(3DGS)、SLAM等 [4] - 通用计算机视觉持续关注diffusion模型、图像质量评估、半监督学习等基础方向 [4] - 零样本学习在通用CV和具身智能领域均具有交叉应用 [3][4] 学术成果与科研支持 - 自动驾驶领域已有2篇论文被CVPR 2025收录 [3] - 科研支持范围覆盖自动驾驶顶会(CCF-A/B/C)、SCI各分区期刊、EI/中文核心等 [4] - 技术支持方向包括毕业论文、申博研究、学术竞赛等应用场景 [4]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 17:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]
今年,传统规划控制怎么找工作?
自动驾驶之心· 2025-07-02 21:54
自动驾驶规划控制行业趋势 - 传统规划控制岗位的生存空间正在被端到端和VLA技术蚕食,行业转向规则算法与端到端结合的需求[2][3] - 2025年端到端技术将进一步落地,但传统规控仍为L4等高安全性场景提供兜底,两者融合成为关键[4] - 头部公司重点关注不确定环境下的决策规划(如Contingency Planning)和博弈式交互规划,这些是面试和量产的核心差异点[4][24][26] 岗位技能要求与转型挑战 - 基础算法(横纵解耦框架、搜索/采样/运动学规划)已成为行业准入门槛,但仅掌握基础难以获得优质offer[4] - 从业者需补充端到端技术(一段式/二段式、VLM/VLA)及传统规控创新方案,以应对技术迭代[4][29] - 转行者需在3-4个月内强化C++/Python、运动规划理论及实战项目,并聚焦不确定性处理和交互规划等高阶能力[4][15][39] 行业培训与就业服务 - 小班课程聚焦量产痛点,覆盖经典规控方案与端到端融合,提供可直接写入简历的工程项目[7][13] - 课程设计对标2-3年工程师经验,包含简历修改、模拟面试及内推服务,往期学员入职华为、百度等头部公司[8][9][10] - 课程大纲分六模块:基础算法、决策规划框架、不确定性处理、博弈规划、端到端技术及面试辅导,强化工程与理论结合[20][22][24][26][29][31] 技术课程内容与特色 - 第一章至第五章系统讲解算法工具链,从搜索/优化到数据驱动框架,培养全局视野[20][21][22] - 博弈交互式规划和防御式规划为头部公司量产重点,课程提供代码级实践与场景落地指导[24][26][27] - 端到端章节新增VLM/VLA技术解析,分析其与传统规控的协同落地策略[29] 目标人群与附加价值 - 面向车辆工程、计算机等专业学生及转行者,需具备编程和数学基础,非小白向[37][38] - 附加服务包括简历修改、理论课程赠送及一对一就业咨询,价值超千元[33][36] - 课程采用VIP群直播+录播模式,限50人,强调保姆级教学与工程能力提升[8][12]
不用给理想入选ICCV高评价, 牛的是理想的工作, 不是ICCV
理想TOP2· 2025-06-29 23:06
AI学术圈特点 - AI学术圈会议比期刊重要 因AI发展速度过快 期刊审稿周期无法满足需求 [5] - 顶会论文页数限制严格 优秀AI论文通常仅几页 与其他学科差异显著 [5] - 主要顶会投稿/录用数量暴增 例如AAAI 2014-2023录用数从398增至1721 投稿数从1406增至8777 录用率从28.31%降至19.60% [5][7] 顶会论文含金量现状 - 审稿人数量跟不上投稿增量 审稿质量下降 录用论文含金量参差不齐成为行业共识 [8] - 顶会录用者职业竞争加剧 优质岗位供给速度落后于录用者增长 类比其他学科学历贬值趋势 [8] - 中国机构贡献占比达1/3至1/2 商业公司参与度显著高于其他学科 高校资源处于劣势 [8] 理想汽车学术成果分析 - 自动驾驶团队5篇论文入选ICCV 基座模型团队另有3篇录用 公司强调学术成果重要性 [2][3] - 学术宣传本质是面向用户的辅助驾驶技术营销策略之一 [9] - VLA技术原始创新达到DeepSeek MoE级别 突破尺度介于MLA与Transformer之间 [11] 理想技术路径演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 [12] - VLM系统采用快慢双系统架构 快系统借鉴特斯拉 慢系统为完全自主创新 [12] - 技术开发逻辑类比增程车设计理念 通过差异化方案弥补算力/数据资源劣势 [12][13] 行业创新格局 - 中国公司中具备MoE级别原始创新能力的厂商数量远少于能批量产出顶会论文的公司 [1][11] - 商业公司实现顶会多篇论文收录门槛已大幅降低 但核心价值仍取决于实际技术突破 [8][10] - 理想VLA到VLM的技术演进路径已脱离跟随模式 形成自主创新体系 [12][13]
华为车BU招聘(端到端/感知模型/模型优化等)!岗位多多~
自动驾驶之心· 2025-06-24 15:21
华为车BU招聘信息 - 端到端模型算法工程师岗位职责包括模型设计开发部署迭代、现网问题优化、新算法预研落地及数据分布分析[1] - 感知模型算法工程师负责视觉感知神经网络设计开发部署迭代及长期研发[1] - 人脸状态监测算法工程师专注于驾驶员乘客姿态行为视线监测算法研发部署[1] - 模型效率优化岗位聚焦AI模型车端推理效率优化及压缩算法开发[1] 自动驾驶技术发展趋势 - 2025年技术基调确定为VLA(视觉语言动作)驱动的端到端2.0系统[9] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真及世界模型[9] - 技术迭代周期持续缩短,行业进入快速演进阶段[9] 自动驾驶之心知识星球概况 - 国内最大自动驾驶技术社区,成员近4000人[14] - 覆盖30+技术方向学习路线,包含感知定位规划控制等全栈内容[14] - 与数十家企业建立内推渠道,简历直达招聘方[14] - 每周活跃度居国内前20,日均成本不足1元[15] 技术资源体系 - 建立四大板块:学术进展追踪、专家答疑、内容下载、课程优惠[16] - 积累近5000份干货内容,每年举办100场行业直播[17] - 技术领域覆盖视觉大语言模型、世界模型、BEV感知等30+方向[19] - 视频直播涵盖50+子方向,年计划100场专业分享[21] 数据集与评估体系 - 视觉语言模型预训练数据集规模达5B图像文本对[29] - 自动驾驶专用数据集包含KITTI、NuScenes、Waymo等主流基准[34] - 语言增强驾驶数据集支持视觉问答、导航等复杂任务[35] - 评估指标覆盖图像分类、目标检测、语义分割等任务[30][33] 前沿技术应用 - 智能交通领域应用语言引导车辆检索、视觉问答等技术[36] - 自动驾驶感知方向实现开放词汇检测、语言引导跟踪等突破[37] - 定位规划领域探索语言条件导航、大模型轨迹生成等创新[38] - 决策控制方向开发基于LLM的可解释驾驶系统[39] 行业生态建设 - 嘉宾团队覆盖国内外顶尖高校和头部企业[112][114] - 成员来自地平线、蔚来、小鹏等企业及全球知名院校[117] - 日常维护包括论文分享、职位内推、技术问答等[120] - 持续邀请100+行业专家参与内容建设[112]
端到端系列!SpareDrive:基于稀疏场景表示的端到端自动驾驶~
自动驾驶之心· 2025-06-23 19:34
端到端自动驾驶技术研究 - 现有端到端方法存在两个主要问题:BEV范式算力消耗大,预测与规划串联式设计忽略自车信息且两者均为多模态问题 [2] - 提出SparseDrive解决方案:采用稀疏场景表示的端到端方法,实现预测与规划并行处理 [2] - 技术贡献包括:探索稀疏场景表示、分层规划选择策略、在nuScenes数据集达到SOTA水平 [5] 模型架构与训练 - 主体结构沿用地平线Sparse系列思想,包含特征提取、对称稀疏感知、平行运动规划器等模块 [5] - 采用多任务损失函数:${\mathcal{L}}={\mathcal{L}}_{d e t}+{\mathcal{L}}_{m a p}+{\mathcal{L}}_{m o t i o n}+{\mathcal{L}}_{p l a n}+{\mathcal{L}}_{d e p t h}$ [9] - 训练分为两个阶段:stage1从头训练稀疏感知模块(SparseDrive-S:100 epochs,lr 4×10-4),stage2微调(10 epochs,lr 3×10-4) [10] 性能对比 感知能力 - SparseDrive-B在3D检测指标全面领先:mAP 0.496 vs UniAD 0.380,NDS 0.588 vs 0.498 [11] - 多目标跟踪表现:AMOTA 0.501(SparseDrive-B)显著优于UniAD 0.359,Recall达0.601 [11] - 在线建图能力:MAP 56.2(SparseDrive-B)超越VectorMapNet 56.1和MapTR 58.7 [17] 运动预测与规划 - 预测指标:minADE 0.60m(SparseDrive-B)优于UniAD 0.71m,MR 0.132 vs 0.151 [18] - 规划指标:平均L2误差0.58m(SparseDrive-B),碰撞率0.06%显著低于UniAD 0.61% [18][24] - 效率优势:SparseDrive-S推理速度9FPS,显存占用1294M,远优于UniAD的1.8FPS/2451M [20] 工业级课程体系 - 课程覆盖端到端算法全链路:从基础模块(感知/预测/规划)到完全端到端方案(UniAD/VAD/SparseDrive等) [34][46] - 实战内容包含环境配置、数据加载、核心代码解析及可视化,配套UniAD和PlanT算法完整实现 [35][36] - 目标受众:自动驾驶领域研究生、算法工程师及转行人员,需具备Python/PyTorch基础及GPU环境 [55][56]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 22:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]
商汤绝影世界模型负责人离职。。。
自动驾驶之心· 2025-06-21 21:15
商汤绝影人事变动 - 商汤绝影世界模型研发负责人离职,该负责人曾负责云端技术体系建设和生成式智驾方案R-UniAD研发 [2] - 传闻该离职负责人可能选择创业 [3] 中阶市场动态 - 商汤绝影已在广汽传祺量产交付基于J6M的中阶方案 [4] - 2025年中阶市场将迎来重大升级,从高速NOA升级为全域NOA [4] - 头部公司推出轻量版城区NOA方案,可适配100 TOPS算力芯片,并已向主机厂推广演示 [4] - 算法方案每年迭代升级,跟不上节奏的玩家可能被市场淘汰 [4] 高阶市场布局 - 2025年高阶市场重点是一段式端到端方案,主机厂招标普遍要求该技术 [5] - 商汤绝影UniAD一段式端到端方案已与东风汽车合作,目标2025年Q4量产交付 [5] - 商汤绝影过去两年高阶领域存在感较弱,当前需通过标杆项目证明实力 [6] - 2025年是关键窗口期,主机厂释放大量高阶车型项目,后续机会将向10万价位车型下沉 [6] 商汤绝影战略关键 - 一段式端到端方案的量产交付效果将决定公司能否在高阶市场站稳脚跟 [7] - 高阶业务表现将直接影响公司融资前景 [8]