Workflow
端到端自动驾驶
icon
搜索文档
自动驾驶之心开学季火热进行中,所有课程七折优惠!
自动驾驶之心· 2025-09-07 00:05
开学季促销活动 - 推出299元超级折扣卡 自购买之日起一年内购买平台任意课程享受七折优惠 包括后续新课程[3][5] - 课程福利满1000元赠送2门带读课程 八选二[3][46] - 自动驾驶之心知识星球立减88元[3][46] - 自动驾驶论文辅导1000元最高抵扣10000元[3][46] - 自动驾驶1v6小班课限时福利立减1000元[3][46] - 全平台硬件优惠包括全栈教研平台黑武士001 足式/强化学习科研平台TRON1 四足机械狗+机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂+双臂方案[3][46] 自动驾驶前沿课程方向 - 端到端与VLA自动驾驶作为智驾量产核心算法 分为一段式端到端和二段式端到端两个技术方向[6] - 端到端自动驾驶通过传感器数据输入直接输出自车规划或控制信息 需要掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等知识[6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注 解决端到端和VLA训练数据需求复杂化问题 需要时间同步后传感器统一标注动静态元素 OCC和轨迹等[11] - 多模态大模型与自动驾驶实战课程系统化学习从通用多模态大模型到大模型微调 最终聚焦端到端自动驾驶多模态大模型[15][16] 课程体系与师资 - 平台课程涵盖BEV感知全栈系列教程 毫米波雷达视觉融合 激光雷达视觉融合 3D&4D毫米波雷达 车道线检测 Occupancy占用网络等方向[19] - 模型部署课程包括CUDA与TensorRT部署实战 BEV模型部署实战[21] - 规划控制与预测课程包含规划控制理论&实战教程 轨迹预测理论与实战教程[21] - 讲师团队包括C9本科+QS50 PhD背景的算法专家 具备CCF-A论文发表和量产交付经验[8][12][18] 小班课特色与就业支持 - 小班课聚焦实际工作需求 解决规控研究深水区内容 量产实战项目 简历修改和面试指导等问题[23][24] - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 解决小白常踩的坑和工程问题[29] - 对接理想 地平线 百度 上海人工智能实验室 蔚来汽车 小鹏汽车 华为车BU 大疆等公司 学员完成课程后可进行岗位推荐 绕开官网投递[41] - 提供自动驾驶之心知识星球和AutoRobo求职星球 第一时间获取最新岗位和技术信息[42]
谈谈Diffusion扩散模型 -- 从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-09-06 19:59
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪音符合特定分布 [1] - 模型原理基于对数据分布的学习和模拟 包含正向扩散过程和反向生成过程 [2] - 开山之作自2020年提出 目前引用量已超过20000次 [2] 扩散模型在自动驾驶领域的应用 - 应用主要集中在数据生成 场景预测 感知增强和路径规划等方面 [11] - 可对连续分布噪音和离散分布噪音进行去噪 适用于决策规划等离散问题 [11] - 在端到端和VLA架构中都发挥重要作用 [11] 端到端自动驾驶课程技术体系 - 课程涵盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等核心技术 [21] - 第二章包含大语言模型 BEV感知 扩散模型理论 强化学习与RLHF等关键技术栈 [18][27] - 扩散模型多模轨迹预测成为学术界和工业界追捧的热点 多家公司尝试落地 [33][34] 课程章节内容设计 - 第一章介绍端到端自动驾驶发展历史 技术范式演变及业界动态 [27] - 第二章重点讲解端到端涉及的背景知识 为后续章节奠定基础 [27] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner和Plan-R1等经典与前沿工作 [28] - 第四章深入一段式端到端子领域 包括基于感知 世界模型 扩散模型和VLA的方法 [29] - 第五章设置RLHF微调大作业 提供预训练和强化学习模块的实战指导 [38] 实战项目安排 - 包含Diffusion Planner实战项目 适用于求职应用场景 [33] - 基于小米ORION的VLA实战 揭开自动驾驶VLA神秘面纱 [36] - RLHF微调作业具有良好延展性 可迁移到VLA相关算法中 [38] 技术人才市场需求 - VLA/VLM大模型算法专家薪资达40-70K-15薪 [19] - 多模态VLA大模型方向顶尖技术人才薪资达90-120K-16薪 [19] - VLM/VLA大模型算法工程师薪资35-65K [19] - VLM实习生日薪220-400元 [19] 课程特色与目标 - 基于Just-in-Time Learning理念 帮助学员快速掌握核心技术栈 [22] - 构建端到端自动驾驶研究框架 提升论文分类和创新点提取能力 [23] - 学完可达1年左右端到端自动驾驶算法工程师水平 [43] - 可复现扩散模型 VLA等主流算法框架 应用于实际项目 [46]
筹备了很久,下周和大家线上聊一聊~
自动驾驶之心· 2025-09-05 15:50
社区活动与交流 - 计划举办线上交流活动 针对自动驾驶多个技术方向收集问题并进行交流 [1] - 社区成员主要分布在头部自驾公司 互联网公司 Top高校实验室和传统机器人公司 形成工业界和学术界互补的态势 [3] - 社区已建立超过100场专业技术直播 邀请学术界和工业界大佬分享最新研究成果 [52] 社区规模与内容 - 自动驾驶之心知识星球目前拥有超过4000名成员 目标在未来2年内达到近万人规模 [5] - 社区内容涵盖近40个自动驾驶技术方向 包括多模态大模型 VLM 端到端自动驾驶 规划控制 多传感器融合等 [3][5] - 社区提供视频 图文 学习路线 问答和求职交流为一体的综合服务 并梳理了40+技术路线 [5] 技术资源与学习 - 汇总近40+开源项目 近60+自动驾驶数据集 行业主流仿真平台以及各类技术学习路线 [12] - 提供全栈方向学习课程 适合0基础入门 同时为进阶者提供产业体系和项目方案 [8][10] - 社区内部包含自动驾驶感知 仿真 规划控制等学习路线 以及VLA 多模态大模型等前沿技术内容 [12][13] 行业合作与就业 - 与多家自动驾驶公司建立岗位内推机制 帮助成员将简历送至心仪公司 [8] - 社区成员来自国内外知名高校和头部企业 包括上海交大 清华大学 CMU 蔚小理 地平线 华为 英伟达等 [12] - 提供求职交流 行业机会挖掘 投资与项目对接等服务 [16] 技术方向覆盖 - 详细梳理端到端自动驾驶 VLM VLA 世界模型 扩散模型 BEV感知 3D目标检测等多领域内容 [25][26][28][29][31][34][36] - 涵盖规划控制 多传感器融合 在线高精地图 Occupancy Network 轨迹预测 强化学习等关键技术 [32][37][38][40] - 包括传感器标定 模型部署 CUDA 仿真框架等工程实践内容 [7][43][46] 直播与专家分享 - 直播内容覆盖VLA 3D检测 扩散模型规划器 神经符号系统等前沿话题 [52] - 邀请学术界和工业界专家分享最新研究成果 如Impromptu VLA DetAny3D模型等 [52] - 提供超过100场专业技术直播 部分内容可反复观看 [52]
从传统融合迈向端到端融合,多模态感知的出路在哪里?
自动驾驶之心· 2025-09-04 19:54
多模态感知融合技术背景与价值 - 为克服单一传感器在复杂场景下的感知局限,行业通过融合激光雷达、毫米波雷达和摄像头实现优势互补,其中摄像头提供丰富的语义信息和纹理细节,激光雷达生成高精度的三维点云并提供准确的距离和深度信息,毫米波雷达则在恶劣天气下穿透性强且成本相对较低,最终构建出全天候、全场景的可靠感知系统,显著提升自动驾驶鲁棒性和安全性 [1] 多模态感知融合技术演进与前沿 - 多模态感知融合技术正从传统的早期融合、中期融合和晚期融合向更深层次的架构演进,中期融合是目前主流方案,例如将不同传感器特征统一到鸟瞰图视角下处理,解决了数据空间对齐难题 [2] - 基于Transformer的端到端融合是当前最前沿方向,该架构通过跨模态注意力机制学习不同模态数据间的深层关系,实现更高效鲁棒的特征交互,并通过端到端训练减少误差累积,直接输出感知结果以更好地捕捉动态信息 [2] - 该技术已广泛应用于L2-L4级自动驾驶系统,涵盖高精度地图构建、全场景鲁棒感知和自动泊车等领域 [2] 多模态感知融合技术挑战 - 传感器标定是首要难题,需确保不同传感器在空间和时间上的高精度对齐,同时数据同步问题也需解决以应对传感器帧率不一致和时延不同步的情况 [3] - 未来研究核心方向是设计更高效鲁棒的融合算法,以有效利用和处理不同传感器数据的异构性和冗余性 [3] 课程内容与结构 - 课程周期为12周在线小组科研,外加2周论文指导和10周论文维护期,采用小班模式,每期至多8人 [4][7] - 课程内容涵盖经典论文、前沿论文和代码实现,包括创新点、baseline、数据集、选题方法、实验方法、写作方法和投稿建议 [4][10] - 具体课程安排包括课题概览、多模态融合演进、BEV视角下的融合、基于Transformer的端到端融合、激光-视觉深度融合、雷达-视觉-激光三元融合技术等主题,每周课时为1至1.5小时 [22][24] 课程资源与支持 - 课程将提供公开数据集,如ADUULM-360、nuScenes和KITTI等,并根据具体任务提供Baseline代码 [17][18] - 项目采用“2+1”式师资团队,由名校教授、研究员或行业导师领衔授课,并配备科研论文班主任进行全程跟踪监督,提供全方位学习支持 [15][20] - 学员需具备深度学习基础,对多模态融合算法有简单了解,熟悉Python和PyTorch,最好具备4张4090显卡或以上性能的设备 [13] 课程目标与产出 - 课程旨在帮助学员系统掌握多模态融合重点理论,将模型理论与代码实践结合,深化拓展baseline以形成自己的论文,并积累论文写作方法论与投稿建议 [7][12] - 学员将获得对典型论文的分析方法,增强Coding能力,并最终产出一篇论文初稿,优秀学员可获得推荐信 [12][20]
上岸自动驾驶多传感融合感知,1v6小班课!
自动驾驶之心· 2025-09-04 07:33
多模态感知融合技术背景 - 单一传感器如摄像头、激光雷达或毫米波雷达的感知能力难以满足复杂场景需求 自动驾驶、机器人导航和智能监控等领域快速发展推动多传感器融合技术应用[1] - 多传感器融合通过优势互补构建更全面鲁棒的环境感知系统 摄像头提供丰富语义信息和纹理细节 激光雷达生成高精度三维点云提供准确距离和深度信息 毫米波雷达在恶劣天气下穿透性强能稳定探测物体速度和距离且成本相对较低[1] - 传感器融合实现全天候全场景可靠感知 显著提高自动驾驶鲁棒性和安全性[1] 多模态感知融合技术演进 - 技术从传统融合方式向端到端融合和基于Transformer架构演进 传统融合分为早期融合(输入端拼接原始数据计算量巨大)、中期融合(传感器数据初步特征提取后融合不同模态特征向量目前主流方案)和晚期融合(传感器独立感知决策层面结果融合可解释性强但难以解决信息冲突)[2] - 基于Transformer的端到端融合是当前最前沿方向 通过跨模态注意力机制学习不同模态数据深层关系 实现高效鲁棒的特征交互 端到端训练减少中间模块误差累积 直接从原始传感器数据输出感知结果如三维目标框[2] - 技术已广泛应用于L2-L4级自动驾驶系统 包括高精度地图构建、全场景鲁棒感知和自动泊车等领域[2] 技术挑战 - 传感器标定是首要难题 需确保不同传感器在空间和时间上的高精度对齐[3] - 数据同步问题需解决传感器帧率不一致和时延不同步情况[3] - 核心研究方向是设计更高效鲁棒的融合算法 有效利用处理不同传感器数据的异构性和冗余性[3] 课程体系与安排 - 课程周期为12周在线小组科研加2周论文指导再加10周论文维护期 共24周[4][14] - 课程内容涵盖经典论文、前沿论文和代码实现 包括创新点、baseline、数据集以及选题方法、实验方法、写作方法、投稿建议[4][11] - 参考时间安排共14周 每周课时1-1.5小时 从课题概览到未来发展方向全面覆盖[21][23] 学习资源与要求 - 提供多模态数据集包括ADUULM-360、nuScenes、KITTI等公开数据集[18][19] - 提供Baseline代码取决于具体应用 包括多模态3D目标检测、BEV视角下Transformer融合以及基于点云图像的多模态融合等开源项目[19][21] - 必读论文包括Multi-View 3D Object Detection for Autonomous Driving、PointPillars、BEVFormer等5篇核心论文[22] 硬件与基础要求 - 最好具备4张4090显卡或以上设备性能的机器 最低不少于2张4090显卡设备 可考虑租赁云服务器[15] - 需具备深度学习基础 对多模态融合算法有简单了解 熟悉掌握Python语法以及PyTorch使用 最好具备Linux系统下开发调试能力[15] - 需完成在线1v1面试 学习Python编程语言入门和深度学习与PyTorch框架等先修课程[15] 课程产出与价值 - 学员将产出论文初稿、项目结业证书 并根据优秀程度获得推荐信[20] - 课程交付价值包括科研流程、写作方法和论文初稿[31] - 提供科研论文idea、数据集和Baseline代码三大核心资源[33]
拿到offer了,却开心不起来。。。
自动驾驶之心· 2025-09-03 07:33
自动驾驶行业招聘趋势 - 金九银十招聘季开启 业内tier 1公司已开始发放测试岗位offer[1] - 感知算法岗位存在转岗难度 但行业仍存在算法岗机会[1] - 自动驾驶公司开出高薪挖人 大模型相关岗位需求激增[14] 自动驾驶技术发展方向 - 端到端自动驾驶成为智驾量产核心算法 分为一段式和二段式技术方向[7] - 理想汽车宣布E2E+VLM双系统架构量产 通过传感器数据直接输出规划控制信息[7] - 端到端技术需要掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等知识[8] - 2024年学术界端到端大模型工作爆发 工业界融资案例快速崛起[14] - 4D自动标注算法重要性凸显 需标注动静态元素 OCC和轨迹等复杂数据[11] 自动驾驶课程体系 - 推出499元超级折扣卡 享受全平台课程七折优惠[4][6] - 开设端到端与VLA自动驾驶小班课 涵盖多模态大模型 BEV感知等技术[7][8] - 推出自动驾驶4D标注算法小班课 聚焦多模态3D感知和数据闭环[12] - 开设多模态大模型与自动驾驶实战课程 涵盖通用多模态大模型到大模型微调[14] - 课程体系包含感知系列 多传感器标定融合 模型部署 规划控制与预测 仿真开发等模块[16][17][18][19][20] 行业人才需求与就业 - 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等公司[38] - 课程学员可获岗位推荐 绕开官网投递直接对接算法开发负责人[38] - 小班课针对秋招社招需求 解决项目经验不足 简历修改 面试指导等痛点[21] - 提供60小时入门教程和求职100问等会员独家福利[43] 技术实践与工程挑战 - 车端部署需要推理延迟低于200毫秒 理想目标低于100毫秒[34] - 路径规划成功率需保证99%以上 复杂场景需达99.9%[34] - 转向角误差理想目标小于1度 可接受范围小于2度[34] - 加速制动误差理想目标小于0.1 m/s² 可接受范围小于0.2 m/s²[34] - 视觉感知量产需数十万至百万级标注数据量[36] - 传感器升级需重新构建数据集和训练模型[36] - 多传感器联合标定存在精度验证挑战[36]
自动驾驶之心开学季活动来了(超级折扣卡/课程/硬件/论文辅导福利放送)
自动驾驶之心· 2025-09-02 17:57
自动驾驶技术发展历程 - 自动驾驶技术在过去十年经历了从基础图像分类到复杂3D世界感知的演进,包括ImageNet图像分类、COCO目标检测、nuScenes 3D感知、BEV统一感知模块以及端到端和VLA等关键突破[3] - 行业从2015年百度无人车测试时的乐观预期转向现实路况下的持续攻坚,特斯拉、华为、理想、小鹏、蔚来、地平线、英伟达等公司已建立起技术护城河[3] - 自动驾驶技术突破并非单点跃进,而是在现实约束下的持续迭代过程,未来方向可能包括VLA、WA、L4自动驾驶、具身智能或虚拟现实等领域[3] 自动驾驶之心平台定位 - 平台定位为自动驾驶与机器人的学习平台,强调创新是企业持续发展的核心,以小鹏VLA模型需要720亿参数为例说明扎实积累的重要性[6] - 平台致力于连接学术界与工业界,开发了涵盖近40个自动驾驶子领域的视频教程,包括VLA、世界模型、3DGS、感知、定位等方向[8] - 平台注重传递技术认知、持续学习和事物认知的价值观,并通过与行业大佬和学校同学的交流提升内容温度[8] 平台学员就业去向 - 学员就业覆盖国内领先自动驾驶公司如华为、理想、Momenta、蔚来、小鹏等,以及芯片和AI公司如地平线、商汤科技、旷视等[9] - 部分学员进入外企如博世、英伟达工作,或投身具身智能和大模型领域,亦有在清华、港科大、新加坡国立、UC伯克利、卡耐基等名校深造[9] 核心课程与技术方向 - 端到端自动驾驶作为智驾量产核心算法,可分为一段式和二段式技术方向,理想汽车已宣布E2E+VLM双系统架构量产[12] - 端到端技术需掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识,但学习路径存在碎片化挑战[13] - 自动驾驶4D标注算法小班课聚焦自动化4D标注需求,解决动静态元素、OCC和轨迹等复杂数据标注难题[16] - 多模态大模型与自动驾驶实战课程覆盖从通用多模态大模型到端到端自动驾驶应用的系统化学习,包括DriveGPT、OpenDriveLab等算法[20] - 平台课程体系涵盖感知系列(如BEV感知、Occupancy占用网络)、多传感器标定融合、模型部署、规划控制与预测、仿真开发等全栈内容[22][23] 课程特色与学习支持 - 小班课针对秋招和社招需求,聚焦实际工作痛点,提供简历辅导、面试指导和项目实战支持[24] - 课程配备专属VIP交流群,主讲老师每日群内交流并定期直播答疑,解决小白踩坑、工程问题和研究方向等关键问题[29] - 平台提供硬件优惠方案,包括全栈教研平台黑武士001、足式/强化学习科研平台TRON1等设备支持[14][46] 就业支持与行业合作 - 平台早期对接了理想、地平线、百度、上海人工智能实验室、蔚来、小鹏、华为车BU、大疆等公司,可绕开官网直接向算法负责人推荐学员[41] - 通过知识星球和求职星球第一时间获取最新岗位和技术信息,为学员提供持续的职业发展支持[42] 开学季促销活动 - 推出499元超级折扣卡,一年内购买平台任意课程享受七折优惠,包括新课程[11][46] - 附加福利包括知识星球立减88元、满1000元赠送2门带读课程、论文辅导最高抵扣10000元等限时优惠[10][46]
自动驾驶多传感器融合感知1v6小班课来了(视觉/激光雷达/毫米波雷达)
自动驾驶之心· 2025-09-02 14:51
多模态感知融合技术背景与核心优势 - 单一传感器如摄像头、激光雷达或毫米波雷达的感知能力已难以满足自动驾驶、机器人导航和智能监控等复杂场景的需求[1] - 多模态传感器融合通过结合激光雷达、毫米波雷达和摄像头的优势实现优势互补:摄像头提供丰富语义信息和纹理细节 激光雷达生成高精度三维点云并提供准确距离和深度信息 毫米波雷达在恶劣天气下穿透性强且能稳定探测物体速度和距离[1] - 传感器融合系统可实现全天候全场景下的可靠感知 显著提高自动驾驶鲁棒性和安全性[1] 多模态感知融合技术演进路径 - 传统融合方式分为三种:早期融合在输入端拼接原始数据但计算量巨大 中期融合将不同模态特征向量融合并统一到鸟瞰图视角 晚期融合在决策层面进行结果融合但难以解决信息冲突[2] - 基于Transformer的端到端融合成为最前沿方向 通过跨模态注意力机制学习不同模态数据间深层关系 实现更高效鲁棒的特征交互[2] - 端到端训练方式减少中间模块误差累积 直接从原始传感器数据输出感知结果如三维目标框 更好捕捉动态信息并提升整体性能[2] 多模态感知融合应用与挑战 - 技术已广泛应用于L2-L4级自动驾驶系统 包括高精度地图构建、全场景鲁棒感知和自动泊车等领域[2] - 面临三大核心挑战:传感器标定需确保不同传感器空间和时间上的高精度对齐 数据同步需解决传感器帧率不一致和时延不同步 融合算法需更高效处理不同传感器数据的异构性和冗余性[3] 课程体系结构与核心内容 - 课程周期为12周在线小组科研加2周论文指导再加10周论文维护期 总时长24周[4][14] - 课程内容覆盖经典论文与前沿论文分析 代码实现与创新点研究 baseline与数据集应用 选题方法、实验方法、写作方法及投稿建议[4][11] - 采用"2+1"式师资配置与全学习周期服务 配备科学制定的学员守则与表现评估体系[18][21] 技术实践资源与要求 - 提供多模态数据集包括ADUULM-360、nuScenes和KITTI等公开数据集[19][20] - 提供Baseline代码仓库覆盖多模态3D目标检测、BEV视角Transformer融合及点云图像融合等多个方向[23] - 硬件要求最好具备4张4090显卡或以上设备性能 最低不少于2张4090显卡 也可考虑租赁云服务器[15] 学员收获与产出目标 - 学员将获得经典及前沿论文分析方法 理解重点算法与原理 清晰不同算法优劣势[14] - 课程将提供研究idea 每位同学都能获得导师准备的具体idea方向[14] - 最终产出包括论文初稿、项目结业证书 并根据学生优秀程度提供推荐信[21] 课程安排与学习要求 - 详细课程安排包含14周专项主题:从课题概览与科研路径介绍 到BEV视角多模态融合 再到基于Transformer的端到端融合 最后涵盖论文写作方法与投稿意见[23][25] - 学习要求包括具备深度学习基础 熟悉Python语法和PyTorch使用 最好具备Linux系统开发调试能力[15] - 必须完成在线1v1面试 每周上课前按时阅读资料并完成作业 课后自学时长至少1-2小时[21]
端到端自动驾驶的万字总结:拆解三大技术路线(UniAD/GenAD/Hydra MDP)
自动驾驶之心· 2025-09-02 07:32
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知模块输入图像或激光雷达数据输出边界框,预测模块输出轨迹,最后进行规划[5][6] - 端到端算法直接输入原始传感器数据并输出路径点,路径点可转换为控制信号且回归相对容易[6] - 传统算法优点包括易于调试和问题定位,具有可解释性,但存在误差累积问题,无法保证感知和预测模块完全无误差[7][10] 端到端算法现有范式与局限性 - 模仿学习分为行为克隆和逆优化控制,强化学习方法在论文中较少见[11] - 评估方法分为开环评估(使用固定场景数据)和闭环评估(自车与环境存在交互)[11] - 模仿学习难以有效解决所有corner case问题,真值数据本身存在噪声,人类驾驶数据并非完全最优解[11] - 当前挑战包括可解释性问题、安全保证以及因果混淆现象,例如绿灯起步时误将旁边车道车辆起步作为启动信号[12] - 还需解决输入模态多样性、多任务学习及知识蒸馏等技术难题[12] ST-P3算法框架与创新 - 输入为环视相机图像,设计三个核心模块:感知、预测和规划,最终输出自动驾驶车辆轨迹[14] - 感知模块采用以自车为中心的累积对齐技术,预测模块通过双路预测机制实现,规划模块引入先验信息对生成轨迹进行优化[15] - 感知模块中结合预测的深度信息,采用类似LSS范式的方法得到BEV空间表示,创新点在于考虑RO角和PG角不为零的情况[18] - 预测模块采用双路结构,一路通过GRU进行递归处理,另一路引入高斯噪声进行前向迭代,两路输出融合得到T+10、T+20时刻状态特征[18] - 规划阶段利用前视相机获取红绿灯信息,并对预测轨迹进行优化,优化过程包括自车预测轨迹的代价函数和预测轨迹与真实轨迹之间的L2距离[19][20] UniAD算法框架与创新 - 采用全Transformer框架,以规划为导向构建端到端自动驾驶系统[25] - 引入五个代理任务(Head Task)通过增加任务数量提升性能,创新点在于规划导向设计[24] - Backbone部分与BVFormer相同获取BEV特征,MapFormer将Segformer的2D版本扩展至3D用于实例分割[26] - MotionFormer通过三种交互进行预测:Agent之间交互、Agent与地图交互、Agent与目标点交互,输出预测轨迹、特征及每条轨迹评分[26] - OccFormer利用MotionFormer的Agent级特征作为KV,BEV特征作为Q,计算实例级占用情况[26] - Planner输入包括自车运动轨迹特征、位置编码、OccFormer输出以及BEV特征,规划时需考虑未来占用情况确保选择可行区域[26] VAD算法矢量表征与约束 - 采用矢量化表征方法,将栅格化表征转换为矢量化形式,更好表达地图元素结构信息保持几何特性[32] - 矢量表征包含运动矢量(motion vector)和地图矢量(map vector),通过地图查询经地图变换器处理后预测地图矢量,通过智能体查询预测运动矢量[32][33] - 规划过程中引入三个主要约束:自车与他车之间碰撞约束(涉及横向和纵向距离)、自车与边界之间距离约束、自车方向约束(通过计算自车向量与车道线向量角度差确保行驶方向正确)[40] 概率化规划方法 - 规划是不确定性任务,确定性方法无法处理掉头等情况,概率化表征方法将规划流视为概率分布从而选择最优轨迹[43] - 实现借鉴类似GPT的ARP思想:初始化动作空间并离散化,规划词汇表收集4096种可能动作(如直行、加速、刹车、左转、右转等),编码后生成planning token[43] - 通过场景token与planning token交互,结合自车状态和导航信息,预测动作分布并选择概率最高的标准轨迹作为规划结果[44] GenAD生成式建模方法 - 将自动驾驶建模为轨迹生成问题,考虑自车与他车在未来帧中的交互,采用类似VAE的生成式建模思路[44] - 训练时学习轨迹分布,推理时采样分布并通过解码器生成路径点,关键点在于训练过程中构建有效的监督信号[44][45] - 训练阶段将GT的track query trajectory通过编码器编码得到latent space轨迹表征,通过解码器重构当前轨迹并与原始真值轨迹进行监督训练[45] 多模态规划与监督学习 - 引入多模态规划方法解决轨迹预测不稳定性问题,通过预测多个候选轨迹并选择最优轨迹进行模型学习[53] - 结合多模态规划与多模型学习方法,在多轨迹预测的模型学习损失基础上增加知识蒸馏损失,蒸馏损失来源于多种基于规则的教师模型[53] - 额外监督信号包括无责任碰撞、可行驶区域合规性、驾驶舒适性等指标,均纳入回归损失函数进行反向传播[56] 端到端算法当前局限性 - 主要采用模仿学习框架,作为纯数据驱动方法优化过程较为困难[57] - 难以学习到最优真值(Ground Truth),对异常案例(Counter Case)的处理能力有限[57]
驾驭多模态!自动驾驶多传感器融合感知1v6小班课来了
自动驾驶之心· 2025-09-01 17:28
多模态感知融合技术背景与优势 - 单一传感器如摄像头、激光雷达或毫米波雷达的感知能力难以满足复杂场景需求,推动多传感器数据融合技术发展[1] - 多传感器融合通过优势互补构建更全面鲁棒的环境感知系统:摄像头提供丰富语义信息和纹理细节,激光雷达生成高精度三维点云提供准确距离深度信息,毫米波雷达在恶劣天气下穿透性强可稳定探测物体速度和距离[1] - 传感器融合技术使系统实现全天候全场景可靠感知,显著提高自动驾驶鲁棒性和安全性[1] 多模态感知融合技术演进 - 传统融合方式分为早期融合(输入端拼接原始数据计算量大)、中期融合(传感器数据初步特征提取后融合特征向量,是主流方案)和晚期融合(传感器独立感知后决策层面融合,可解释性强但难以解决信息冲突)[2] - 当前最前沿方向是基于Transformer的端到端融合,通过跨模态注意力机制学习不同模态数据深层关系,实现高效鲁棒的特征交互[2] - 端到端训练减少中间模块误差累积,直接从原始传感器数据输出感知结果,更好捕捉动态信息并提升整体性能[2] 多模态感知融合技术应用与挑战 - 多模态感知融合技术已广泛应用于L2-L4级自动驾驶系统,包括高精度地图构建、全场景鲁棒感知和自动泊车等[2] - 技术面临挑战包括传感器标定难题(确保不同传感器空间时间高精度对齐)、数据同步问题(应对传感器帧率不一致和时延不同步)以及高效鲁棒融合算法设计[3] - 未来研究核心方向是有效利用处理不同传感器数据的异构性和冗余性,技术突破为自动驾驶商业化落地提供基础[3] 多模态感知融合研究资源 - 多模态特征融合任务可采用通用多模态数据集ADUULM-360、nuScenes、KITTI等[14] - 提供多模态3D目标检测、BEV视角下Transformer融合、基于点云图像多模态融合等Baseline代码资源[15] - 必读论文包括Multi-View 3D Object Detection for Autonomous Driving、PointPillars: Fast Encoders for Object Detection from Point Clouds等经典前沿研究[16][18]