Workflow
端到端自动驾驶
icon
搜索文档
拿到offer了,却开心不起来。。。
自动驾驶之心· 2025-09-03 07:33
发offer的是业内一家tier 1公司,测试的岗位。受限于研究生期间做的工作,转感知算法还有一些困难,剩下两个月的时间,还是打算冲一把到算法岗,平时跟着 自动驾驶之心一直学习前沿的算法,觉得自己还是有机会的。 很开心,这位同学没有放弃自己,有时候不逼自己一把是不知道自己的极限在哪里! 值此开学季之际,我们也为大家准备了重磅学习礼包: 1. 重磅推出499元超级折扣卡(一年期有效):购买后,享受全平台课程七折优惠; 2. 自动驾驶之心知识星球立减88; 3. 课程福利放送:满1000元赠送2门带读课程(八选二); 4. 自动驾驶论文辅导1000最高抵扣10000; 5. 自动驾驶1v6小班课限时福利立减1000; 6. 全平台硬件优惠: 全栈教研平台黑武士001 足式/强化学习科研平台:TRON1 四足机械狗+机械臂科研平台 桌面级机械臂科研平台 数采夹爪(单臂+双臂方案) 对于秋招的小伙伴来说应该比较关键,金九银十正式开启了。这两天有个同学联系柱哥说已经拿到了一个offer,但却开心不起来。 超级折扣卡 重点介绍下我们最新推出的超级折扣卡!活动期间购买有效, 自购买之日起一年时间内,购买平台任意课程均享受七 ...
自动驾驶之心开学季活动来了(超级折扣卡/课程/硬件/论文辅导福利放送)
自动驾驶之心· 2025-09-02 17:57
日月更替,斗转星移。又到了金秋九月的开学季,校园里涌动的青春朝气与实验室里闪烁的代码光标遥相呼应。还记得十年前自己新学期踏进大学校园,看到无 人小巴的震撼,也是那个时候第一次接触到了自动驾驶,现在想想就是那个时候埋下了投身自驾的种子。 从16年开始,自动驾驶踏上了飞速发展的列车,整个世 界都处于人工智能爆发的前夕,有些人因为自身的努力或幸运站在了潮头之上,激昂和困惑交织在每个人的心头。 自动驾驶十年沉浮 这十年,自动驾驶从最开始的瞒珊学步,ImageNet图像分类,到COCO目标检测、分割、跟踪,进化到nuScenes 3D世界感知,再到BEV大一统整个感知模块(3D 检测/OCC/在线地图),又到今天的端到端、VLA。自动驾驶就像一个婴儿一样,终于快长大了。 未来又会是哪个方向呢?VLA和WA会是终局么?L4自动驾驶 还是具身智能抑或虚拟现实? 可能是,也可能不是。但科技总归是朝着智能化的大趋势大踏步前进,保持跟进与学习是重中之重。 自动驾驶的十年征程堪称一部浓缩的产业进化史,十年前我很难想象人工智能会到今天的高度。2015年百度无人车在雾霾中完成城市道路测试时,行业曾天真地 以为 L4 时代近在咫尺。无数 ...
自动驾驶多传感器融合感知1v6小班课来了(视觉/激光雷达/毫米波雷达)
自动驾驶之心· 2025-09-02 14:51
多模态感知融合技术背景与核心优势 - 单一传感器如摄像头、激光雷达或毫米波雷达的感知能力已难以满足自动驾驶、机器人导航和智能监控等复杂场景的需求[1] - 多模态传感器融合通过结合激光雷达、毫米波雷达和摄像头的优势实现优势互补:摄像头提供丰富语义信息和纹理细节 激光雷达生成高精度三维点云并提供准确距离和深度信息 毫米波雷达在恶劣天气下穿透性强且能稳定探测物体速度和距离[1] - 传感器融合系统可实现全天候全场景下的可靠感知 显著提高自动驾驶鲁棒性和安全性[1] 多模态感知融合技术演进路径 - 传统融合方式分为三种:早期融合在输入端拼接原始数据但计算量巨大 中期融合将不同模态特征向量融合并统一到鸟瞰图视角 晚期融合在决策层面进行结果融合但难以解决信息冲突[2] - 基于Transformer的端到端融合成为最前沿方向 通过跨模态注意力机制学习不同模态数据间深层关系 实现更高效鲁棒的特征交互[2] - 端到端训练方式减少中间模块误差累积 直接从原始传感器数据输出感知结果如三维目标框 更好捕捉动态信息并提升整体性能[2] 多模态感知融合应用与挑战 - 技术已广泛应用于L2-L4级自动驾驶系统 包括高精度地图构建、全场景鲁棒感知和自动泊车等领域[2] - 面临三大核心挑战:传感器标定需确保不同传感器空间和时间上的高精度对齐 数据同步需解决传感器帧率不一致和时延不同步 融合算法需更高效处理不同传感器数据的异构性和冗余性[3] 课程体系结构与核心内容 - 课程周期为12周在线小组科研加2周论文指导再加10周论文维护期 总时长24周[4][14] - 课程内容覆盖经典论文与前沿论文分析 代码实现与创新点研究 baseline与数据集应用 选题方法、实验方法、写作方法及投稿建议[4][11] - 采用"2+1"式师资配置与全学习周期服务 配备科学制定的学员守则与表现评估体系[18][21] 技术实践资源与要求 - 提供多模态数据集包括ADUULM-360、nuScenes和KITTI等公开数据集[19][20] - 提供Baseline代码仓库覆盖多模态3D目标检测、BEV视角Transformer融合及点云图像融合等多个方向[23] - 硬件要求最好具备4张4090显卡或以上设备性能 最低不少于2张4090显卡 也可考虑租赁云服务器[15] 学员收获与产出目标 - 学员将获得经典及前沿论文分析方法 理解重点算法与原理 清晰不同算法优劣势[14] - 课程将提供研究idea 每位同学都能获得导师准备的具体idea方向[14] - 最终产出包括论文初稿、项目结业证书 并根据学生优秀程度提供推荐信[21] 课程安排与学习要求 - 详细课程安排包含14周专项主题:从课题概览与科研路径介绍 到BEV视角多模态融合 再到基于Transformer的端到端融合 最后涵盖论文写作方法与投稿意见[23][25] - 学习要求包括具备深度学习基础 熟悉Python语法和PyTorch使用 最好具备Linux系统开发调试能力[15] - 必须完成在线1v1面试 每周上课前按时阅读资料并完成作业 课后自学时长至少1-2小时[21]
端到端自动驾驶的万字总结:拆解三大技术路线(UniAD/GenAD/Hydra MDP)
自动驾驶之心· 2025-09-02 07:32
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知模块输入图像或激光雷达数据输出边界框,预测模块输出轨迹,最后进行规划[5][6] - 端到端算法直接输入原始传感器数据并输出路径点,路径点可转换为控制信号且回归相对容易[6] - 传统算法优点包括易于调试和问题定位,具有可解释性,但存在误差累积问题,无法保证感知和预测模块完全无误差[7][10] 端到端算法现有范式与局限性 - 模仿学习分为行为克隆和逆优化控制,强化学习方法在论文中较少见[11] - 评估方法分为开环评估(使用固定场景数据)和闭环评估(自车与环境存在交互)[11] - 模仿学习难以有效解决所有corner case问题,真值数据本身存在噪声,人类驾驶数据并非完全最优解[11] - 当前挑战包括可解释性问题、安全保证以及因果混淆现象,例如绿灯起步时误将旁边车道车辆起步作为启动信号[12] - 还需解决输入模态多样性、多任务学习及知识蒸馏等技术难题[12] ST-P3算法框架与创新 - 输入为环视相机图像,设计三个核心模块:感知、预测和规划,最终输出自动驾驶车辆轨迹[14] - 感知模块采用以自车为中心的累积对齐技术,预测模块通过双路预测机制实现,规划模块引入先验信息对生成轨迹进行优化[15] - 感知模块中结合预测的深度信息,采用类似LSS范式的方法得到BEV空间表示,创新点在于考虑RO角和PG角不为零的情况[18] - 预测模块采用双路结构,一路通过GRU进行递归处理,另一路引入高斯噪声进行前向迭代,两路输出融合得到T+10、T+20时刻状态特征[18] - 规划阶段利用前视相机获取红绿灯信息,并对预测轨迹进行优化,优化过程包括自车预测轨迹的代价函数和预测轨迹与真实轨迹之间的L2距离[19][20] UniAD算法框架与创新 - 采用全Transformer框架,以规划为导向构建端到端自动驾驶系统[25] - 引入五个代理任务(Head Task)通过增加任务数量提升性能,创新点在于规划导向设计[24] - Backbone部分与BVFormer相同获取BEV特征,MapFormer将Segformer的2D版本扩展至3D用于实例分割[26] - MotionFormer通过三种交互进行预测:Agent之间交互、Agent与地图交互、Agent与目标点交互,输出预测轨迹、特征及每条轨迹评分[26] - OccFormer利用MotionFormer的Agent级特征作为KV,BEV特征作为Q,计算实例级占用情况[26] - Planner输入包括自车运动轨迹特征、位置编码、OccFormer输出以及BEV特征,规划时需考虑未来占用情况确保选择可行区域[26] VAD算法矢量表征与约束 - 采用矢量化表征方法,将栅格化表征转换为矢量化形式,更好表达地图元素结构信息保持几何特性[32] - 矢量表征包含运动矢量(motion vector)和地图矢量(map vector),通过地图查询经地图变换器处理后预测地图矢量,通过智能体查询预测运动矢量[32][33] - 规划过程中引入三个主要约束:自车与他车之间碰撞约束(涉及横向和纵向距离)、自车与边界之间距离约束、自车方向约束(通过计算自车向量与车道线向量角度差确保行驶方向正确)[40] 概率化规划方法 - 规划是不确定性任务,确定性方法无法处理掉头等情况,概率化表征方法将规划流视为概率分布从而选择最优轨迹[43] - 实现借鉴类似GPT的ARP思想:初始化动作空间并离散化,规划词汇表收集4096种可能动作(如直行、加速、刹车、左转、右转等),编码后生成planning token[43] - 通过场景token与planning token交互,结合自车状态和导航信息,预测动作分布并选择概率最高的标准轨迹作为规划结果[44] GenAD生成式建模方法 - 将自动驾驶建模为轨迹生成问题,考虑自车与他车在未来帧中的交互,采用类似VAE的生成式建模思路[44] - 训练时学习轨迹分布,推理时采样分布并通过解码器生成路径点,关键点在于训练过程中构建有效的监督信号[44][45] - 训练阶段将GT的track query trajectory通过编码器编码得到latent space轨迹表征,通过解码器重构当前轨迹并与原始真值轨迹进行监督训练[45] 多模态规划与监督学习 - 引入多模态规划方法解决轨迹预测不稳定性问题,通过预测多个候选轨迹并选择最优轨迹进行模型学习[53] - 结合多模态规划与多模型学习方法,在多轨迹预测的模型学习损失基础上增加知识蒸馏损失,蒸馏损失来源于多种基于规则的教师模型[53] - 额外监督信号包括无责任碰撞、可行驶区域合规性、驾驶舒适性等指标,均纳入回归损失函数进行反向传播[56] 端到端算法当前局限性 - 主要采用模仿学习框架,作为纯数据驱动方法优化过程较为困难[57] - 难以学习到最优真值(Ground Truth),对异常案例(Counter Case)的处理能力有限[57]
驾驭多模态!自动驾驶多传感器融合感知1v6小班课来了
自动驾驶之心· 2025-09-01 17:28
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 随着自动驾驶、机器人导航和智能监控等领域的快速发展,单一传感器(如摄像头、激光雷达或毫米波雷达)的感 知能力已难以满足复杂场景的需求。 为了克服这一瓶颈,研究者们开始将激光雷达、毫米波雷达和摄像头等多种传感器的数据进行融合,构建一个更全 面、更鲁棒的环境感知系统。这种融合的核心思想是优势互补。摄像头提供丰富的语义信息和纹理细节,对车道 线、交通标志等识别至关重要;激光雷达则生成高精度的三维点云,提供准确的距离和深度信息,尤其在夜间或光 线不足的环境下表现优异;而毫米波雷达在恶劣天气(如雨、雾、雪)下穿透性强,能稳定探测物体的速度和距 离,且成本相对较低。通过融合这些传感器,系统可以实现全天候、全场景下的可靠感知,显著提高自动驾驶的鲁 棒性和安全性。 当前的多模态感知融合技术正在从传统的融合方式,向更深层次的端到端融合和基于Transformer的架构演进。 传统的融合方式主要分为三种:早期融合直接在输入端拼接原始数据,但计算量巨大;中期融合则是在传感器数据 经过初步特征提取后,将不同模态的特征向量进行融合,这 ...
研究生开学,被大老板问懵了。。。
自动驾驶之心· 2025-09-01 11:17
社区规模与愿景 - 自动驾驶之心知识星球是一个综合类自驾社区 集视频 图文 学习路线 问答 求职交流为一体 目前成员超过4000人 预期未来2年内规模达到近万人[1] - 社区愿景是让AI与自动驾驶走进每个有需要的同学 致力于打造交流与技术分享的聚集地[1] 技术资源覆盖 - 社区梳理近40+自动驾驶技术路线 覆盖端到端 VLA 多模态大模型 数据闭环4D标注等前沿方向[1][3] - 包含近60+自动驾驶数据集 行业主流仿真平台 以及感知 仿真 规划控制等完整学习路线[14] - 汇总国内外知名高校实验室和自动驾驶公司资源 涵盖RoboTaxi 重卡业务 造车新势力等领域[26][29] 专家网络与互动 - 邀请数十位一线产业界和工业界嘉宾 包括顶会常驻专家 提供技术答疑和行业见解[3] - 不定期组织学术界与工业界大佬直播分享 目前已举办超过100场专业技术直播[58] - 建立与近300家机构及自驾公司的内推机制 直接对接企业招聘需求[10][67] 核心内容体系 - 技术方向系统覆盖BEV感知 3D目标检测 多传感器融合 世界模型 扩散模型等40+领域[5][7] - 实战板块包含模型压缩 部署优化 以及TensorRT 毫米波雷达融合等100问系列工程实践[7] - 提供全栈学习课程和入门路线图 针对0基础小白和进阶研究者分别设计学习路径[8][10] 行业趋势洞察 - 跟踪端到端自动驾驶量产应用 区分一段式/二段式技术方案并探讨工程落地难点[32][64] - 聚焦2025年热点VLA技术 系统梳理开源数据集 思维链推理及量产方案快慢双系统[36][37] - 分析世界模型 3DGS与NeRF等技术在自动驾驶仿真和感知领域的融合应用[33][39]
闭环端到端暴涨20%!华科&小米打造开源框架ORION
自动驾驶之心· 2025-08-31 00:03
核心观点 - 端到端自动驾驶框架ORION通过视觉语言指令指导轨迹生成 解决了现有方法在语义推理空间与数值轨迹动作空间之间的鸿沟问题 在闭环评测中表现卓越 [3][5][16] 技术架构 - 引入QT-Former模块聚合长期历史上下文信息 减少计算开销并增强对静态交通元素和动态物体运动状态的捕捉能力 [3][20] - 利用视觉语言大模型(VLM)进行驾驶场景多维度分析 包括场景描述 关键物体行为分析和动作推理 并生成规划token指导轨迹预测 [3][21] - 通过生成模型(VAE或扩散模型)将VLM推理空间与轨迹动作空间对齐 实现视觉问答和规划任务的端到端统一优化 [3][22] 性能表现 - 在Bench2Drive闭环测试中驾驶得分达77.74分 成功率54.62% 较之前SOTA方法提升14.28分和19.61个百分点 [5][24] - 在多能力评估中超车场景成功率71.11% 紧急刹车78.33% 交通标志识别69.15% 平均能力值54.72%领先其他方法16.12个百分点 [26][27] - 效率指标151.48 舒适度17.38 平均L2误差0.68 在开环指标中保持竞争力 [25] 创新贡献 - 首次实现VLM与生成模型结合 弥补语义推理与数值动作空间差距 [16] - 支持多种生成模型兼容 展现框架灵活性和可扩展性 [16] - 提供端到端联合优化方案 突破传统方法在因果推理和时序建模方面的限制 [3][30] 应用案例 - 成功识别自行车骑行者并执行向左变道避撞操作 [7] - 准确识别停车标志并完成停车-等待-重启通过十字路口系列动作 [9] - 对右前方车辆先减速后变道的分层决策演示 [14]
用QA问答详解端到端落地:[UniAD/PARA-Drive/SpareDrive/VADv2]
自动驾驶之心· 2025-08-30 00:03
端到端自动驾驶模型分类 - 端到端模型分为完全黑盒OneNet和模块化端到端两种类型 其中模块化端到端通过感知 预测和规划模块间的feat-level/query-level交互减少误差累积 [3] UniAD框架架构 - UniAD框架包含Backbone Perception Prediction和Planner四个模块 输入多视角相机图像 Backbone提取BEV特征 Perception完成场景级感知 Prediction基于时序和场景交互进行多模态轨迹预测 Planner基于预测轨迹和BEV特征规划路径 各模块均采用Query+Transformer结构实现信息交互 [4] TrackFormer模块设计 - TrackFormer的query由检测query 跟踪query和ego query三部分组成 检测query用于识别新目标 跟踪query动态变化以匹配目标消失 推理过程采用BEVFormer检测新目标并将当前检测query合并到下一时刻跟踪query集合中 通过QIM模块与历史track query进行MHA交互获取时序信息 [6] MotionFormer交互机制 - MotionFormer包含三种交互类型:agent-agent(动态agent间交互) agent-map(静态地图交互) agent-goal(目标轨迹交互) motion query由目标点位置 上下文信息 当前位置及先验位置信息五部分组成 输出多模态轨迹 训练损失包含轨迹点距离和物理约束 [10] OccFormer结构特点 - OccFormer采用类RNN结构 以历史场景特征和稀疏agent特征为输入 通过pixel-agent interaction的mask cross-attention机制 使场景特征聚焦于局部相关agent信息 最终输出包含agent ID的占用网格 [9][11] PARA-Drive并行化改进 - PARA-Drive基于UniAD模块重构连接方式 所有子模块采用并行同步协同训练 仅通过更新的BEV query实现模块间联系 测试时可移除Map/Motion/Occ模块提升推理速度 [13] Panoptic SegFormer分割技术 - 通过多尺度特征融合(s8/s16/s32)作为encoder输入 decoder分两步:第一步用DETR方式精炼query并引入目标检测监督 第二步通过cross-attention进一步优化query 输出统一尺寸的特征进行掩码和类别预测 [14][15] SpareDrive稀疏感知架构 - 包含图像编码器 对称稀疏感知和运动规划三部分 图像编码器提取多视角多尺度2D特征 对称稀疏感知并行处理agent检测和地图任务 agent检测采用DETR范式 结合时序与非时序decoder 地图任务使用polyline anchor表示道路结构 [17][20] VADv2规划模块设计 - planning transformer输入包括规划token 场景token和导航token 通过交互输出动作概率 规划token通过最远距离采样从人类驾驶数据中提取代表性动作轨迹 训练使用真实动作概率约束和轨迹冲突损失 [23] 运动规划层级选择机制 - 包含自车实例初始化 时空交互和层级规划选择三部分 时空交互聚焦实例级历史交互 输出多轨迹和多规划方案 层级选择先根据驾驶命令筛选轨迹 再结合周围agent预测计算碰撞风险 最终输出最高分轨迹 [25]
死磕技术的自动驾驶全栈学习社区,近40+方向技术路线~
自动驾驶之心· 2025-08-27 09:26
社区规模与愿景 - 自动驾驶之心知识星球社区目前拥有超过4000名成员 目标在未来2年内达到近万人规模 [1] - 社区愿景是让AI与自动驾驶技术普及到有需求的用户群体 打造技术交流与分享的聚集地 [1] 社区内容体系 - 社区整合视频 图文 学习路线 问答和求职交流功能 形成综合性自动驾驶社区 [1] - 已梳理近40+技术路线 覆盖端到端自动驾驶 VLA benchmark 多模态大模型等前沿方向 [2][5] - 提供全栈方向学习课程 特别适合零基础初学者快速入门 [7] - 汇总近60+自动驾驶数据集 行业主流仿真平台及各类技术学习路线 [13] 行业资源整合 - 汇集国内外知名高校实验室资源 包括上海交大 清华大学 CMU ETH等顶尖院校 [13] - 覆盖头部企业资源 包括蔚小理 地平线 华为 大疆 英伟达 Momenta等行业领导者 [13] - 建立与多家自动驾驶公司的内推机制 实现简历与岗位的快速对接 [9] 技术专题覆盖 - 深度梳理端到端自动驾驶技术 包含一段式/二段式量产方案及VLA相关算法 [27][32] - 系统整合3DGS与NeRF技术 涵盖算法原理 场景重建与仿真应用 [28] - 详细解析自动驾驶世界模型 包括技术前沿与业界应用实践 [29] - 全面覆盖BEV感知技术 包含纯视觉方案 多模态融合及工程部署方案 [36] 专家网络与互动 - 邀请数十位产业界与学术界一线专家入驻 包括经常出现在顶会和访谈中的行业领袖 [2] - 不定期组织与学术界 工业界大佬的深度对话 探讨技术发展趋势与量产痛点 [4][58] - 已举办超过100场专业技术直播分享 内容可反复观看学习 [53] 实战应用支持 - 提供模型部署优化方案 包括TensorRT模型部署 毫米波雷达融合等实战内容 [6] - 梳理Occupancy Network 轨迹预测 强化学习等关键技术点的产业体系方案 [41] - 针对多传感器融合 在线高精地图等量产关键技术进行深度解析 [39] 学习资源体系 - 汇总自动驾驶与计算机视觉领域经典书籍 涵盖数学基础 深度学习 运动规划等方向 [25] - 整理开源项目资源 覆盖3D目标检测 BEV感知 世界模型等热门领域 [25] - 提供100问系列专题 包括规划控制 BEV感知 相机标定等实用技术问答 [6]
某新势力智驾团队最后一位留守高管已于近日离职
自动驾驶之心· 2025-08-24 00:03
核心高管离职事件 - 某头部新势力车企智能驾驶量产研发负责人W于本周五离职 原为团队"三驾马车"核心架构中最后留守的高管 [1] - 该负责人曾领导近250人团队进行封闭开发 为2024年智驾"跨越式超车"立下汗马功劳 [1] - 智驾团队2023年已进行一轮大规模人员优化 W带领的研发团队是受影响最大的部门 [1] 团队架构与人才变动 - 2024年底智驾团队形成"三驾马车"架构:W负责量产研发 另两人分别负责端到端模型算法落地和世界模型技术预研 [2] - 另两位高管已于2024年上半年陆续离职 目前三位核心高管均已离开 [2] - 2024年智驾团队出现大规模离职 部分团队流失率超过50% [1] - 公司被迫启动全员竞业协议 甚至要求入职一两年的校招生签署 [1] 技术战略与行业影响 - 公司采用激进技术策略 两年内扩招千余人团队 不计成本推进端到端量产 [1] - 量产团队人才成为国内智驾企业重点挖掘对象 [1] - 技术路线逐渐收敛 行业从价格战驱动转向资源复用降低成本 [3][4] - 核心人才流动可能带来技术赶超新契机 但工程体系和文化积累才是真正壁垒 [3] 行业整体动态 - 小鹏智驾团队自2023年8月吴新宙离职后 多名老将相继离开 [3] - 蔚来智驾团队也经历多位技术骨干离职 [3] - 国内新势力智驾团队均经历了一次迭代更新周期 [3] 业务进展与挑战 - 公司近期将推送新范式智驾版本 对新款车型销量有重大影响 [2] - 高管连续离职对研发进度、团队稳定性和下半年销量冲刺造成冲击 [2]