Workflow
端到端自动驾驶
icon
搜索文档
研究生开学,被大老板问懵了。。。
自动驾驶之心· 2025-09-01 11:17
社区规模与愿景 - 自动驾驶之心知识星球是一个综合类自驾社区 集视频 图文 学习路线 问答 求职交流为一体 目前成员超过4000人 预期未来2年内规模达到近万人[1] - 社区愿景是让AI与自动驾驶走进每个有需要的同学 致力于打造交流与技术分享的聚集地[1] 技术资源覆盖 - 社区梳理近40+自动驾驶技术路线 覆盖端到端 VLA 多模态大模型 数据闭环4D标注等前沿方向[1][3] - 包含近60+自动驾驶数据集 行业主流仿真平台 以及感知 仿真 规划控制等完整学习路线[14] - 汇总国内外知名高校实验室和自动驾驶公司资源 涵盖RoboTaxi 重卡业务 造车新势力等领域[26][29] 专家网络与互动 - 邀请数十位一线产业界和工业界嘉宾 包括顶会常驻专家 提供技术答疑和行业见解[3] - 不定期组织学术界与工业界大佬直播分享 目前已举办超过100场专业技术直播[58] - 建立与近300家机构及自驾公司的内推机制 直接对接企业招聘需求[10][67] 核心内容体系 - 技术方向系统覆盖BEV感知 3D目标检测 多传感器融合 世界模型 扩散模型等40+领域[5][7] - 实战板块包含模型压缩 部署优化 以及TensorRT 毫米波雷达融合等100问系列工程实践[7] - 提供全栈学习课程和入门路线图 针对0基础小白和进阶研究者分别设计学习路径[8][10] 行业趋势洞察 - 跟踪端到端自动驾驶量产应用 区分一段式/二段式技术方案并探讨工程落地难点[32][64] - 聚焦2025年热点VLA技术 系统梳理开源数据集 思维链推理及量产方案快慢双系统[36][37] - 分析世界模型 3DGS与NeRF等技术在自动驾驶仿真和感知领域的融合应用[33][39]
闭环端到端暴涨20%!华科&小米打造开源框架ORION
自动驾驶之心· 2025-08-31 00:03
核心观点 - 端到端自动驾驶框架ORION通过视觉语言指令指导轨迹生成 解决了现有方法在语义推理空间与数值轨迹动作空间之间的鸿沟问题 在闭环评测中表现卓越 [3][5][16] 技术架构 - 引入QT-Former模块聚合长期历史上下文信息 减少计算开销并增强对静态交通元素和动态物体运动状态的捕捉能力 [3][20] - 利用视觉语言大模型(VLM)进行驾驶场景多维度分析 包括场景描述 关键物体行为分析和动作推理 并生成规划token指导轨迹预测 [3][21] - 通过生成模型(VAE或扩散模型)将VLM推理空间与轨迹动作空间对齐 实现视觉问答和规划任务的端到端统一优化 [3][22] 性能表现 - 在Bench2Drive闭环测试中驾驶得分达77.74分 成功率54.62% 较之前SOTA方法提升14.28分和19.61个百分点 [5][24] - 在多能力评估中超车场景成功率71.11% 紧急刹车78.33% 交通标志识别69.15% 平均能力值54.72%领先其他方法16.12个百分点 [26][27] - 效率指标151.48 舒适度17.38 平均L2误差0.68 在开环指标中保持竞争力 [25] 创新贡献 - 首次实现VLM与生成模型结合 弥补语义推理与数值动作空间差距 [16] - 支持多种生成模型兼容 展现框架灵活性和可扩展性 [16] - 提供端到端联合优化方案 突破传统方法在因果推理和时序建模方面的限制 [3][30] 应用案例 - 成功识别自行车骑行者并执行向左变道避撞操作 [7] - 准确识别停车标志并完成停车-等待-重启通过十字路口系列动作 [9] - 对右前方车辆先减速后变道的分层决策演示 [14]
用QA问答详解端到端落地:[UniAD/PARA-Drive/SpareDrive/VADv2]
自动驾驶之心· 2025-08-30 00:03
端到端自动驾驶模型分类 - 端到端模型分为完全黑盒OneNet和模块化端到端两种类型 其中模块化端到端通过感知 预测和规划模块间的feat-level/query-level交互减少误差累积 [3] UniAD框架架构 - UniAD框架包含Backbone Perception Prediction和Planner四个模块 输入多视角相机图像 Backbone提取BEV特征 Perception完成场景级感知 Prediction基于时序和场景交互进行多模态轨迹预测 Planner基于预测轨迹和BEV特征规划路径 各模块均采用Query+Transformer结构实现信息交互 [4] TrackFormer模块设计 - TrackFormer的query由检测query 跟踪query和ego query三部分组成 检测query用于识别新目标 跟踪query动态变化以匹配目标消失 推理过程采用BEVFormer检测新目标并将当前检测query合并到下一时刻跟踪query集合中 通过QIM模块与历史track query进行MHA交互获取时序信息 [6] MotionFormer交互机制 - MotionFormer包含三种交互类型:agent-agent(动态agent间交互) agent-map(静态地图交互) agent-goal(目标轨迹交互) motion query由目标点位置 上下文信息 当前位置及先验位置信息五部分组成 输出多模态轨迹 训练损失包含轨迹点距离和物理约束 [10] OccFormer结构特点 - OccFormer采用类RNN结构 以历史场景特征和稀疏agent特征为输入 通过pixel-agent interaction的mask cross-attention机制 使场景特征聚焦于局部相关agent信息 最终输出包含agent ID的占用网格 [9][11] PARA-Drive并行化改进 - PARA-Drive基于UniAD模块重构连接方式 所有子模块采用并行同步协同训练 仅通过更新的BEV query实现模块间联系 测试时可移除Map/Motion/Occ模块提升推理速度 [13] Panoptic SegFormer分割技术 - 通过多尺度特征融合(s8/s16/s32)作为encoder输入 decoder分两步:第一步用DETR方式精炼query并引入目标检测监督 第二步通过cross-attention进一步优化query 输出统一尺寸的特征进行掩码和类别预测 [14][15] SpareDrive稀疏感知架构 - 包含图像编码器 对称稀疏感知和运动规划三部分 图像编码器提取多视角多尺度2D特征 对称稀疏感知并行处理agent检测和地图任务 agent检测采用DETR范式 结合时序与非时序decoder 地图任务使用polyline anchor表示道路结构 [17][20] VADv2规划模块设计 - planning transformer输入包括规划token 场景token和导航token 通过交互输出动作概率 规划token通过最远距离采样从人类驾驶数据中提取代表性动作轨迹 训练使用真实动作概率约束和轨迹冲突损失 [23] 运动规划层级选择机制 - 包含自车实例初始化 时空交互和层级规划选择三部分 时空交互聚焦实例级历史交互 输出多轨迹和多规划方案 层级选择先根据驾驶命令筛选轨迹 再结合周围agent预测计算碰撞风险 最终输出最高分轨迹 [25]
死磕技术的自动驾驶全栈学习社区,近40+方向技术路线~
自动驾驶之心· 2025-08-27 09:26
社区规模与愿景 - 自动驾驶之心知识星球社区目前拥有超过4000名成员 目标在未来2年内达到近万人规模 [1] - 社区愿景是让AI与自动驾驶技术普及到有需求的用户群体 打造技术交流与分享的聚集地 [1] 社区内容体系 - 社区整合视频 图文 学习路线 问答和求职交流功能 形成综合性自动驾驶社区 [1] - 已梳理近40+技术路线 覆盖端到端自动驾驶 VLA benchmark 多模态大模型等前沿方向 [2][5] - 提供全栈方向学习课程 特别适合零基础初学者快速入门 [7] - 汇总近60+自动驾驶数据集 行业主流仿真平台及各类技术学习路线 [13] 行业资源整合 - 汇集国内外知名高校实验室资源 包括上海交大 清华大学 CMU ETH等顶尖院校 [13] - 覆盖头部企业资源 包括蔚小理 地平线 华为 大疆 英伟达 Momenta等行业领导者 [13] - 建立与多家自动驾驶公司的内推机制 实现简历与岗位的快速对接 [9] 技术专题覆盖 - 深度梳理端到端自动驾驶技术 包含一段式/二段式量产方案及VLA相关算法 [27][32] - 系统整合3DGS与NeRF技术 涵盖算法原理 场景重建与仿真应用 [28] - 详细解析自动驾驶世界模型 包括技术前沿与业界应用实践 [29] - 全面覆盖BEV感知技术 包含纯视觉方案 多模态融合及工程部署方案 [36] 专家网络与互动 - 邀请数十位产业界与学术界一线专家入驻 包括经常出现在顶会和访谈中的行业领袖 [2] - 不定期组织与学术界 工业界大佬的深度对话 探讨技术发展趋势与量产痛点 [4][58] - 已举办超过100场专业技术直播分享 内容可反复观看学习 [53] 实战应用支持 - 提供模型部署优化方案 包括TensorRT模型部署 毫米波雷达融合等实战内容 [6] - 梳理Occupancy Network 轨迹预测 强化学习等关键技术点的产业体系方案 [41] - 针对多传感器融合 在线高精地图等量产关键技术进行深度解析 [39] 学习资源体系 - 汇总自动驾驶与计算机视觉领域经典书籍 涵盖数学基础 深度学习 运动规划等方向 [25] - 整理开源项目资源 覆盖3D目标检测 BEV感知 世界模型等热门领域 [25] - 提供100问系列专题 包括规划控制 BEV感知 相机标定等实用技术问答 [6]
某新势力智驾团队最后一位留守高管已于近日离职
自动驾驶之心· 2025-08-24 00:03
核心高管离职事件 - 某头部新势力车企智能驾驶量产研发负责人W于本周五离职 原为团队"三驾马车"核心架构中最后留守的高管 [1] - 该负责人曾领导近250人团队进行封闭开发 为2024年智驾"跨越式超车"立下汗马功劳 [1] - 智驾团队2023年已进行一轮大规模人员优化 W带领的研发团队是受影响最大的部门 [1] 团队架构与人才变动 - 2024年底智驾团队形成"三驾马车"架构:W负责量产研发 另两人分别负责端到端模型算法落地和世界模型技术预研 [2] - 另两位高管已于2024年上半年陆续离职 目前三位核心高管均已离开 [2] - 2024年智驾团队出现大规模离职 部分团队流失率超过50% [1] - 公司被迫启动全员竞业协议 甚至要求入职一两年的校招生签署 [1] 技术战略与行业影响 - 公司采用激进技术策略 两年内扩招千余人团队 不计成本推进端到端量产 [1] - 量产团队人才成为国内智驾企业重点挖掘对象 [1] - 技术路线逐渐收敛 行业从价格战驱动转向资源复用降低成本 [3][4] - 核心人才流动可能带来技术赶超新契机 但工程体系和文化积累才是真正壁垒 [3] 行业整体动态 - 小鹏智驾团队自2023年8月吴新宙离职后 多名老将相继离开 [3] - 蔚来智驾团队也经历多位技术骨干离职 [3] - 国内新势力智驾团队均经历了一次迭代更新周期 [3] 业务进展与挑战 - 公司近期将推送新范式智驾版本 对新款车型销量有重大影响 [2] - 高管连续离职对研发进度、团队稳定性和下半年销量冲刺造成冲击 [2]
面向量产VLA!FastDriveVLA:即插即用剪枝模块,推理加速近4倍
自动驾驶之心· 2025-08-24 00:03
核心观点 - 提出FastDriveVLA框架,通过重建式视觉token剪枝技术,在50%压缩率下保持97.3%的自动驾驶规划性能,显著降低计算开销 [5][43] - 设计即插即用剪枝器ReconPruner,结合对抗式前景-背景重建策略,增强前景token辨识能力 [5][20][43] - 构建nuScenes-FG数据集,包含24.1万张图像-掩码对,覆盖六视角车载摄像头,提供细粒度前景分割标注 [6][15][43] 技术背景与行业现状 - 端到端自动驾驶方案通过单一模型完成感知到规划,减少模块间信息损失,但VLA模型因大量视觉token导致高计算延迟 [3][9] - 现有剪枝方法存在局限性:注意力机制法受限于简短文本指令,相似度法易误删关键前景token [4][14][11] - VLA模型通过自然语言增强车辆推理能力,DriveGPT4、OpenDriveVLA等方案已实现细粒度控制输出 [10] 方法论创新 - 基于人类驾驶行为定义前景(车辆、道路、交通标志等)与背景(建筑物、天空等),聚焦关键信息区域 [12] - ReconPruner仅含0.07B参数,通过MAE风格像素重建任务训练,量化token显著性 [17][19] - 对抗式策略强制低分token重建背景,避免"所有token高分"的退化解,提升区分精度 [20][34] 实验与性能 - 在nuScenes数据集测试,输入分辨率1596×1596(3249个token),评估25%/50%/75%剪枝比例 [28][30] - 50%剪枝下:L2误差32.10cm(相对基线99.1%),碰撞率0.25%(97.3%),交叉口率2.94%(95.1%) [30][35] - 对比基线方法:FastDriveVLA在L2误差、碰撞率等关键指标均优于注意力法(FastV)和相似度法(DivPrune) [30][46] 效率提升 - 75%剪枝时:FLOPs降低7.5倍,Prefill延迟减少3.7倍,Decode延迟减少1.3倍 [37][40] - 轻量化设计使CUDA延迟低于部分无参数方法,提升实时部署可行性 [36][37] 数据与可视化 - nuScenes-FG数据集通过GroundedSAM标注,解决原始3D边界框粗糙问题,提供精细前景分割 [15][33] - 可视化显示FastDriveVLA完整保留车道和车辆token,优于基线方法对关键区域的遗漏 [38][46] 行业意义 - 为VLA模型高效推理提供新范式,推动端到端自动驾驶在车载芯片的实际部署 [43][36] - 重建式剪枝策略可扩展至其他具身智能领域,为任务特定型token压缩提供参考 [11][43]
又帮到了一位同学拿到了自动驾驶算法岗......
自动驾驶之心· 2025-08-23 22:44
行业发展趋势 - 自动驾驶行业面临结构性调整 出现裁员现象 从业者转向具身智能和大模型等热门方向[1] - 技术演进聚焦VLA(视觉语言动作模型)和端到端自动驾驶 这些方向被视为具有更高技术壁垒和转型潜力[1] - 行业技术栈快速扩展 涵盖多模态大模型 数据闭环4D标注 世界模型等前沿领域[2] 技术资源体系 - 自动驾驶之心社区建立完整技术体系 包含超过40个技术路线分类[2] - 社区资源覆盖从基础数学[3]到前沿VLA算法[40]的全栈技术内容 - 提供近60个自动驾驶数据集资源 包括NuScenes Waymo KITTI等主流数据集[16][25][33] 人才发展生态 - 社区成员规模超过4000人 目标两年内达到近万人[1] - 汇聚国内外知名高校和头部企业资源 包括上海交大 清华大学 CMU 蔚小理 华为 英伟达等机构[16] - 建立与多家自动驾驶公司的内推机制 提供岗位对接服务[7][30] 技术应用方向 - 端到端自动驾驶成为研究热点 涵盖量产方案 多模态融合 可解释性等细分方向[29][34] - 3DGS与NeRF技术在场景重建和闭环仿真领域获得重要应用[35] - BEV感知技术成熟度较高 已成为量产方案的基石[44] 社区服务内容 - 提供专业技术直播超过100场 涵盖VLA 3D检测 规划控制等前沿话题[58] - 建立完善的问答机制 解答从技术入门到职业发展的各类问题[61][62] - 整合求职资源 包括实习 校招 社招岗位分享和内推服务[30]
VLA方向的论文还不知怎么下手?有的同学已经CCF-A了......
自动驾驶之心· 2025-08-22 20:00
理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力,结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力,轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力,整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向,涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降,顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案,学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周,包含先导课、传统端到端自动驾驶介绍(4周)、VLA端到端自动驾驶介绍(4周)和论文写作指导 [9][11][30] - 提供模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)和推理增强模型(Week12)三大研究方向 [30][35] - 每周课时1-1.5小时,覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse,支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习(VAD、UniAD)、扩散模型(DiffusionDrive、OccNet)和VLA模型(OpenDriveVLA、Senna) [26] - 必读论文包括Senna(2410.22313)、SimLingo(2503.09594)和OpenDriveVLA(2503.23463)等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信(根据优秀程度) [24][34] - 获得定制化研究idea(每位学员1个)、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡,推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境,具备深度学习基础 [21] - 每周课后需投入1-2小时自学,完成作业和论文阅读任务 [19][23]
端到端全新范式!复旦VeteranAD:"感知即规划"刷新开闭环SOTA,超越DiffusionDrive~
自动驾驶之心· 2025-08-22 07:34
核心观点 - 提出"感知融入规划"新范式 将感知过程直接嵌入规划中 实现更全面和针对性的感知[5] - 设计VeteranAD框架 通过多模态锚定轨迹作为规划先验 引导感知模块预测关键交通元素[5] - 采用自回归策略逐步生成未来轨迹 每个时间步都结合针对性感知结果进行优化[5] - 在NAVSIM和Bench2Drive数据集上达到最先进性能 NAVSIM的PDM Score达到90.2[12][21] 技术架构 - 规划感知整体感知模块:在图像特征、BEV特征和交通体特征三个维度进行交互 实现对车辆、车道和障碍物的全面理解[6] - 局部自回归轨迹规划模块:以自回归方式解码未来轨迹 逐步调整锚定轨迹并结合感知结果优化[6] - 使用多模态轨迹查询 由锚定轨迹初始化 锚定轨迹从真实规划轨迹中聚类得到[14] - 采用位置引导的图像交叉注意力、BEV交叉注意力和交通体交叉注意力机制[15] 性能表现 - NAVSIM数据集:PDM Score达到90.2 显著优于UniAD的83.4和DiffusionDrive的88.1[21] - Bench2Drive开环评测:平均L2误差为0.60 优于所有基线方法[24] - Bench2Drive闭环评测:驾驶分数64.22 成功率33.85% 与DriveTransformer性能相当[25] - nuScenes数据集:平均L2位移误差降低0.10米 碰撞率减少27.2%[31] 方法优势 - 自回归解码相比非自回归方法性能更优 PDMS从88.6提升到90.2[30] - 三种注意力机制结合效果最佳 移除BEV注意力影响最大 PDMS下降1.1[28] - 训练时间约8小时 推理延迟22.3毫秒 与DiffusionDrive效率相当但性能更优[33] - 在复杂场景如车辆并入道路时能有效减速避让 避免碰撞[36] 行业背景 - 端到端自动驾驶将感知、预测和规划统一到框架中 避免多阶段信息损失[8] - 主流方法采用"感知-规划"顺序范式 而VeteranAD创新性地采用"感知融入规划"范式[3][5] - 早期基于规则的方法存在误差传播和有限场景覆盖问题 端到端方法逐渐取代模块化设计[8] - 闭环评估模拟完整反馈回路 开环评估在离线数据集测试轨迹预测[9]
没有高效的技术和行业信息渠道,很多时间浪费了。。。
自动驾驶之心· 2025-08-22 07:34
社区定位与规模 - 社区定位为自动驾驶技术交流平台,集学术与工程问题讨论于一体,成员来自国内外知名高校实验室和头部公司[16] - 社区规模已超过4000人,提供视频、图文、学习路线、问答和求职交流等综合内容[1] - 社区目标为培养未来领袖,提供高效信息收集渠道,解决行业信息不对称问题[1][3] 技术资源覆盖范围 - 提供近40+开源项目、近60+自动驾驶相关数据集及行业主流仿真平台汇总[16] - 涵盖数学基础、计算机视觉、深度学习、编程等入门资料[4] - 包含感知、规划控制、仿真、端到端、VLA、多模态大模型等完整学习路线[16][17] 企业合作与就业服务 - 与多家自动驾驶公司建立岗位内推机制,可第一时间将简历送至心仪公司[5] - 提供国内外自动驾驶公司汇总,涉及RoboTaxi、重卡业务、造车新势力等企业[28] - 汇集学术界和工业界大佬分享,包括超过100场专业技术直播[81] 技术领域细分内容 - 感知技术包括2D/3D检测、分割、跟踪、BEV感知、Occupancy Network等[4][19][49][56] - 规划控制涵盖轨迹预测、模型预测控制、强化学习等算法[4][17][58] - 仿真技术包含Carla、Apollo、Autoware等仿真平台及闭环仿真方法[4][16][77] - 前沿技术覆盖端到端自动驾驶、VLA、扩散模型、世界模型、3DGS与NeRF等[36][38][40][44][47] 数据集与工具资源 - 提供自动驾驶数据集汇总,包括通用CV数据集、感知数据集、轨迹预测数据集等[34] - 汇总标注工具、仿真框架、传感器标定开源工具等实用资源[4] - 包含多模态大模型预训练数据集、微调数据集、思维链数据集等专项数据[34] 实战应用与问题解答 - 提供模型压缩、部署优化、CUDA加速等实战落地内容[4][66][68] - 包含自动驾驶100问系列,涵盖TensorRT部署、毫米波雷达融合、规划控制等问题[4] - 支持成员自由提问工作选择、研究方向等问题,并获得行业解答[82][85] 学术研究与工业应用结合 - 汇总国内外高校自动驾驶团队及研究方向,供读研、申博参考[25] - 梳理学术界和工业界研究热点,如端到端自动驾驶兼顾量产方案与学术算法[36] - 分析行业技术发展路线、量产挑战及未来前景[85]