Workflow
端到端自动驾驶
icon
搜索文档
面向量产VLA!FastDriveVLA:即插即用剪枝模块,推理加速近4倍
自动驾驶之心· 2025-08-24 00:03
核心观点 - 提出FastDriveVLA框架,通过重建式视觉token剪枝技术,在50%压缩率下保持97.3%的自动驾驶规划性能,显著降低计算开销 [5][43] - 设计即插即用剪枝器ReconPruner,结合对抗式前景-背景重建策略,增强前景token辨识能力 [5][20][43] - 构建nuScenes-FG数据集,包含24.1万张图像-掩码对,覆盖六视角车载摄像头,提供细粒度前景分割标注 [6][15][43] 技术背景与行业现状 - 端到端自动驾驶方案通过单一模型完成感知到规划,减少模块间信息损失,但VLA模型因大量视觉token导致高计算延迟 [3][9] - 现有剪枝方法存在局限性:注意力机制法受限于简短文本指令,相似度法易误删关键前景token [4][14][11] - VLA模型通过自然语言增强车辆推理能力,DriveGPT4、OpenDriveVLA等方案已实现细粒度控制输出 [10] 方法论创新 - 基于人类驾驶行为定义前景(车辆、道路、交通标志等)与背景(建筑物、天空等),聚焦关键信息区域 [12] - ReconPruner仅含0.07B参数,通过MAE风格像素重建任务训练,量化token显著性 [17][19] - 对抗式策略强制低分token重建背景,避免"所有token高分"的退化解,提升区分精度 [20][34] 实验与性能 - 在nuScenes数据集测试,输入分辨率1596×1596(3249个token),评估25%/50%/75%剪枝比例 [28][30] - 50%剪枝下:L2误差32.10cm(相对基线99.1%),碰撞率0.25%(97.3%),交叉口率2.94%(95.1%) [30][35] - 对比基线方法:FastDriveVLA在L2误差、碰撞率等关键指标均优于注意力法(FastV)和相似度法(DivPrune) [30][46] 效率提升 - 75%剪枝时:FLOPs降低7.5倍,Prefill延迟减少3.7倍,Decode延迟减少1.3倍 [37][40] - 轻量化设计使CUDA延迟低于部分无参数方法,提升实时部署可行性 [36][37] 数据与可视化 - nuScenes-FG数据集通过GroundedSAM标注,解决原始3D边界框粗糙问题,提供精细前景分割 [15][33] - 可视化显示FastDriveVLA完整保留车道和车辆token,优于基线方法对关键区域的遗漏 [38][46] 行业意义 - 为VLA模型高效推理提供新范式,推动端到端自动驾驶在车载芯片的实际部署 [43][36] - 重建式剪枝策略可扩展至其他具身智能领域,为任务特定型token压缩提供参考 [11][43]
又帮到了一位同学拿到了自动驾驶算法岗......
自动驾驶之心· 2025-08-23 22:44
行业发展趋势 - 自动驾驶行业面临结构性调整 出现裁员现象 从业者转向具身智能和大模型等热门方向[1] - 技术演进聚焦VLA(视觉语言动作模型)和端到端自动驾驶 这些方向被视为具有更高技术壁垒和转型潜力[1] - 行业技术栈快速扩展 涵盖多模态大模型 数据闭环4D标注 世界模型等前沿领域[2] 技术资源体系 - 自动驾驶之心社区建立完整技术体系 包含超过40个技术路线分类[2] - 社区资源覆盖从基础数学[3]到前沿VLA算法[40]的全栈技术内容 - 提供近60个自动驾驶数据集资源 包括NuScenes Waymo KITTI等主流数据集[16][25][33] 人才发展生态 - 社区成员规模超过4000人 目标两年内达到近万人[1] - 汇聚国内外知名高校和头部企业资源 包括上海交大 清华大学 CMU 蔚小理 华为 英伟达等机构[16] - 建立与多家自动驾驶公司的内推机制 提供岗位对接服务[7][30] 技术应用方向 - 端到端自动驾驶成为研究热点 涵盖量产方案 多模态融合 可解释性等细分方向[29][34] - 3DGS与NeRF技术在场景重建和闭环仿真领域获得重要应用[35] - BEV感知技术成熟度较高 已成为量产方案的基石[44] 社区服务内容 - 提供专业技术直播超过100场 涵盖VLA 3D检测 规划控制等前沿话题[58] - 建立完善的问答机制 解答从技术入门到职业发展的各类问题[61][62] - 整合求职资源 包括实习 校招 社招岗位分享和内推服务[30]
VLA方向的论文还不知怎么下手?有的同学已经CCF-A了......
自动驾驶之心· 2025-08-22 20:00
理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力,结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力,轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力,整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向,涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降,顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案,学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周,包含先导课、传统端到端自动驾驶介绍(4周)、VLA端到端自动驾驶介绍(4周)和论文写作指导 [9][11][30] - 提供模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)和推理增强模型(Week12)三大研究方向 [30][35] - 每周课时1-1.5小时,覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse,支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习(VAD、UniAD)、扩散模型(DiffusionDrive、OccNet)和VLA模型(OpenDriveVLA、Senna) [26] - 必读论文包括Senna(2410.22313)、SimLingo(2503.09594)和OpenDriveVLA(2503.23463)等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信(根据优秀程度) [24][34] - 获得定制化研究idea(每位学员1个)、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡,推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境,具备深度学习基础 [21] - 每周课后需投入1-2小时自学,完成作业和论文阅读任务 [19][23]
端到端全新范式!复旦VeteranAD:"感知即规划"刷新开闭环SOTA,超越DiffusionDrive~
自动驾驶之心· 2025-08-22 07:34
核心观点 - 提出"感知融入规划"新范式 将感知过程直接嵌入规划中 实现更全面和针对性的感知[5] - 设计VeteranAD框架 通过多模态锚定轨迹作为规划先验 引导感知模块预测关键交通元素[5] - 采用自回归策略逐步生成未来轨迹 每个时间步都结合针对性感知结果进行优化[5] - 在NAVSIM和Bench2Drive数据集上达到最先进性能 NAVSIM的PDM Score达到90.2[12][21] 技术架构 - 规划感知整体感知模块:在图像特征、BEV特征和交通体特征三个维度进行交互 实现对车辆、车道和障碍物的全面理解[6] - 局部自回归轨迹规划模块:以自回归方式解码未来轨迹 逐步调整锚定轨迹并结合感知结果优化[6] - 使用多模态轨迹查询 由锚定轨迹初始化 锚定轨迹从真实规划轨迹中聚类得到[14] - 采用位置引导的图像交叉注意力、BEV交叉注意力和交通体交叉注意力机制[15] 性能表现 - NAVSIM数据集:PDM Score达到90.2 显著优于UniAD的83.4和DiffusionDrive的88.1[21] - Bench2Drive开环评测:平均L2误差为0.60 优于所有基线方法[24] - Bench2Drive闭环评测:驾驶分数64.22 成功率33.85% 与DriveTransformer性能相当[25] - nuScenes数据集:平均L2位移误差降低0.10米 碰撞率减少27.2%[31] 方法优势 - 自回归解码相比非自回归方法性能更优 PDMS从88.6提升到90.2[30] - 三种注意力机制结合效果最佳 移除BEV注意力影响最大 PDMS下降1.1[28] - 训练时间约8小时 推理延迟22.3毫秒 与DiffusionDrive效率相当但性能更优[33] - 在复杂场景如车辆并入道路时能有效减速避让 避免碰撞[36] 行业背景 - 端到端自动驾驶将感知、预测和规划统一到框架中 避免多阶段信息损失[8] - 主流方法采用"感知-规划"顺序范式 而VeteranAD创新性地采用"感知融入规划"范式[3][5] - 早期基于规则的方法存在误差传播和有限场景覆盖问题 端到端方法逐渐取代模块化设计[8] - 闭环评估模拟完整反馈回路 开环评估在离线数据集测试轨迹预测[9]
没有高效的技术和行业信息渠道,很多时间浪费了。。。
自动驾驶之心· 2025-08-22 07:34
社区定位与规模 - 社区定位为自动驾驶技术交流平台,集学术与工程问题讨论于一体,成员来自国内外知名高校实验室和头部公司[16] - 社区规模已超过4000人,提供视频、图文、学习路线、问答和求职交流等综合内容[1] - 社区目标为培养未来领袖,提供高效信息收集渠道,解决行业信息不对称问题[1][3] 技术资源覆盖范围 - 提供近40+开源项目、近60+自动驾驶相关数据集及行业主流仿真平台汇总[16] - 涵盖数学基础、计算机视觉、深度学习、编程等入门资料[4] - 包含感知、规划控制、仿真、端到端、VLA、多模态大模型等完整学习路线[16][17] 企业合作与就业服务 - 与多家自动驾驶公司建立岗位内推机制,可第一时间将简历送至心仪公司[5] - 提供国内外自动驾驶公司汇总,涉及RoboTaxi、重卡业务、造车新势力等企业[28] - 汇集学术界和工业界大佬分享,包括超过100场专业技术直播[81] 技术领域细分内容 - 感知技术包括2D/3D检测、分割、跟踪、BEV感知、Occupancy Network等[4][19][49][56] - 规划控制涵盖轨迹预测、模型预测控制、强化学习等算法[4][17][58] - 仿真技术包含Carla、Apollo、Autoware等仿真平台及闭环仿真方法[4][16][77] - 前沿技术覆盖端到端自动驾驶、VLA、扩散模型、世界模型、3DGS与NeRF等[36][38][40][44][47] 数据集与工具资源 - 提供自动驾驶数据集汇总,包括通用CV数据集、感知数据集、轨迹预测数据集等[34] - 汇总标注工具、仿真框架、传感器标定开源工具等实用资源[4] - 包含多模态大模型预训练数据集、微调数据集、思维链数据集等专项数据[34] 实战应用与问题解答 - 提供模型压缩、部署优化、CUDA加速等实战落地内容[4][66][68] - 包含自动驾驶100问系列,涵盖TensorRT部署、毫米波雷达融合、规划控制等问题[4] - 支持成员自由提问工作选择、研究方向等问题,并获得行业解答[82][85] 学术研究与工业应用结合 - 汇总国内外高校自动驾驶团队及研究方向,供读研、申博参考[25] - 梳理学术界和工业界研究热点,如端到端自动驾驶兼顾量产方案与学术算法[36] - 分析行业技术发展路线、量产挑战及未来前景[85]
公司通知团队缩减,懂端到端的留下来了。。。
自动驾驶之心· 2025-08-20 07:32
行业技术趋势 - 自动驾驶行业正从模块化方法转向端到端系统 实现传感器输入到车辆规划的直接建模 减少误差累积[2] - BEV感知技术打破模块化壁垒 在统一视角下实现技术跃迁[2] - 端到端自动驾驶需融合多模态大模型、BEV感知、强化学习、视觉Transformer及扩散模型等多领域技术[5] 技术发展现状 - UniAD统一感知和规划任务 首次实现多模块单模型运行 标志端到端时代来临[2] - 端到端技术发展出多方向:二段式(如PLUTO)、基于感知的一段式(如UniAD)、基于世界模型(如OccWorld)、基于扩散模型(如DiffusionDrive)及VLA范式[9] - 扩散模型应用于多模轨迹预测 提升对不确定环境的适应性 代表工作包括DiffusionDrive、Diffusion Planner及DiffE2E[17] 技术挑战与需求 - 端到端技术学习面临多领域知识碎片化、论文数量繁多、缺乏高质量文档及系统实战指导等挑战[5] - 行业要求算法工程师具备多技能融合能力 需同时掌握算法规则、感知决策及端到端与VLA等新技术[2] - VLA作为端到端自动驾驶的皇冠技术 上限高且难度大 成为学术界和工业界研发重点 招聘需求旺盛[20] 技术应用与突破 - 世界模型技术应用广泛 涵盖场景生成、端到端及闭环仿真 代表工作包括Drive-OccWorld和OccLLaMA[15] - VLA技术融合VLM、BEV、扩散模型及强化学习 前沿工作包括小米ORION、OpenDriveVLA及ReCogDrive[20] - RLHF技术应用于VLA算法微调 具备良好延展性 支持预训练和强化学习模块搭建[21] 工业界实践 - 主机厂算法专家主导端到端、大模型及世界模型等前沿算法预研与量产 完成多项自动驾驶产品交付[22] - 行业资源向端到端与多模态大模型攻坚集中 但仍需规则算法兜底 反映技术过渡期特点[2] - 小米ORION截至2025年7月开源推理和评测模块 推动VLA技术透明化与行业应用[20]
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 15:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
全面超越DiffusionDrive, GMF-Drive:全球首个Mamba端到端SOTA方案
理想TOP2· 2025-08-18 20:43
端到端自动驾驶技术瓶颈与解决方案 - 当前端到端自动驾驶方案存在多模态融合架构瓶颈,主流TransFuser方法仅实现简单特征拼接而非结构化信息整合[4][6] - 传统LiDAR预处理方法丢失关键3D几何信息,标准自注意力机制缺乏空间感知能力,导致模型感知受限[8] - 中科大与中国矿业大学团队提出GMF-Drive框架,通过几何增强柱状表示与门控状态空间模型解决上述问题[7][8] GMF-Drive核心技术创新 - 设计14维几何增强柱状表示,保留高度变化、强度模式及局部表面几何信息,相比传统直方图方法显著提升感知精度[16][19] - 提出GM-Fusion模块整合三部分:门控通道注意力对齐多模态特征、BEV-SSM实现线性复杂度空间建模、分层可变形跨注意力精细化融合[19][37] - 采用自车中心极坐标编码与双扫描模式(光栅扫描+Z字扫描),实现方向感知与距离衰减的空间依赖建模[20][21][22] 性能表现与实验验证 - 在NAVSIM基准测试中PDMS得分达88.9,较最佳基线DiffusionDrive提升0.8分,其中可行驶区域符合率(DAC)达97.3(提升1.1分),自车推进率(EP)达83.3分[29][30] - 消融实验显示:8维柱状表示使PDMS从88.10提升至88.61,完整14维表示进一步升至88.85,证明几何信息保留的关键作用[33][34] - 融合架构对比中,HCA+BEV-SSM组合达到88.69 PDMS分,显著优于跨注意力(88.39)及通用状态空间模型(88.02)[35][36][37] 行业技术演进趋势 - 端到端自动驾驶从早期CNN方法演进至多模态系统,BEV表示成为重要里程碑,TransFuser及UniAD等Transformer架构主导当前方案[9] - 多模态融合存在三类方法:早期融合(原始数据层)、后期融合(决策层)及中期融合(特征层),当前主流为Transformer中期融合[10][13] - Mamba架构因线性计算复杂度优势成为潜在突破方向,有望替代计算量呈平方增长的Transformer架构[3][11]
“黑羊”绝影:如何给车企铺AI路?
21世纪经济报道· 2025-08-15 18:50
公司战略与规划 - 商汤绝影计划在2025年进一步扩大交付范围并新增合作车企包括广汽埃安和一汽红旗 [1] - 公司计划基于英伟达Thor平台开发更高阶的端到端自动驾驶方案 [1] - 商汤科技花费七年时间发展AI技术 现通过绝影业务验证AI在汽车产业的价值 [1] 技术发展与突破 - 商汤绝影CEO王晓刚在2017年就与本田合作L4自动驾驶项目 但因算力瓶颈和行业认知滞后未能落地 [2] - 特斯拉FSD V12的量产推动行业变革 促使商汤绝影加速追赶端到端技术 [2] - 公司2024年北京车展展示UniAD一段式端到端实车部署技术 [2] - 与东风汽车联合开发的端到端自动驾驶系统将于2024年底实现量产落地 [2] 行业合作与客户拓展 - 新增重要合作伙伴包括广汽埃安和一汽红旗等车企 [1] - 与东风汽车建立深度合作关系 共同开发端到端自动驾驶系统 [2] - 早期曾与本田合作L4自动驾驶项目 积累行业经验 [2]
多空博弈Robotaxi:“木头姐”建仓,机构现分歧
第一财经· 2025-08-15 11:45
唱多、唱空交织,推动自动驾驶技术成熟。 今年以来,Robotaxi(自动驾驶出租车)受到全球资本市场广泛关注,但质疑声也如约而至。 近日,"木头姐"Cathie Wood旗下ARK基金斥资约1290万美元买入小马智行(NASDAQ:PONY)股 票,这是"木头姐"的主力基金首次持仓中国自动驾驶标的。据悉,"木头姐"被华尔街认为是"女版巴菲 特",其投资偏好是高成长、高风险及长期持有。 另一家中国Robotaxi头部企业文远知行(NASDAQ:WRD)二季度Robotaxi业务同比大增836.7%,该公 司早在今年5月就披露了Uber承诺向其追加投资1亿美元的事宜。 记者近期在广州体验百度旗下萝卜快跑Robotaxi时也出现"高峰期等车时间长达1个小时、且无车接 单"的情况。当记者问询叫车点附近运营车辆数量时,萝卜快跑客服回应称:"城市的可服务车辆并非固 定不变,会受多方因素影响进行动态调整。"根据附近居民、商户的反馈,下班高峰期萝卜快跑的等车 时长大于40分钟。 不可否认的是,现阶段Robotaxi派单时长、等车时长均较有人网约车更多,也是行业需要解决的课题。 韩旭表示,当自动驾驶公司开拓一个新城市时,自动驾 ...