Workflow
端到端自动驾驶
icon
搜索文档
没有高效的技术和行业信息渠道,很多时间浪费了。。。
自动驾驶之心· 2025-08-22 07:34
社区定位与规模 - 社区定位为自动驾驶技术交流平台,集学术与工程问题讨论于一体,成员来自国内外知名高校实验室和头部公司[16] - 社区规模已超过4000人,提供视频、图文、学习路线、问答和求职交流等综合内容[1] - 社区目标为培养未来领袖,提供高效信息收集渠道,解决行业信息不对称问题[1][3] 技术资源覆盖范围 - 提供近40+开源项目、近60+自动驾驶相关数据集及行业主流仿真平台汇总[16] - 涵盖数学基础、计算机视觉、深度学习、编程等入门资料[4] - 包含感知、规划控制、仿真、端到端、VLA、多模态大模型等完整学习路线[16][17] 企业合作与就业服务 - 与多家自动驾驶公司建立岗位内推机制,可第一时间将简历送至心仪公司[5] - 提供国内外自动驾驶公司汇总,涉及RoboTaxi、重卡业务、造车新势力等企业[28] - 汇集学术界和工业界大佬分享,包括超过100场专业技术直播[81] 技术领域细分内容 - 感知技术包括2D/3D检测、分割、跟踪、BEV感知、Occupancy Network等[4][19][49][56] - 规划控制涵盖轨迹预测、模型预测控制、强化学习等算法[4][17][58] - 仿真技术包含Carla、Apollo、Autoware等仿真平台及闭环仿真方法[4][16][77] - 前沿技术覆盖端到端自动驾驶、VLA、扩散模型、世界模型、3DGS与NeRF等[36][38][40][44][47] 数据集与工具资源 - 提供自动驾驶数据集汇总,包括通用CV数据集、感知数据集、轨迹预测数据集等[34] - 汇总标注工具、仿真框架、传感器标定开源工具等实用资源[4] - 包含多模态大模型预训练数据集、微调数据集、思维链数据集等专项数据[34] 实战应用与问题解答 - 提供模型压缩、部署优化、CUDA加速等实战落地内容[4][66][68] - 包含自动驾驶100问系列,涵盖TensorRT部署、毫米波雷达融合、规划控制等问题[4] - 支持成员自由提问工作选择、研究方向等问题,并获得行业解答[82][85] 学术研究与工业应用结合 - 汇总国内外高校自动驾驶团队及研究方向,供读研、申博参考[25] - 梳理学术界和工业界研究热点,如端到端自动驾驶兼顾量产方案与学术算法[36] - 分析行业技术发展路线、量产挑战及未来前景[85]
公司通知团队缩减,懂端到端的留下来了。。。
自动驾驶之心· 2025-08-20 07:32
行业技术趋势 - 自动驾驶行业正从模块化方法转向端到端系统 实现传感器输入到车辆规划的直接建模 减少误差累积[2] - BEV感知技术打破模块化壁垒 在统一视角下实现技术跃迁[2] - 端到端自动驾驶需融合多模态大模型、BEV感知、强化学习、视觉Transformer及扩散模型等多领域技术[5] 技术发展现状 - UniAD统一感知和规划任务 首次实现多模块单模型运行 标志端到端时代来临[2] - 端到端技术发展出多方向:二段式(如PLUTO)、基于感知的一段式(如UniAD)、基于世界模型(如OccWorld)、基于扩散模型(如DiffusionDrive)及VLA范式[9] - 扩散模型应用于多模轨迹预测 提升对不确定环境的适应性 代表工作包括DiffusionDrive、Diffusion Planner及DiffE2E[17] 技术挑战与需求 - 端到端技术学习面临多领域知识碎片化、论文数量繁多、缺乏高质量文档及系统实战指导等挑战[5] - 行业要求算法工程师具备多技能融合能力 需同时掌握算法规则、感知决策及端到端与VLA等新技术[2] - VLA作为端到端自动驾驶的皇冠技术 上限高且难度大 成为学术界和工业界研发重点 招聘需求旺盛[20] 技术应用与突破 - 世界模型技术应用广泛 涵盖场景生成、端到端及闭环仿真 代表工作包括Drive-OccWorld和OccLLaMA[15] - VLA技术融合VLM、BEV、扩散模型及强化学习 前沿工作包括小米ORION、OpenDriveVLA及ReCogDrive[20] - RLHF技术应用于VLA算法微调 具备良好延展性 支持预训练和强化学习模块搭建[21] 工业界实践 - 主机厂算法专家主导端到端、大模型及世界模型等前沿算法预研与量产 完成多项自动驾驶产品交付[22] - 行业资源向端到端与多模态大模型攻坚集中 但仍需规则算法兜底 反映技术过渡期特点[2] - 小米ORION截至2025年7月开源推理和评测模块 推动VLA技术透明化与行业应用[20]
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 15:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
全面超越DiffusionDrive, GMF-Drive:全球首个Mamba端到端SOTA方案
理想TOP2· 2025-08-18 20:43
端到端自动驾驶技术瓶颈与解决方案 - 当前端到端自动驾驶方案存在多模态融合架构瓶颈,主流TransFuser方法仅实现简单特征拼接而非结构化信息整合[4][6] - 传统LiDAR预处理方法丢失关键3D几何信息,标准自注意力机制缺乏空间感知能力,导致模型感知受限[8] - 中科大与中国矿业大学团队提出GMF-Drive框架,通过几何增强柱状表示与门控状态空间模型解决上述问题[7][8] GMF-Drive核心技术创新 - 设计14维几何增强柱状表示,保留高度变化、强度模式及局部表面几何信息,相比传统直方图方法显著提升感知精度[16][19] - 提出GM-Fusion模块整合三部分:门控通道注意力对齐多模态特征、BEV-SSM实现线性复杂度空间建模、分层可变形跨注意力精细化融合[19][37] - 采用自车中心极坐标编码与双扫描模式(光栅扫描+Z字扫描),实现方向感知与距离衰减的空间依赖建模[20][21][22] 性能表现与实验验证 - 在NAVSIM基准测试中PDMS得分达88.9,较最佳基线DiffusionDrive提升0.8分,其中可行驶区域符合率(DAC)达97.3(提升1.1分),自车推进率(EP)达83.3分[29][30] - 消融实验显示:8维柱状表示使PDMS从88.10提升至88.61,完整14维表示进一步升至88.85,证明几何信息保留的关键作用[33][34] - 融合架构对比中,HCA+BEV-SSM组合达到88.69 PDMS分,显著优于跨注意力(88.39)及通用状态空间模型(88.02)[35][36][37] 行业技术演进趋势 - 端到端自动驾驶从早期CNN方法演进至多模态系统,BEV表示成为重要里程碑,TransFuser及UniAD等Transformer架构主导当前方案[9] - 多模态融合存在三类方法:早期融合(原始数据层)、后期融合(决策层)及中期融合(特征层),当前主流为Transformer中期融合[10][13] - Mamba架构因线性计算复杂度优势成为潜在突破方向,有望替代计算量呈平方增长的Transformer架构[3][11]
“黑羊”绝影:如何给车企铺AI路?
21世纪经济报道· 2025-08-15 18:50
公司战略与规划 - 商汤绝影计划在2025年进一步扩大交付范围并新增合作车企包括广汽埃安和一汽红旗 [1] - 公司计划基于英伟达Thor平台开发更高阶的端到端自动驾驶方案 [1] - 商汤科技花费七年时间发展AI技术 现通过绝影业务验证AI在汽车产业的价值 [1] 技术发展与突破 - 商汤绝影CEO王晓刚在2017年就与本田合作L4自动驾驶项目 但因算力瓶颈和行业认知滞后未能落地 [2] - 特斯拉FSD V12的量产推动行业变革 促使商汤绝影加速追赶端到端技术 [2] - 公司2024年北京车展展示UniAD一段式端到端实车部署技术 [2] - 与东风汽车联合开发的端到端自动驾驶系统将于2024年底实现量产落地 [2] 行业合作与客户拓展 - 新增重要合作伙伴包括广汽埃安和一汽红旗等车企 [1] - 与东风汽车建立深度合作关系 共同开发端到端自动驾驶系统 [2] - 早期曾与本田合作L4自动驾驶项目 积累行业经验 [2]
多空博弈Robotaxi:“木头姐”建仓,机构现分歧
第一财经· 2025-08-15 11:45
唱多、唱空交织,推动自动驾驶技术成熟。 今年以来,Robotaxi(自动驾驶出租车)受到全球资本市场广泛关注,但质疑声也如约而至。 近日,"木头姐"Cathie Wood旗下ARK基金斥资约1290万美元买入小马智行(NASDAQ:PONY)股 票,这是"木头姐"的主力基金首次持仓中国自动驾驶标的。据悉,"木头姐"被华尔街认为是"女版巴菲 特",其投资偏好是高成长、高风险及长期持有。 另一家中国Robotaxi头部企业文远知行(NASDAQ:WRD)二季度Robotaxi业务同比大增836.7%,该公 司早在今年5月就披露了Uber承诺向其追加投资1亿美元的事宜。 记者近期在广州体验百度旗下萝卜快跑Robotaxi时也出现"高峰期等车时间长达1个小时、且无车接 单"的情况。当记者问询叫车点附近运营车辆数量时,萝卜快跑客服回应称:"城市的可服务车辆并非固 定不变,会受多方因素影响进行动态调整。"根据附近居民、商户的反馈,下班高峰期萝卜快跑的等车 时长大于40分钟。 不可否认的是,现阶段Robotaxi派单时长、等车时长均较有人网约车更多,也是行业需要解决的课题。 韩旭表示,当自动驾驶公司开拓一个新城市时,自动驾 ...
自动驾驶现在关注哪些技术方向?应该如何入门?
自动驾驶之心· 2025-08-15 07:33
社区定位与愿景 - 致力于推动自动驾驶与AI行业发展,成为企业与高校间的沟通桥梁 [1] - 愿景是让AI与自动驾驶技术普及至有需求的学生群体 [1] - 已梳理40+技术路线,覆盖行业应用咨询、VLA基准测试、综述及学习路线等方向 [1] - 邀请数十位来自产业界与学术界的一线专家担任嘉宾,提供答疑服务 [1] 核心资源与内容体系 - 提供学术前沿内容、工业界圆桌讨论、开源代码方案及求职信息 [3] - 汇总40+开源项目、60+自动驾驶数据集及主流仿真平台 [13] - 技术学习路线涵盖感知、仿真、规划控制、端到端、3DGS原理等方向 [13] - 整理国内外高校自动驾驶团队及企业名单,包括上海交大、CMU、蔚小理、华为等机构 [13][21][23] 技术专题覆盖 - **端到端自动驾驶**:涵盖综述、里程碑方法、纯视觉/多模态方案、世界模型结合等细分方向 [31][20] - **3DGS与NeRF**:聚焦算法原理、场景重建、闭环仿真及感知应用 [33] - **世界模型**:汇总技术前沿与工业落地应用 [35] - **视觉语言模型(VLM)**:包括最新综述、开源数据集及量产方案DriveVLM [37] - **BEV感知**:梳理纯视觉/多模态方案、多任务学习及工程部署 [44] - **3D目标检测**:覆盖环视、range-view、voxel-based及多模态方法 [46] 行业活动与互动 - 举办超100场专业直播,嘉宾来自清华大学、上海人工智能实验室等机构,分享VLA、3D检测等前沿工作 [76] - 成员可自由提问职业规划、研究方向等问题,获得行业大佬解答 [77] - 社区成员来自国内外顶尖高校与企业,形成技术交流与求职对接平台 [13][18] 求职与职业发展支持 - 提供自动驾驶岗位推荐与企业对接服务 [18] - 汇总主机厂、供应商(如理想、Momenta)的offer选择建议,涵盖薪资、技术氛围等维度 [80] - 分析行业趋势,如2025年VLA技术热点及量产挑战 [39][80] 学习资源整合 - 整理自动驾驶与CV领域经典书籍,涵盖数学基础、深度学习、运动规划等主题 [25] - 开源数据集分类包括通用CV数据集、感知数据集及多模态大模型专用数据集 [29] - 实战方向覆盖模型压缩、部署优化、CUDA编程等工程化内容 [61][63]
正式开课!端到端与VLA自动驾驶小班课,优惠今日截止~
自动驾驶之心· 2025-08-14 07:33
行业技术发展 - VLA(Vision-Language-Action)被视为自动驾驶量产的新里程碑,技术从E2E+VLM演进至VLA,引发行业广泛关注并吸引传统规控、感知等领域人才转型需求[1] - 端到端自动驾驶技术呈现多方向分化,涵盖多模态大模型、BEV感知、强化学习、扩散模型等关键技术栈,但跨领域学习门槛高且知识碎片化[11] - 技术迭代加速导致早期工业级端到端方案已不适应当前环境,VLA成为学术界与工业界共同发力的前沿方向,被称作"端到端自动驾驶的皇冠"[19] 课程体系设计 - 课程分五章递进式教学:从端到端发展史(第一章)、核心技术背景(第二章)到二段式(第三章)与一段式端到端及VLA(第四章),最终以RLHF微调实战收尾(第五章)[17][18][19][21] - 第二章聚焦未来两年高频技术关键词:大语言模型、BEV感知、扩散模型理论、强化学习与RLHF等[17][20] - 第四章深度解析四大一段式端到端子领域:基于感知(UniAD/VAD)、世界模型(Drive-OccWorld/OccLLaMA)、扩散模型(DiffusionDrive/DiffE2E)及VLA(ORION/OpenDriveVLA)[19] 职业发展价值 - VLA相关岗位薪资竞争力显著:VLA算法专家年薪达60-105万(40-70K*15薪),顶尖博士人才年薪144-192万(90-120K*16薪),实习生日薪220-400元[8] - 课程目标使学员达到1年经验算法工程师水平,掌握复现扩散模型/VLA框架能力,覆盖实习/校招/社招全场景需求[28] - 技术转型路径明确:传统算法岗可通过课程横向提升技能或转向VLA大模型算法工程师核心岗位[6][7] 教学特色 - 采用Just-in-Time Learning理念,通过案例教学快速构建技术框架,解决论文碎片化难题[12][13] - 配套三大实战环节:Diffusion Planner(扩散模型)、ORION(VLA)及RLHF微调大作业,实现理论到工业级应用的闭环[19][21] - 课程由TOP主机厂算法专家设计,整合CVPR'25、AAAI'25等最新研究成果及量产经验,8月15日开课分阶段解锁内容[22][26] 技术深度覆盖 - BEV感知模块详解:涵盖3D检测、车道线识别、OCC及轨迹预测规划等自动驾驶核心感知任务[20] - 多模态技术栈:从CLIP/LLAVA视觉语言基础到VLA完整技术链路,结合GRPO等前沿强化学习方法[19][20] - 扩散模型应用:重点解析多模轨迹预测技术,包括Diffusion Planner等工业落地方案[19]
全面超越DiffusionDrive!中科大GMF-Drive:全球首个Mamba端到端SOTA方案
自动驾驶之心· 2025-08-14 07:33
端到端自动驾驶框架GMF-Drive - 突破Transformer瓶颈,提出门控Mamba融合+空间感知BEV的端到端自动驾驶框架,通过几何增强柱状表示和空间感知状态空间模型实现高效多模态融合 [7][13][16] - 包含三个核心模块:数据预处理模块(14维柱状表示保留3D几何信息)、感知模块(GM-Fusion实现线性复杂度空间建模)、轨迹规划模块(截断扩散策略生成轨迹) [13][19][22] - 在NAVSIM基准测试中PDMS得分88.9,较DiffusionDrive提升0.8分,关键子指标DAC和EP分别达到97.3和83.3 [32][33] 多模态融合技术演进 - 当前主流方法采用TransFuser风格架构,直接拼接图像与LiDAR特征并通过自注意力处理,存在信息损失和缺乏空间感知两大缺陷 [3][5][6] - 多模态融合方法分为三类:早期融合(原始数据层)、后期融合(决策层)、中期融合(特征层),当前以Transformer为核心的中期融合为主流但计算量大 [10][11][14] - 行业趋势从早期CNN方法演进到多模态系统,关键里程碑包括BEV表示(TransFuser)、多任务整合(UniAD)、向量化表示(VAD)和稀疏表示(SparseDrive) [8][11] 技术创新点 - 几何增强柱状表示:14维特征包含点特征池化结果和统计特征(反射强度均值方差、PCA几何描述符),保留传统方法丢失的3D几何信息 [19][20] - GM-Fusion模块:整合门控通道注意力(特征对齐)、BEV-SSM(方向感知+双扫描模式空间建模)、分层可变形跨注意力(多尺度特征查询) [22][24][25] - 空间感知机制:自车中心极坐标编码实现维度交错,双扫描模式(光栅扫描+Z字扫描)结合距离衰减机制优化空间依赖建模 [24][25][26][27] 性能验证 - 定量比较:在相同ResNet-34主干和传感器输入条件下,PDMS得分88.9超越所有对比方法,DAC指标97.3显示精细空间特征提升场景理解能力 [32][33] - 消融实验:完整系统组件使PDMS提升0.75分,其中14维柱状表示贡献0.24分,GM-Fusion模块贡献0.74分,验证数据表示与架构设计的协同重要性 [37][38][39] - 融合架构对比:HCA+BEV-SSM配置PDMS达88.69,证明针对BEV优化的扫描模式与空间先验比通用序列模型(C-EffiMamba)更有效 [41][42]
双非硕多传感融合方向,技术不精算法岗学历受限,求学习建议。。。
自动驾驶之心· 2025-08-13 21:06
社区定位与价值主张 - 专注于为自动驾驶领域学生和从业者提供技术交流平台 特别关注双非院校学生在算法方向的就业困难问题 [2][3] - 通过知识星球社区构建产业、学术、求职、问答交流的闭环生态 已整合40+技术路线和数十位行业嘉宾资源 [6] - 社区成员覆盖国内外顶尖高校(上海交大、北京大学、CMU等)和头部企业(蔚小理、地平线、华为等)形成高端技术聚集地 [17] 技术资源体系 - 系统化整理近40+开源项目、60+数据集及主流仿真平台 涵盖感知、规划控制、仿真等全栈技术方向 [17] - 详细梳理前沿技术领域包括端到端自动驾驶(覆盖综述、里程碑方法、多模态方案等10个子类) [24][35] - 提供VLA(视觉语言模型)全链路资源 包含开源数据集、思维链推理及量产方案DriveVLM等关键技术 [41][43] - 整合3DGS与NeRF技术 涵盖算法原理、自动驾驶场景重建与闭环仿真等应用 [37] 实战与就业支持 - 设计100问系列实战专题 包括TensorRT模型部署、毫米波雷达融合、规划控制等7大方向工程化问题 [8] - 定期组织行业大佬直播分享 已完成超100场专业技术直播 涵盖VLA、3D检测、扩散模型等热点话题 [80] - 提供企业岗位对接服务 覆盖蔚小理、华为、大疆等头部公司 并针对应届生offer选择提供详细对比分析 [84] 细分技术模块 - BEV感知领域整合纯视觉、多模态方案及工程部署资源 形成量产方案技术基石 [48] - 多传感器融合方向涵盖强融合/弱融合/后融合方案 以及Lidar/Radar/Camera具体实施路线 [8][52] - 规划控制模块包含基于搜索/采样/数值优化的算法 以及横纵解耦与联合规划框架 [17] - 仿真技术汇总Carla、Apollo、Autoware等平台 并扩展闭环仿真与传感器仿真能力 [8][76]