BEV感知
搜索文档
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-18 00:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
工业界和学术界都在怎么搞端到端和VLA?
自动驾驶之心· 2025-10-17 08:03
端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型(VLA)等多种子领域,尤其是基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型(VLM)、扩散模型、强化学习、世界模型等,代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域,内容涵盖从VLM作为自动驾驶解释器,到模块化VLA、一体化VLA,以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理,包括Vision/Language/Action三大模块、强化学习、扩散模型等,并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验,例如有教师主持完成多项自动驾驶感知和大模型框架工具,其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家,拥有CCF-A/B论文发表记录,并主持完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU,推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [17]
学术和量产的分歧,技术路线的持续较量!从技术掌舵人的角度一览智驾的十年路....
自动驾驶之心· 2025-10-15 07:33
自动驾驶技术十年发展回顾 - 自动驾驶行业自2015年蓬勃发展至今已走过十年历程 [3] - 十年间涌现出视觉Transformer、BEV感知、多传感器融合、端到端自动驾驶、大模型、VLA、世界模型等众多闪耀技术 [3] - 自动驾驶的量产方案在技术发展过程中互相碰撞和融合 [3] 圆桌对话核心议题 - 回顾过去10年自动驾驶技术迭代的几个里程碑事件 [13] - 复盘过去两年自动驾驶领域的发展 [13] - 探讨世界模型和VLA的技术路线之争 [4][13] - 分析端到端是否已成为智驾技术栈的基石 [13] - 探讨学术界和工业界对L3自动驾驶的思考 [4][13] - 分析学界研究方向在收敛而工程端在拼落地的现状 [13] - 为新入行的自动驾驶人提供职业发展建议 [4][13] 主讲嘉宾背景 - 崔轲迪担任百度BV风投副总裁 [5] - 孙昊现任博世中央研究院自动驾驶负责人,研究方向为自动驾驶感知和端到端智能系统,拥有新加坡国立大学博士和麻省理工新加坡研究中心博士后经历 [5] - 许凌云现任长安科技泊车业务负责人,拥有中国科学院博士和卡内基梅隆机器人研究所博士后经历,曾获DARPA SUBT无人车挑战赛2019年世界冠军 [5] - 郑文钊为加州大学伯克利分校人工智能实验室博士后研究员,在TPAMI、CVPR等顶级期刊会议发表论文50余篇,谷歌学术引用2700余次 [6] 活动信息 - 圆桌对话定于10月15日晚举行 [9] - 活动由自动驾驶之心运营负责人Gloria和知乎大V刘斯坦共同主持 [7][8] - 完整版深度内容已独家上线知识星球「自动驾驶之心」,涵盖所有技术细节、QA及未公开内容 [17]
自动驾驶之心双节活动即将截止(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-09 07:33
社区核心定位 - 专注于最前沿的自动驾驶技术,打造技术社区 [5] - 社区覆盖近40多个学习路线,包括自动驾驶VLA、世界模型、闭环仿真、扩散模型、BEV感知等关键技术领域 [5] - 旨在保持技术活力,推动持续学习 [5] 技术交流与资源 - 提供与学术界和工业界顶尖专家面对面交流的机会 [5] - 讨论行业前沿议题,如VLA和WA的路线之争、未来自驾发展方向、世界模型本质及端到端技术探讨 [5] - 社区资源包括顶会作者亲临、直播互动以及Impromptu VLA、NavigScene、LangCoop、DriveBench、ZeroGS、Diffusion planner等具体项目交流 [5] 课程与培训体系 - 平台提供七门精品课程,内容涵盖世界模型、轨迹预测、大模型、相机标定、毫米波、点云3D检测、Transformer等核心主题 [5] - 课程体系面向初学者,注重核心能力的系统性培养 [5] - 提供平台课程八折优惠券及超级折扣卡,课程可享受七折优惠 [3]
自动驾驶之心双节活动进行中(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-04 12:04
社区核心定位 - 专注于自动驾驶技术领域的最前沿社区 [5] - 社区技术方向涵盖视觉语言自动驾驶、世界模型、闭环仿真、扩散模型、鸟瞰图感知等超过40个学习路线 [5] - 社区旨在保持技术活力并推动持续学习 [5] 技术交流与资源 - 提供与学术界及工业界顶尖专家面对面交流的机会 [5] - 交流议题包括视觉语言自动驾驶与规划代理的路线之争、自动驾驶未来发展方向、世界模型内涵及端到端技术讨论 [5] - 社区资源包括七门精品课程,内容覆盖世界模型、轨迹预测、大模型、相机标定、毫米波雷达、点云3D检测、Transformer等技术领域 [5] - 社区内容设计面向初学者,注重核心能力培养 [5] 会员与活动推广 - 为新会员提供星球七折优惠,续费会员可享五折优惠 [4] - 平台课程提供八折优惠券及七折超级折扣卡 [3]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-16 07:33
PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务,而是直接对感知输出的结构化信息(如边界框、车道线等)进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数,主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速,去年的技术方案已不适合当前环境 [13] - VLA(视觉语言动作)范式是当前端到端自动驾驶的皇冠,上限高但难度大,行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点,多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史,涵盖从模块化方法到端到端的演变,分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习、BEV感知等,这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端,分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA,包括基于感知的方法(UniAD、VAD、PARA-Drive)、基于世界模型的方法(Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(DiffusionDrive、Diffusion Planner、DiffE2E)和基于VLA的方法(ORION、OpenDriveVLA、ReCogDrive) [22][24][26][29] - 第五章设置RLHF微调大作业,提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架,梳理端到端自动驾驶研究发展脉络,形成自己的研究体系 [16] - 理论结合实践,配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架,将所学应用到实际项目中 [37]
用QA问答详解端到端落地:[UniAD/PARA-Drive/SpareDrive/VADv2]
自动驾驶之心· 2025-08-30 00:03
端到端自动驾驶模型分类 - 端到端模型分为完全黑盒OneNet和模块化端到端两种类型 其中模块化端到端通过感知 预测和规划模块间的feat-level/query-level交互减少误差累积 [3] UniAD框架架构 - UniAD框架包含Backbone Perception Prediction和Planner四个模块 输入多视角相机图像 Backbone提取BEV特征 Perception完成场景级感知 Prediction基于时序和场景交互进行多模态轨迹预测 Planner基于预测轨迹和BEV特征规划路径 各模块均采用Query+Transformer结构实现信息交互 [4] TrackFormer模块设计 - TrackFormer的query由检测query 跟踪query和ego query三部分组成 检测query用于识别新目标 跟踪query动态变化以匹配目标消失 推理过程采用BEVFormer检测新目标并将当前检测query合并到下一时刻跟踪query集合中 通过QIM模块与历史track query进行MHA交互获取时序信息 [6] MotionFormer交互机制 - MotionFormer包含三种交互类型:agent-agent(动态agent间交互) agent-map(静态地图交互) agent-goal(目标轨迹交互) motion query由目标点位置 上下文信息 当前位置及先验位置信息五部分组成 输出多模态轨迹 训练损失包含轨迹点距离和物理约束 [10] OccFormer结构特点 - OccFormer采用类RNN结构 以历史场景特征和稀疏agent特征为输入 通过pixel-agent interaction的mask cross-attention机制 使场景特征聚焦于局部相关agent信息 最终输出包含agent ID的占用网格 [9][11] PARA-Drive并行化改进 - PARA-Drive基于UniAD模块重构连接方式 所有子模块采用并行同步协同训练 仅通过更新的BEV query实现模块间联系 测试时可移除Map/Motion/Occ模块提升推理速度 [13] Panoptic SegFormer分割技术 - 通过多尺度特征融合(s8/s16/s32)作为encoder输入 decoder分两步:第一步用DETR方式精炼query并引入目标检测监督 第二步通过cross-attention进一步优化query 输出统一尺寸的特征进行掩码和类别预测 [14][15] SpareDrive稀疏感知架构 - 包含图像编码器 对称稀疏感知和运动规划三部分 图像编码器提取多视角多尺度2D特征 对称稀疏感知并行处理agent检测和地图任务 agent检测采用DETR范式 结合时序与非时序decoder 地图任务使用polyline anchor表示道路结构 [17][20] VADv2规划模块设计 - planning transformer输入包括规划token 场景token和导航token 通过交互输出动作概率 规划token通过最远距离采样从人类驾驶数据中提取代表性动作轨迹 训练使用真实动作概率约束和轨迹冲突损失 [23] 运动规划层级选择机制 - 包含自车实例初始化 时空交互和层级规划选择三部分 时空交互聚焦实例级历史交互 输出多轨迹和多规划方案 层级选择先根据驾驶命令筛选轨迹 再结合周围agent预测计算碰撞风险 最终输出最高分轨迹 [25]
公司通知团队缩减,懂端到端的留下来了。。。
自动驾驶之心· 2025-08-20 07:32
行业技术趋势 - 自动驾驶行业正从模块化方法转向端到端系统 实现传感器输入到车辆规划的直接建模 减少误差累积[2] - BEV感知技术打破模块化壁垒 在统一视角下实现技术跃迁[2] - 端到端自动驾驶需融合多模态大模型、BEV感知、强化学习、视觉Transformer及扩散模型等多领域技术[5] 技术发展现状 - UniAD统一感知和规划任务 首次实现多模块单模型运行 标志端到端时代来临[2] - 端到端技术发展出多方向:二段式(如PLUTO)、基于感知的一段式(如UniAD)、基于世界模型(如OccWorld)、基于扩散模型(如DiffusionDrive)及VLA范式[9] - 扩散模型应用于多模轨迹预测 提升对不确定环境的适应性 代表工作包括DiffusionDrive、Diffusion Planner及DiffE2E[17] 技术挑战与需求 - 端到端技术学习面临多领域知识碎片化、论文数量繁多、缺乏高质量文档及系统实战指导等挑战[5] - 行业要求算法工程师具备多技能融合能力 需同时掌握算法规则、感知决策及端到端与VLA等新技术[2] - VLA作为端到端自动驾驶的皇冠技术 上限高且难度大 成为学术界和工业界研发重点 招聘需求旺盛[20] 技术应用与突破 - 世界模型技术应用广泛 涵盖场景生成、端到端及闭环仿真 代表工作包括Drive-OccWorld和OccLLaMA[15] - VLA技术融合VLM、BEV、扩散模型及强化学习 前沿工作包括小米ORION、OpenDriveVLA及ReCogDrive[20] - RLHF技术应用于VLA算法微调 具备良好延展性 支持预训练和强化学习模块搭建[21] 工业界实践 - 主机厂算法专家主导端到端、大模型及世界模型等前沿算法预研与量产 完成多项自动驾驶产品交付[22] - 行业资源向端到端与多模态大模型攻坚集中 但仍需规则算法兜底 反映技术过渡期特点[2] - 小米ORION截至2025年7月开源推理和评测模块 推动VLA技术透明化与行业应用[20]
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 15:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
自动驾驶之心项目与论文辅导来了~
自动驾驶之心· 2025-08-07 20:00
自动驾驶之心项目与论文辅导 - 项目正式推出自动驾驶领域论文辅导服务 旨在解决学生在研究过程中遇到的环境配置 创新点实现 模型调试等疑难问题 [1] - 过往辅导成果显著 部分学员成功在CVPR ICRA等顶级会议发表论文 [1] - 2024年计划扩大辅导规模 目标助力更多学员冲击顶会 [1] 主要辅导方向 方向1:多模态与计算机视觉 - 覆盖端到端自动驾驶 BEV感知 大模型等前沿技术领域 [2][3] - 辅导老师为华为天才少年计划入选者 在CVPR/ICCV/ECCV/NIPS等顶会发表论文30+篇 总引用量超6000次 [3] - 学术指导经验丰富 曾指导博士生在CCF-A类顶会顶刊以一作/共一身份发表7篇论文 [3] 方向2:3D视觉技术 - 聚焦图像/点云数据的3D目标检测 语义分割 占据预测等多任务研究 [4][5] - 辅导老师来自国内TOP2高校 在ECCV CVPR等会议有多次论文发表记录 [5] 方向3:自动驾驶感知架构 - 研究领域包含OCC 世界模型 BEV等自动驾驶核心感知方案 [6] - 辅导团队参与多个主流感知方案开发 成员均来自国内TOP2高校 在CVPR ECCV等会议有论文发表 [6] 方向4:神经渲染与重建 - 涉及NeRF 3D Gaussian Splatting等三维重建技术 [7] - 辅导老师以第一作者发表4篇CCF-A类论文(含2篇CVPR和2篇IEEE Trans) [7] - 另有导师在CVPR ICCV ICML TPAMI等期刊会议发表多篇论文 学术背景覆盖国内外顶尖高校(QS200/国内TOP100) [7] 合作方式 - 提供个性化论文辅导服务 具体细节需通过指定微信号(wenyirumo)咨询 [7] - 咨询时需备注"论文辅导"以获取定向服务 [8]