端到端自动驾驶

搜索文档
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 16:44
计算机视觉与自动驾驶研究热点 - 2024年CVPR和ICCV两大顶会的研究热点集中在四大领域:通用计算机视觉、自动驾驶相关、具身智能、3D视觉 [2] - 通用计算机视觉细分方向包括diffusion模型、图像质量评估、半监督学习、零样本学习、开放世界检测等 [3] - 自动驾驶领域聚焦端到端系统、闭环仿真3DGS、多模态大模型、扩散模型、世界模型、轨迹预测等技术 [3] - 具身智能领域重点研究方向为VLA(视觉语言动作模型)、零样本学习、机器人操作、端到端控制、sim2real迁移、灵巧抓取等 [3] - 3D视觉领域热点包括点云补全、单视图重建、3D高斯泼溅(3DGS)、3D匹配、视频压缩、神经辐射场(NeRF)等 [3] 自动驾驶技术应用方向 - 自动驾驶核心技术涵盖大模型应用、VLA系统、端到端解决方案、3D高斯泼溅(3DGS)、BEV感知、多传感器融合等 [4] - 具体技术分支包括毫米波雷达与视觉融合、激光雷达与视觉融合、多传感器标定、车道线检测、在线地图构建、Occupancy网络等 [4] - 决策规划领域涉及高性能计算、语义分割、轨迹预测、世界建模、3D目标检测等关键技术 [4] 具身智能与机器人技术 - 具身智能核心方向包括视觉语言导航、强化学习、Diffusion Policy、具身交互、机器人位姿估计等 [4] - 机器人控制技术覆盖运动规划、双足/四足机器人控制、遥控操作、触觉感知、SLAM等 [4] - 零样本学习在具身智能中具有重要应用价值 [4] 3D视觉与通用CV技术 - 3D视觉关键技术包含点云处理、3D高斯泼溅(3DGS)、SLAM等 [4] - 通用计算机视觉持续关注diffusion模型、图像质量评估、半监督学习等基础方向 [4] - 零样本学习在通用CV和具身智能领域均具有交叉应用 [3][4] 学术成果与科研支持 - 自动驾驶领域已有2篇论文被CVPR 2025收录 [3] - 科研支持范围覆盖自动驾驶顶会(CCF-A/B/C)、SCI各分区期刊、EI/中文核心等 [4] - 技术支持方向包括毕业论文、申博研究、学术竞赛等应用场景 [4]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 17:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]
今年,传统规划控制怎么找工作?
自动驾驶之心· 2025-07-02 21:54
自动驾驶规划控制行业趋势 - 传统规划控制岗位的生存空间正在被端到端和VLA技术蚕食,行业转向规则算法与端到端结合的需求[2][3] - 2025年端到端技术将进一步落地,但传统规控仍为L4等高安全性场景提供兜底,两者融合成为关键[4] - 头部公司重点关注不确定环境下的决策规划(如Contingency Planning)和博弈式交互规划,这些是面试和量产的核心差异点[4][24][26] 岗位技能要求与转型挑战 - 基础算法(横纵解耦框架、搜索/采样/运动学规划)已成为行业准入门槛,但仅掌握基础难以获得优质offer[4] - 从业者需补充端到端技术(一段式/二段式、VLM/VLA)及传统规控创新方案,以应对技术迭代[4][29] - 转行者需在3-4个月内强化C++/Python、运动规划理论及实战项目,并聚焦不确定性处理和交互规划等高阶能力[4][15][39] 行业培训与就业服务 - 小班课程聚焦量产痛点,覆盖经典规控方案与端到端融合,提供可直接写入简历的工程项目[7][13] - 课程设计对标2-3年工程师经验,包含简历修改、模拟面试及内推服务,往期学员入职华为、百度等头部公司[8][9][10] - 课程大纲分六模块:基础算法、决策规划框架、不确定性处理、博弈规划、端到端技术及面试辅导,强化工程与理论结合[20][22][24][26][29][31] 技术课程内容与特色 - 第一章至第五章系统讲解算法工具链,从搜索/优化到数据驱动框架,培养全局视野[20][21][22] - 博弈交互式规划和防御式规划为头部公司量产重点,课程提供代码级实践与场景落地指导[24][26][27] - 端到端章节新增VLM/VLA技术解析,分析其与传统规控的协同落地策略[29] 目标人群与附加价值 - 面向车辆工程、计算机等专业学生及转行者,需具备编程和数学基础,非小白向[37][38] - 附加服务包括简历修改、理论课程赠送及一对一就业咨询,价值超千元[33][36] - 课程采用VIP群直播+录播模式,限50人,强调保姆级教学与工程能力提升[8][12]
不用给理想入选ICCV高评价, 牛的是理想的工作, 不是ICCV
理想TOP2· 2025-06-29 23:06
AI学术圈特点 - AI学术圈会议比期刊重要 因AI发展速度过快 期刊审稿周期无法满足需求 [5] - 顶会论文页数限制严格 优秀AI论文通常仅几页 与其他学科差异显著 [5] - 主要顶会投稿/录用数量暴增 例如AAAI 2014-2023录用数从398增至1721 投稿数从1406增至8777 录用率从28.31%降至19.60% [5][7] 顶会论文含金量现状 - 审稿人数量跟不上投稿增量 审稿质量下降 录用论文含金量参差不齐成为行业共识 [8] - 顶会录用者职业竞争加剧 优质岗位供给速度落后于录用者增长 类比其他学科学历贬值趋势 [8] - 中国机构贡献占比达1/3至1/2 商业公司参与度显著高于其他学科 高校资源处于劣势 [8] 理想汽车学术成果分析 - 自动驾驶团队5篇论文入选ICCV 基座模型团队另有3篇录用 公司强调学术成果重要性 [2][3] - 学术宣传本质是面向用户的辅助驾驶技术营销策略之一 [9] - VLA技术原始创新达到DeepSeek MoE级别 突破尺度介于MLA与Transformer之间 [11] 理想技术路径演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 [12] - VLM系统采用快慢双系统架构 快系统借鉴特斯拉 慢系统为完全自主创新 [12] - 技术开发逻辑类比增程车设计理念 通过差异化方案弥补算力/数据资源劣势 [12][13] 行业创新格局 - 中国公司中具备MoE级别原始创新能力的厂商数量远少于能批量产出顶会论文的公司 [1][11] - 商业公司实现顶会多篇论文收录门槛已大幅降低 但核心价值仍取决于实际技术突破 [8][10] - 理想VLA到VLM的技术演进路径已脱离跟随模式 形成自主创新体系 [12][13]
华为车BU招聘(端到端/感知模型/模型优化等)!岗位多多~
自动驾驶之心· 2025-06-24 15:21
华为车BU招聘信息 - 端到端模型算法工程师岗位职责包括模型设计开发部署迭代、现网问题优化、新算法预研落地及数据分布分析[1] - 感知模型算法工程师负责视觉感知神经网络设计开发部署迭代及长期研发[1] - 人脸状态监测算法工程师专注于驾驶员乘客姿态行为视线监测算法研发部署[1] - 模型效率优化岗位聚焦AI模型车端推理效率优化及压缩算法开发[1] 自动驾驶技术发展趋势 - 2025年技术基调确定为VLA(视觉语言动作)驱动的端到端2.0系统[9] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真及世界模型[9] - 技术迭代周期持续缩短,行业进入快速演进阶段[9] 自动驾驶之心知识星球概况 - 国内最大自动驾驶技术社区,成员近4000人[14] - 覆盖30+技术方向学习路线,包含感知定位规划控制等全栈内容[14] - 与数十家企业建立内推渠道,简历直达招聘方[14] - 每周活跃度居国内前20,日均成本不足1元[15] 技术资源体系 - 建立四大板块:学术进展追踪、专家答疑、内容下载、课程优惠[16] - 积累近5000份干货内容,每年举办100场行业直播[17] - 技术领域覆盖视觉大语言模型、世界模型、BEV感知等30+方向[19] - 视频直播涵盖50+子方向,年计划100场专业分享[21] 数据集与评估体系 - 视觉语言模型预训练数据集规模达5B图像文本对[29] - 自动驾驶专用数据集包含KITTI、NuScenes、Waymo等主流基准[34] - 语言增强驾驶数据集支持视觉问答、导航等复杂任务[35] - 评估指标覆盖图像分类、目标检测、语义分割等任务[30][33] 前沿技术应用 - 智能交通领域应用语言引导车辆检索、视觉问答等技术[36] - 自动驾驶感知方向实现开放词汇检测、语言引导跟踪等突破[37] - 定位规划领域探索语言条件导航、大模型轨迹生成等创新[38] - 决策控制方向开发基于LLM的可解释驾驶系统[39] 行业生态建设 - 嘉宾团队覆盖国内外顶尖高校和头部企业[112][114] - 成员来自地平线、蔚来、小鹏等企业及全球知名院校[117] - 日常维护包括论文分享、职位内推、技术问答等[120] - 持续邀请100+行业专家参与内容建设[112]
端到端系列!SpareDrive:基于稀疏场景表示的端到端自动驾驶~
自动驾驶之心· 2025-06-23 19:34
端到端自动驾驶技术研究 - 现有端到端方法存在两个主要问题:BEV范式算力消耗大,预测与规划串联式设计忽略自车信息且两者均为多模态问题 [2] - 提出SparseDrive解决方案:采用稀疏场景表示的端到端方法,实现预测与规划并行处理 [2] - 技术贡献包括:探索稀疏场景表示、分层规划选择策略、在nuScenes数据集达到SOTA水平 [5] 模型架构与训练 - 主体结构沿用地平线Sparse系列思想,包含特征提取、对称稀疏感知、平行运动规划器等模块 [5] - 采用多任务损失函数:${\mathcal{L}}={\mathcal{L}}_{d e t}+{\mathcal{L}}_{m a p}+{\mathcal{L}}_{m o t i o n}+{\mathcal{L}}_{p l a n}+{\mathcal{L}}_{d e p t h}$ [9] - 训练分为两个阶段:stage1从头训练稀疏感知模块(SparseDrive-S:100 epochs,lr 4×10-4),stage2微调(10 epochs,lr 3×10-4) [10] 性能对比 感知能力 - SparseDrive-B在3D检测指标全面领先:mAP 0.496 vs UniAD 0.380,NDS 0.588 vs 0.498 [11] - 多目标跟踪表现:AMOTA 0.501(SparseDrive-B)显著优于UniAD 0.359,Recall达0.601 [11] - 在线建图能力:MAP 56.2(SparseDrive-B)超越VectorMapNet 56.1和MapTR 58.7 [17] 运动预测与规划 - 预测指标:minADE 0.60m(SparseDrive-B)优于UniAD 0.71m,MR 0.132 vs 0.151 [18] - 规划指标:平均L2误差0.58m(SparseDrive-B),碰撞率0.06%显著低于UniAD 0.61% [18][24] - 效率优势:SparseDrive-S推理速度9FPS,显存占用1294M,远优于UniAD的1.8FPS/2451M [20] 工业级课程体系 - 课程覆盖端到端算法全链路:从基础模块(感知/预测/规划)到完全端到端方案(UniAD/VAD/SparseDrive等) [34][46] - 实战内容包含环境配置、数据加载、核心代码解析及可视化,配套UniAD和PlanT算法完整实现 [35][36] - 目标受众:自动驾驶领域研究生、算法工程师及转行人员,需具备Python/PyTorch基础及GPU环境 [55][56]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 22:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]
商汤绝影世界模型负责人离职。。。
自动驾驶之心· 2025-06-21 21:15
商汤绝影人事变动 - 商汤绝影世界模型研发负责人离职,该负责人曾负责云端技术体系建设和生成式智驾方案R-UniAD研发 [2] - 传闻该离职负责人可能选择创业 [3] 中阶市场动态 - 商汤绝影已在广汽传祺量产交付基于J6M的中阶方案 [4] - 2025年中阶市场将迎来重大升级,从高速NOA升级为全域NOA [4] - 头部公司推出轻量版城区NOA方案,可适配100 TOPS算力芯片,并已向主机厂推广演示 [4] - 算法方案每年迭代升级,跟不上节奏的玩家可能被市场淘汰 [4] 高阶市场布局 - 2025年高阶市场重点是一段式端到端方案,主机厂招标普遍要求该技术 [5] - 商汤绝影UniAD一段式端到端方案已与东风汽车合作,目标2025年Q4量产交付 [5] - 商汤绝影过去两年高阶领域存在感较弱,当前需通过标杆项目证明实力 [6] - 2025年是关键窗口期,主机厂释放大量高阶车型项目,后续机会将向10万价位车型下沉 [6] 商汤绝影战略关键 - 一段式端到端方案的量产交付效果将决定公司能否在高阶市场站稳脚跟 [7] - 高阶业务表现将直接影响公司融资前景 [8]
CVPR'25端到端冠军方案!GTRS:可泛化多模态端到端轨迹规划(英伟达&复旦)
自动驾驶之心· 2025-06-19 18:47
端到端自动驾驶挑战赛背景 - NAVSIM v2端到端自动驾驶挑战赛是CVPR 2025 Autonomous Grand Challenge的重要赛事之一,重点评估模型在复杂驾驶情境下的决策鲁棒性与安全性[1] - 测试集包含困难驾驶场景及3D渲染延伸场景,考验模型泛化能力[1] 团队与比赛成绩 - NVIDIA与复旦大学组成的团队获得NAVSIM v2挑战赛冠军[2] - 最终方案EPDMS指标达到49.4,创下当前最先进规划表现[14] 技术方案演进 - 从模仿学习扩散模型转向基于规则的知识蒸馏范式Hydra-MDP[2][4] - Hydra-MDP框架使用多模式轨迹候选与环境交互奖励信号,提升复杂场景决策安全性[4] - 新提出的GTRS框架融合动态生成与静态词表轨迹评分策略[5] GTRS框架核心技术 - 包含三大核心组件:扩散模型轨迹生成器、超密集轨迹词表、传感器视角扰动与精细化评分模块[5] - 动态轨迹生成弥补静态词表多样性不足,带来EPDMS指标+1.1%提升[7] - GTRS-Dense模型采用随机Dropout策略,实现EPDMS+1.4%性能提升[10] - GTRS-Aug模型引入传感器增强与轨迹精细化评分,EPDMS提升+2.8%[12] 模型集成策略 - 融合扩散策略生成的动态轨迹与静态词表轨迹[14] - 联合使用GTRS-Dense和GTRS-Aug等多评分器进行轨迹评估[14] - 集成方案充分发挥各模型在泛化性和鲁棒性方面的互补优势[14]
理想一篇论文入选近半年端到端自动驾驶推荐度最高的10篇论文
理想TOP2· 2025-06-18 19:43
端到端自动驾驶技术发展 - 近半年端到端自动驾驶领域推荐度最高的10篇论文由深蓝AI调研数十位一线研究者得出,涵盖扩散模型、视觉语言模型等技术路线[2][20][22] - 理想汽车与中科院计算所、清华联合发布的TransDiffuser论文入选TOP2,采用扩散模型生成轨迹,PDMS得分达94.85[3][10][15] - 行业呈现技术融合趋势,包括3DGS强化学习框架、VLM知识蒸馏、车路协同等创新方向[27][45][63] TransDiffuser技术架构 - 采用编码器-解码器结构,场景编码器处理图像/LiDAR数据生成多模态特征,去噪解码器基于DDPM迭代生成轨迹[10][11] - 关键创新包括无锚点轨迹生成和多模态去相关优化机制,解决模式崩溃问题并提升轨迹多样性[16] - 使用NAVSIM数据集训练,输入8视角图像+5传感器LiDAR,输出8个路径点覆盖4秒轨迹[15] 理想汽车技术路径 - 理想VLA采用单系统架构,通过diffusion将action token解码为轨迹,相比VLM双系统具备更强语义理解能力[4][7] - 技术实现上先输出action token再生成轨迹,未直接输出控制信号,未来可能扩展至油门方向盘控制[4][5] - 采用ODE采样器优化使diffusion在2-3步内生成稳定轨迹,解决传统扩散模型效率低的问题[7] 行业技术标杆 - UniAD获得CVPR 2023最佳论文,首次整合感知预测规划任务到统一框架,成为行业基准[69] - VAD提出矢量化自动驾驶范式,通过实例级规划约束提升安全性,获ICCV 2023奖项[69] - 行业综述论文系统分析250+篇研究,梳理端到端自动驾驶的挑战与未来趋势[69] 前沿技术方向 - 3DGS强化学习框架RAD实现碰撞率降低3倍,开创基于3DGS的RL训练范式[27][30] - VLM-AD通过文本注释数据集提炼VLM知识,使碰撞率降低57.4%[29][32] - HiP-AD采用可变形注意力机制,在nuScenes数据集实现0.7%闭环碰撞率[55][61]