自动驾驶之心

搜索文档
从BEV到端到端,谈谈自动驾驶数据闭环的核心~
自动驾驶之心· 2025-07-14 18:36
自动驾驶4D自动标注技术 核心观点 - 4D自动标注(3D空间+时间维度)成为自动驾驶数据闭环的核心竞争力,需解决时空一致性下的多任务联合标注问题(动态障碍物、静态元素、OCC、端到端标注)[1] - 自动标注算法(auto-labeling)是高精度离线真值生成系统,可突破车端算力限制,实现全时序数据优化,并挖掘corner case指导模型训练[1] - 行业痛点包括:跨传感器标定/遮挡处理、算法泛化性、标注质量筛选、自动化质检等,直接影响数据闭环迭代效率[2] 技术难点 1. **时空一致性**:需在连续帧中精准追踪动态目标轨迹,解决遮挡/形变导致的标注断裂[3] 2. **多模态融合**:激光雷达/相机/雷达数据需同步处理坐标对齐、语义统一和时延补偿[3] 3. **动态场景泛化**:交通参与者突发行为(急刹/变道)及恶劣天气增加标注模型适应性挑战[3] 4. **效率与成本**:高精度标注依赖人工校验,海量数据导致周期长,自动化算法复杂场景精度不足[3] 课程核心内容 - **动态障碍物标注**: - 涵盖离线3D检测(SAFDNet算法)、多目标跟踪(DetZero实战)、误漏检优化及数据质检[7] - **SLAM重建**: - 激光&视觉SLAM算法原理(Graph-based方案)及在静态标注中的应用[8][10] - **OCC标注**: - 基于Lidar/视觉的稠密化点云方案,优化跨传感器遮挡场景[11] - **端到端真值生成**: - 一段式/两段式实现方案,整合动态障碍物/静态元素/自车轨迹,含DrivingGaussian闭环仿真实战[12] 行业趋势 - 数据驱动架构面临scaling law有效性验证,需解决跨传感器/感知系统协同问题[13] - 量产场景泛化要求覆盖不同城市/道路/天气数据,标注算法性能需持续优化[3] 技术应用价值 - 掌握4D自动标注全流程可提升算法研发能力,覆盖学术界(CVPR 2024算法)与工业界(特斯拉Occupancy Network等量产技术)前沿[7][11][18]
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 14:20
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需要关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调大模型等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受到行业重点关注 [1] 大模型优化课程介绍 - 课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键技术 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式 [2] 课程解决的问题 - 帮助学员系统掌握大模型相关理论知识,形成清晰的体系 [3] - 解决动手能力差、无法复现论文的问题,协助开发设计新模型 [3] - 解决论文写作和投稿难题,积累写作方法论并获得投稿建议 [3] 课程收获 - 掌握大模型优化的核心算法,包括结构化剪枝、低比特量化、动态检索等关键技术 [9] - 获得Coding能力增强,在baseline代码和可用数据集上高效展开研究 [9] - 撰写出论文初稿,可能产出一篇不错的论文 [9] 课程大纲 - 大模型剪枝与稀疏化算法优化:详解让大模型体积更小、运行更快的方法 [19] - 大模型量化加速全景:从数据位宽到编译来优化大模型的加速 [19] - 参数高效微调(PEFT)革命:介绍用少量计算资源让大模型适应垂类任务的高效微调算法 [19] - 基于RAG的大模型知识动态扩展范式:解决大模型的事实性错误和知识更新滞后问题 [19] - Chain-of-Thought推理进阶:针对让大模型分步骤思考解决复杂问题的算法进行深入剖析 [19] 课程资源 - 提供Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目 [16] - 必读基础论文包括GPTQ、Sheared LLaMA、TVM等 [18] - 数据集来自于公开数据集,根据具体任务选用 [13] 招生要求 - 具备深度学习/机器学习基础,熟悉Python和PyTorch [6] - 最好具备4张4090显卡或以上设备性能的机器,最低不少于2张4090显卡 [15] - 掌握基本的编程语言,熟练使用PyTorch等深度学习框架 [15]
推荐几个PNC和端到端岗位(待遇丰厚)
自动驾驶之心· 2025-07-14 14:20
自动驾驶行业招聘信息 - 头部自动驾驶供应商招聘规控算法工程师/PNC专家 月薪40k-100k 工作地点北京/上海 负责决策规划控制算法开发及前沿技术跟踪 [2][5] - 端到端/VLA工程师岗位 月薪30k-80k 工作地点深圳/上海 负责端到端驾驶系统研发与模型优化 需掌握深度学习框架及自动驾驶算法 [4] - 端到端/视觉算法与工程专家 月薪40k-80k 工作地点上海/苏州 负责视觉感知算法研发 要求计算机视觉基础扎实且有相关研究经验 [6][9][10] 行业知识平台内容 - AutoRobo知识星球聚集近1000名行业从业者 涵盖地平线/理想/华为等企业员工及应届生 提供求职交流平台 [11] - 平台提供自动驾驶领域专业资料 包括毫米波融合/BEV感知/多传感器标定等专题的"一百问"技术文档 [17][18] - 汇集行业深度研报 涵盖具身智能/人形机器人等领域发展现状及趋势分析 [23][24] 求职辅助资源 - 整理各类岗位面经 包括决策规划/SLAM/算法工程师等岗位的面试流程及技术问题 [26][30] - 提供谈薪技巧指导 包含HR面常见问题及薪资谈判策略 [28][31] - 汇总专业书籍资源 涵盖机器人/自动驾驶/AI等领域的学习材料 [29] 岗位能力要求 - 规控算法岗位要求硕士学历 需掌握C++/Python及MPC/PID等算法 有Apollo等开源项目经验优先 [5] - 视觉算法岗位要求3年以上经验 熟悉PyTorch框架 有顶会论文或竞赛获奖经历者优先 [9][10] - 普遍要求跟踪学术前沿技术 具备独立解决问题能力及团队协作精神 [5][10]
地平线、滴滴出行2026届校园招聘正式开启!
自动驾驶之心· 2025-07-13 21:18
自动驾驶行业校招动态 - 2026届校招已开启 地平线、滴滴、元戎启行等公司释放大量岗位 涉及感知、规控、端到端、大模型等方向[2] - 具身智能与自动驾驶融合趋势明显 多家公司新增相关岗位[2] - 技术面试集中在7月底至8月初 建议求职者充分准备简历和面试[2] 地平线校招岗位详情 - 硬件开发工程师:工作地点覆盖北京、上海 招聘人数若干[3] - 感知后处理工程师:聚焦人机交互方向 软件序列岗位[3] - 中间件软件工程师:双城工作地点可选[3] - 规划控制算法工程师:含端到端方向 覆盖北京、上海、香港三地[3] - 端到端智驾数据工程师:算法序列核心岗位[3] 滴滴自动驾驶岗位 - 规划算法工程师:工作内容包含交互建模与决策规划 地点覆盖广州、上海[4] - 多模态端到端算法工程师:研究热点方向 涉及数据驱动建模[5] - 定位算法工程师:需构建高精度定位系统 工作地含广州、上海[6] 求职资源平台 - AutoRobo知识星球成员近1000人 涵盖地平线、理想、华为等企业员工及求职者[8] - 提供面试题库:包含毫米波融合、BEV感知、轨迹预测等18个技术方向专项问答[12][13][17] - 行业研报覆盖机器人、具身智能发展蓝皮书等深度资料[18] 面试与职业发展 - 汇总滴滴、英伟达、小米等企业真实面经 含成功与失败案例[20] - 提供谈薪技巧与HR面应答策略 包含岗位薪酬关键回答模板[22][25] - 专业书籍推荐:涵盖机器人、自动驾驶、AI领域基础技能树[23]
面试了很多端到端候选人,发现还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-13 21:18
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可达百万年薪 [2] - 端到端系统实现从传感器输入到车辆规划/控制信息的直接建模 避免模块化方法间的误差累积 BEV感知打通模块化壁垒 UniAD统一感知和规划任务 [2] - 学术界和工业界聚焦端到端技术 衍生出多种算法流派 UniAD并非最终解 新算法不断涌现 [2] 端到端技术发展现状 - 技术方向包括多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂 论文数量繁多 知识碎片化 [4] - 高质量文档缺乏 提高入门难度 学习目标驱动导航需结合实战 但缺乏系统指导 难以从理论过渡到实践 [4] - 最新技术流派包括:PLUTO为代表的二段式端到端 UniAD为代表的基于感知的一段式端到端 OccWorld为代表的基于世界模型的一段式端到端 DiffusionDrive为代表的基于扩散模型的一段式端到端 [9] 端到端课程体系 - 课程特点:直击痛点快速入门 构建领域框架提升研究能力 理论结合实践学以致用 [5][6][7] - 课程大纲:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA 课程大作业 [11][12][13][15] - 重点章节:一段式端到端与VLA为课程精华 涵盖基于感知/世界模型/扩散模型/VLA的四大子领域 [13] 技术深度解析 - 二段式端到端:分析PLUTO CarPlanner Plan-R1等经典与前沿工作 对比一段式优缺点 [12] - 一段式端到端:UniAD和VAD为奠基作 PARA-Drive为最新进展 世界模型应用广泛 扩散模型实现多模轨迹预测 VLA为当前技术皇冠 [13] - 关键技术:Transformer CLIP LLAVA BEV感知 扩散模型 RLHF GRPO等构成完整技术栈 [14] 课程实施细节 - 开课时间8月15日 三个月完成 采用离线视频教学+VIP群答疑+三次线上答疑模式 [20] - 学员需自备4090及以上GPU 具备自动驾驶基础 熟悉Transformer 强化学习 BEV感知等技术概念 [22] - 预期成果:达到1年经验算法工程师水平 掌握端到端技术框架 可复现主流算法 应用于实际项目 [22]
三星最新MoSE:专为自驾Corner Case设计的MoE,直接SOTA!
自动驾驶之心· 2025-07-13 21:18
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 三星中国研究院&DS AI中心 最新的工作! MoSE: 面向自动驾驶的 Skill-by-Skill 混合专家学习框架!难例场景新SOTA。 如果您有 相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | LU XU等 编辑 | 自动驾驶之心 写在前面 & 笔者的个人理解 近期研究表明,使用网络规模数据训练的大型语言模型(LLMs)和视觉语言模型(VLMs)能够增强端到端自 动驾驶系统的泛化能力和解释能力。具体而言,通过动态地将输入路由到参数的专业子集,专家混合(MoE)技 术使得通用的LLM或VLM在保持计算效率的同时实现了显著的性能提升。 然而,一般的MoE模型通常需要大量的训练数据和复杂的优化过程。在这项工作中,受人类驾驶员学习过程的启 发,我们提出了一种面向技能的MoE方法,称为MoSE,它模拟了人类驾驶员的学习和推理过程,逐技能、 ...
为什么行业如此痴迷于强化学习?
自动驾驶之心· 2025-07-13 21:18
核心观点 - 强化学习(RL)相比监督微调(SFT)能显著提升大语言模型的泛化能力,尤其在跨领域任务迁移中表现更优 [5][6][14] - 数学推理能力的提升可正向迁移至其他理科领域,验证了RL训练对机器智能发展的关键作用 [7][15] - SFT训练会导致模型在非推理任务上出现负向迁移(TI_non达113.7),而RL模型保持稳定(TI_non仅36.9) [7][12] 训练方法对比 - **模仿学习(SFT)**:依赖高质量数据集直接复制解题过程,但导致模型输出冗长(3000+重复token)且破坏原有知识结构(158-390个无关token变化) [6][13][16] - **强化学习(RL)**:仅提供最终答案奖励,模型自主探索解题路径,保持表示空间稳定(仅14-15个任务相关token变化) [10][11][16] 实验设计 - 使用相同基础模型(Qwen3-14B-Base)和数学数据集(47K问题)对比RL与SFT效果 [11] - 可迁移指数量化显示:RL模型在数学/其他推理/非推理任务的TI分别为8.5/3.5/36.9,显著优于SFT模型(21.4/10.9/113.7) [8][12] - PCA分析证实RL模型的表示漂移距离最小,知识结构保留度最佳 [10] 案例表现 - 数学问题求解:RL模型直接建立方程(简洁),SFT模型产生大量冗余检查步骤 [13] - 非推理任务:RL模型高效完成辞职邮件,SFT模型陷入过度思考循环 [13] 行业意义 - 研究为Grok 4等新一代RL训练范式提供了理论支撑,证明探索式学习更接近人类智能发展路径 [1][14][15] - 数学能力作为基础学科的迁移效应,验证了跨领域知识转移对AI系统的重要性 [7][15]
自动驾驶论文速递 | 多模态大模型、运动规划、场景理解等~
自动驾驶之心· 2025-07-13 16:10
自动驾驶算法模型研究进展 - MCAM模型在BDD-X数据集上驾驶行为描述任务BLEU-4提升至35.7%,推理任务BLEU-4提升至9.1%,显著优于DriveGPT4等基线模型[1] - TigAug技术使交通灯检测模型错误识别率降低39.8%,增强数据重新训练后mAP平均提升67.5%[12][17] - LeAD系统在CARLA仿真平台实现71.96驾驶分,路线完成率93.43%,超越现有基线模型[23][27] - DRO-EDL-MPC算法计算效率提升5倍,不确定场景下碰撞率接近于零[33][40] - 3DGS-LSR框架在KITTI数据集实现厘米级定位,城镇道路误差0.026m,林荫道误差0.029m[43][47] 自动驾驶数据集与框架创新 - NavigScene框架使nuScenes数据集平均L2轨迹误差降低至0.76m,比基线提升24%,碰撞率从32.48‱降至20.71‱[52][58] - LiMA框架在nuScenes数据集LiDAR语义分割mIoU达56.67%,3D目标检测mCE降至91.43%[61][68] - L4 Motion Forecasting数据集包含德美两国400+小时原始数据,覆盖250km独特道路[78][82] - 动态掩码与相对动作空间缩减策略使CARLA仿真训练效率提升2倍,车道偏离降低至0.07米[71][76] 技术突破与性能提升 - DSDAG因果图建模自车状态动态演化,为驾驶视频理解提供结构化理论基础[5] - TigAug单张图像合成耗时0.88秒,模型重训练平均耗时36小时[13] - LeAD系统通过LLM增强实现场景语义理解和类人逻辑推理[25] - DR-EDL-CVaR约束同时处理数据不确定性和模型不确定性[38] - 3DGS-LSR摆脱对GNSS依赖,仅用单目RGB图像实现厘米级重定位[46]
4000人的自动驾驶黄埔军校,死磕技术分享与求职交流~
自动驾驶之心· 2025-07-12 22:43
智能驾驶行业现状 - 2025年智能驾驶行业呈现分化态势,部分从业者转向具身智能领域,但多数仍坚守原赛道 [2] - 头部企业持续高薪招聘人才,应届生薪资可达45k*16薪,超越2-3年经验社招水平 [2] - 行业技术迭代周期明显缩短,2025年技术基调确定为VLA(视觉语言行动)架构 [7] 核心技术趋势 - 大模型赋能端到端2.0技术成为主流方向,涵盖视觉大语言模型基座、扩散模型轨迹预测等技术栈 [7] - 世界模型成为关键技术,涉及3DGS生成技术、闭环仿真等前沿领域 [7] - 视觉语言模型(VLM)在感知任务中应用广泛,包括预训练、迁移学习和知识蒸馏等方法 [19][20][21] 自动驾驶社区生态 - 自动驾驶之心知识星球已成为国内最大专业社区,拥有近4000名成员和100+行业专家 [11] - 社区构建完整技术闭环,涵盖课程体系(9大视频教程)、硬件开发(标定板、机械臂)和实战项目 [3] - 与近200家企业建立合作,包括小米汽车、地平线、英伟达等头部公司,提供内推渠道 [7][66] 行业应用场景 - 智能交通领域应用语言引导车辆检索、视觉问答等技术,提升系统交互能力 [30] - 自动驾驶感知模块融合视觉语言模型,实现开放词汇目标检测和语义分割 [31] - 决策控制系统结合大语言模型,开发可解释的轨迹预测和运动规划方案 [32][33] 数据集发展 - 视觉语言预训练数据集规模显著扩大,LAION5B包含50亿图文对,WebLI达120亿规模 [23] - 自动驾驶专用数据集持续丰富,NuScenes、Waymo Open Dataset支持多任务学习 [28] - 语言增强数据集兴起,如NuScenes-QA支持视觉问答任务,推动人车交互发展 [29] 人才发展体系 - 社区建立30+技术学习路线,覆盖BEV感知、Occupancy等40个方向 [11] - 求职板块包含100问系列(TensorRT部署、BEV感知等)和面经分享,直击企业需求 [66][68] - 直播体系每年规划100场,邀请CVPR/ICCV作者和车企专家分享量产经验 [15][16]
某智驾公司一言难尽的融资。。。
自动驾驶之心· 2025-07-12 20:00
自动驾驶行业融资动态 - 某智驾公司因估值过高且量产项目稀少导致融资困难,估值接近头部企业但缺乏实际项目支撑 [3] - 该公司与头部车企达成特殊融资协议:车企投资智驾公司后,资金需全额返投至车企旗下经营困难的零部件子公司 [4] - 该操作实质为资金循环流转,旨在为车企子公司创造外部融资的公关宣传点,类似操作在该车企已有先例 [4] 行业竞争格局分化 - 头部智驾公司凭借算法优势与量产能力持续获得项目,年融资轮次可达1-2轮,形成良性发展循环 [5] - 技术实力薄弱的企业面临项目获取与融资双重困境,仅能获得有限市场份额 [5] - 2023年智驾市场竞争加剧,企业生存状态呈现"冰火两重天"两极分化 [5] 行业发展核心要素 - 实际量产交付能力被视为企业长期发展的关键,超越技术概念炒作的重要性 [5] - 算法性能提升与工程化落地能力是获得市场认可的基础要素 [5] - 部分企业为维系客户关系选择配合资本运作,但可能偏离技术深耕主线 [4][5] 技术发展趋势 - 行业聚焦端到端自动驾驶、世界模型等前沿技术方向 [7][9] - 感知技术领域形成BEV感知、Occupancy等30+技术路线矩阵 [7] - 大模型技术正渗透至感知、决策等多个技术环节 [7][9]