Workflow
自动驾驶之心
icon
搜索文档
ICCV25!百度U-Vilar:视觉定位多任务SOTA,无痛兼容端到端框架~
自动驾驶之心· 2025-07-14 19:30
百度U-ViLAR视觉定位框架 - 核心解决城市环境中GNSS信号受建筑物干扰导致的定位不可靠问题 通过视觉定位技术实现高精度定位 [2] - 创新性采用感知不确定性(PU)和定位不确定性(LU)双模块解耦设计 突破传统方法对光照/视角敏感和大规模3D地图构建成本高的限制 [2][4] - 在nuScenes数据集横向定位召回率@1m达69.12% 较OrienterNet-S提升17.86个百分点 航向角召回率@3°达94.84% [23] 技术架构 BEV特征处理 - 采用ResNet主干网络提取多视图图像特征 通过BEVFormer投影至鸟瞰图空间 支持HD Map与OpenStreetMap双地图输入 [6][7] - 创新跨模态融合机制 交替使用自注意力(SA)和交叉注意力(CA)增强视觉与地图特征关联性 [8] 不确定性建模 - PU模块生成像素级不确定性图 通过高斯核构造软标签监督矩阵 全局关联采用交叉熵损失 局部关联使用对称交叉熵损失 [10][13][14] - LU模块对平移/旋转三自由度离散化建模 通过香农熵量化不确定性 构建3D联合概率分布实现128m×128m大范围搜索 [15][17] 性能表现 - 在SRoad复杂道路数据集(含50万+帧)中 横向定位@5m召回率达88.03% 较基线提升3.52个百分点 [22][23] - 实时性达28FPS(V100 GPU) 经优化后可在Orin平台实现15FPS 满足车载算力要求 [20] - 消融实验证实去除PU或LU模块会导致定位误差显著增加 横向MAE从0.040m恶化至0.064m [24][25] 应用前景 - 已验证支持HD Map和开源地图(OSM)双模式输入 在KITTI 39.2公里里程数据中纵向定位@5m召回率70.20% [22][23] - 未来将扩展至交叉口/高架桥等复杂场景 目标建立跨数据集统一模型 [26]
VLA之外,具身+VA工作汇总
自动驾驶之心· 2025-07-14 18:36
具身智能领域研究进展 - 2025年将涌现大量具身智能与视觉动作融合的研究成果,涵盖机器人操作、全身控制、sim2real迁移等方向,其中字节跳动Seed团队提出Chain-of-Action轨迹自回归建模方法[2] - 扩散策略成为主流技术路线,涉及潜在空间强化学习(Steering Your Diffusion Policy)、模态组合扩散(Modality-Composable Diffusion Policy)、响应式噪声中继扩散(Responsive Noise-Relaying Diffusion Policy)等变体[2][3][4] - 单次学习(One-Shot)技术取得突破,包括You Only Teach Once双手机器人操作、FUNCTO工具操作模仿、Human2Robot人机视频配对学习等方案[2][3][5] 机器人操作技术创新 - 灵巧操作领域出现AnyDexGrasp通用抓取系统,学习效率达到人类水平,支持不同手型适配[3] - 触觉融合技术发展显著,包含Adaptive Visuo-Tactile Fusion多感官融合、KineDex触觉运动教学、Tactile Beyond Pixels多模态触觉表征等方案[3][7] - 非prehensile操作取得进展,DyWA动力学自适应模型实现通用化非抓取操作,SPOT基于SE(3)的物体中心轨迹扩散提升操作精度[5][8] 仿真到现实迁移 - sim2real技术出现FetchBot零样本迁移方案,可在杂乱货架实现物体抓取[3] - 世界模型应用广泛,LaDi-WM基于潜在扩散的预测模型、GAF高斯动作场动态模型、World4Omni零样本框架等提升跨域迁移能力[7][9] - 数据生成技术突破,DemoGen合成演示生成、GraspMolmo大规模合成数据生成等方法解决数据效率问题[3][7] 算法架构演进 - 2024年扩散策略持续优化,出现1B参数规模的Transformer扩散策略(Scaling diffusion policy)、Consistency Policy一致性蒸馏加速、One-Step Diffusion单步蒸馏等高效方案[9][11] - 3D表征成为新趋势,3D Diffuser Actor、GenDP 3D语义场、Lift3D 2D升维等方法增强空间理解[9][11] - 多任务学习框架创新,包含MoE-Loco专家混合架构、H3DP三重层次扩散策略、Mamba Policy混合选择状态模型等[5][9] 人机交互技术 - 人类示范利用效率提升,Phantom仅用人类视频训练、ZeroMimic从网络视频蒸馏、HACTS人类协同驾驶系统等方法降低数据依赖[4][5][7] - 跨具身学习取得进展,SHADOW利用分割掩码跨具身迁移、UniSkill跨具身技能表征实现视频模仿[4][6] - 人形机器人技术突破,HumanoidPano全景-LiDAR跨模态感知、Trinity模块化AI系统、Distillation-PPO两阶段强化学习框架等推动发展[5]
从BEV到端到端,谈谈自动驾驶数据闭环的核心~
自动驾驶之心· 2025-07-14 18:36
自动驾驶4D自动标注技术 核心观点 - 4D自动标注(3D空间+时间维度)成为自动驾驶数据闭环的核心竞争力,需解决时空一致性下的多任务联合标注问题(动态障碍物、静态元素、OCC、端到端标注)[1] - 自动标注算法(auto-labeling)是高精度离线真值生成系统,可突破车端算力限制,实现全时序数据优化,并挖掘corner case指导模型训练[1] - 行业痛点包括:跨传感器标定/遮挡处理、算法泛化性、标注质量筛选、自动化质检等,直接影响数据闭环迭代效率[2] 技术难点 1. **时空一致性**:需在连续帧中精准追踪动态目标轨迹,解决遮挡/形变导致的标注断裂[3] 2. **多模态融合**:激光雷达/相机/雷达数据需同步处理坐标对齐、语义统一和时延补偿[3] 3. **动态场景泛化**:交通参与者突发行为(急刹/变道)及恶劣天气增加标注模型适应性挑战[3] 4. **效率与成本**:高精度标注依赖人工校验,海量数据导致周期长,自动化算法复杂场景精度不足[3] 课程核心内容 - **动态障碍物标注**: - 涵盖离线3D检测(SAFDNet算法)、多目标跟踪(DetZero实战)、误漏检优化及数据质检[7] - **SLAM重建**: - 激光&视觉SLAM算法原理(Graph-based方案)及在静态标注中的应用[8][10] - **OCC标注**: - 基于Lidar/视觉的稠密化点云方案,优化跨传感器遮挡场景[11] - **端到端真值生成**: - 一段式/两段式实现方案,整合动态障碍物/静态元素/自车轨迹,含DrivingGaussian闭环仿真实战[12] 行业趋势 - 数据驱动架构面临scaling law有效性验证,需解决跨传感器/感知系统协同问题[13] - 量产场景泛化要求覆盖不同城市/道路/天气数据,标注算法性能需持续优化[3] 技术应用价值 - 掌握4D自动标注全流程可提升算法研发能力,覆盖学术界(CVPR 2024算法)与工业界(特斯拉Occupancy Network等量产技术)前沿[7][11][18]
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 14:20
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需要关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调大模型等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受到行业重点关注 [1] 大模型优化课程介绍 - 课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键技术 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式 [2] 课程解决的问题 - 帮助学员系统掌握大模型相关理论知识,形成清晰的体系 [3] - 解决动手能力差、无法复现论文的问题,协助开发设计新模型 [3] - 解决论文写作和投稿难题,积累写作方法论并获得投稿建议 [3] 课程收获 - 掌握大模型优化的核心算法,包括结构化剪枝、低比特量化、动态检索等关键技术 [9] - 获得Coding能力增强,在baseline代码和可用数据集上高效展开研究 [9] - 撰写出论文初稿,可能产出一篇不错的论文 [9] 课程大纲 - 大模型剪枝与稀疏化算法优化:详解让大模型体积更小、运行更快的方法 [19] - 大模型量化加速全景:从数据位宽到编译来优化大模型的加速 [19] - 参数高效微调(PEFT)革命:介绍用少量计算资源让大模型适应垂类任务的高效微调算法 [19] - 基于RAG的大模型知识动态扩展范式:解决大模型的事实性错误和知识更新滞后问题 [19] - Chain-of-Thought推理进阶:针对让大模型分步骤思考解决复杂问题的算法进行深入剖析 [19] 课程资源 - 提供Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目 [16] - 必读基础论文包括GPTQ、Sheared LLaMA、TVM等 [18] - 数据集来自于公开数据集,根据具体任务选用 [13] 招生要求 - 具备深度学习/机器学习基础,熟悉Python和PyTorch [6] - 最好具备4张4090显卡或以上设备性能的机器,最低不少于2张4090显卡 [15] - 掌握基本的编程语言,熟练使用PyTorch等深度学习框架 [15]
推荐几个PNC和端到端岗位(待遇丰厚)
自动驾驶之心· 2025-07-14 14:20
自动驾驶行业招聘信息 - 头部自动驾驶供应商招聘规控算法工程师/PNC专家 月薪40k-100k 工作地点北京/上海 负责决策规划控制算法开发及前沿技术跟踪 [2][5] - 端到端/VLA工程师岗位 月薪30k-80k 工作地点深圳/上海 负责端到端驾驶系统研发与模型优化 需掌握深度学习框架及自动驾驶算法 [4] - 端到端/视觉算法与工程专家 月薪40k-80k 工作地点上海/苏州 负责视觉感知算法研发 要求计算机视觉基础扎实且有相关研究经验 [6][9][10] 行业知识平台内容 - AutoRobo知识星球聚集近1000名行业从业者 涵盖地平线/理想/华为等企业员工及应届生 提供求职交流平台 [11] - 平台提供自动驾驶领域专业资料 包括毫米波融合/BEV感知/多传感器标定等专题的"一百问"技术文档 [17][18] - 汇集行业深度研报 涵盖具身智能/人形机器人等领域发展现状及趋势分析 [23][24] 求职辅助资源 - 整理各类岗位面经 包括决策规划/SLAM/算法工程师等岗位的面试流程及技术问题 [26][30] - 提供谈薪技巧指导 包含HR面常见问题及薪资谈判策略 [28][31] - 汇总专业书籍资源 涵盖机器人/自动驾驶/AI等领域的学习材料 [29] 岗位能力要求 - 规控算法岗位要求硕士学历 需掌握C++/Python及MPC/PID等算法 有Apollo等开源项目经验优先 [5] - 视觉算法岗位要求3年以上经验 熟悉PyTorch框架 有顶会论文或竞赛获奖经历者优先 [9][10] - 普遍要求跟踪学术前沿技术 具备独立解决问题能力及团队协作精神 [5][10]
地平线、滴滴出行2026届校园招聘正式开启!
自动驾驶之心· 2025-07-13 21:18
自动驾驶行业校招动态 - 2026届校招已开启 地平线、滴滴、元戎启行等公司释放大量岗位 涉及感知、规控、端到端、大模型等方向[2] - 具身智能与自动驾驶融合趋势明显 多家公司新增相关岗位[2] - 技术面试集中在7月底至8月初 建议求职者充分准备简历和面试[2] 地平线校招岗位详情 - 硬件开发工程师:工作地点覆盖北京、上海 招聘人数若干[3] - 感知后处理工程师:聚焦人机交互方向 软件序列岗位[3] - 中间件软件工程师:双城工作地点可选[3] - 规划控制算法工程师:含端到端方向 覆盖北京、上海、香港三地[3] - 端到端智驾数据工程师:算法序列核心岗位[3] 滴滴自动驾驶岗位 - 规划算法工程师:工作内容包含交互建模与决策规划 地点覆盖广州、上海[4] - 多模态端到端算法工程师:研究热点方向 涉及数据驱动建模[5] - 定位算法工程师:需构建高精度定位系统 工作地含广州、上海[6] 求职资源平台 - AutoRobo知识星球成员近1000人 涵盖地平线、理想、华为等企业员工及求职者[8] - 提供面试题库:包含毫米波融合、BEV感知、轨迹预测等18个技术方向专项问答[12][13][17] - 行业研报覆盖机器人、具身智能发展蓝皮书等深度资料[18] 面试与职业发展 - 汇总滴滴、英伟达、小米等企业真实面经 含成功与失败案例[20] - 提供谈薪技巧与HR面应答策略 包含岗位薪酬关键回答模板[22][25] - 专业书籍推荐:涵盖机器人、自动驾驶、AI领域基础技能树[23]
面试了很多端到端候选人,发现还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-13 21:18
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可达百万年薪 [2] - 端到端系统实现从传感器输入到车辆规划/控制信息的直接建模 避免模块化方法间的误差累积 BEV感知打通模块化壁垒 UniAD统一感知和规划任务 [2] - 学术界和工业界聚焦端到端技术 衍生出多种算法流派 UniAD并非最终解 新算法不断涌现 [2] 端到端技术发展现状 - 技术方向包括多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂 论文数量繁多 知识碎片化 [4] - 高质量文档缺乏 提高入门难度 学习目标驱动导航需结合实战 但缺乏系统指导 难以从理论过渡到实践 [4] - 最新技术流派包括:PLUTO为代表的二段式端到端 UniAD为代表的基于感知的一段式端到端 OccWorld为代表的基于世界模型的一段式端到端 DiffusionDrive为代表的基于扩散模型的一段式端到端 [9] 端到端课程体系 - 课程特点:直击痛点快速入门 构建领域框架提升研究能力 理论结合实践学以致用 [5][6][7] - 课程大纲:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA 课程大作业 [11][12][13][15] - 重点章节:一段式端到端与VLA为课程精华 涵盖基于感知/世界模型/扩散模型/VLA的四大子领域 [13] 技术深度解析 - 二段式端到端:分析PLUTO CarPlanner Plan-R1等经典与前沿工作 对比一段式优缺点 [12] - 一段式端到端:UniAD和VAD为奠基作 PARA-Drive为最新进展 世界模型应用广泛 扩散模型实现多模轨迹预测 VLA为当前技术皇冠 [13] - 关键技术:Transformer CLIP LLAVA BEV感知 扩散模型 RLHF GRPO等构成完整技术栈 [14] 课程实施细节 - 开课时间8月15日 三个月完成 采用离线视频教学+VIP群答疑+三次线上答疑模式 [20] - 学员需自备4090及以上GPU 具备自动驾驶基础 熟悉Transformer 强化学习 BEV感知等技术概念 [22] - 预期成果:达到1年经验算法工程师水平 掌握端到端技术框架 可复现主流算法 应用于实际项目 [22]
三星最新MoSE:专为自驾Corner Case设计的MoE,直接SOTA!
自动驾驶之心· 2025-07-13 21:18
文章核心观点 - 提出一种名为MoSE(Skill-by-Skill Mixture-of-Expert)的新型混合专家学习框架,专门用于提升自动驾驶系统的推理能力[2][8] - 该方法模拟人类驾驶员的学习过程,通过逐技能、分层次的路由机制,使小规模视觉语言模型(<3B参数)在自动驾驶难例推理任务上达到或超越更大规模模型(8B+参数)的性能[2][10] - 在CODA数据集上的实验结果显示,MoSE模型在激活参数少于30亿的情况下,综合得分达到66.03,超越了多个80亿参数以上的专业模型[34][35] 技术方法创新 - 引入以技能为中心的路由机制,首先定义驾驶任务所需的基本技能,然后通过规则或大型VLM(如GPT-4o)对数据进行技能标注,引导专家网络针对不同驾驶场景和阶段进行专业化学习[13][14][17] - 采用分层路由策略,将驾驶任务分解为感知、预测、规划等层次,使模型能够以逐步推理的方式生成答案,提高不同层次问题回答的一致性[8][15] - 在MoSE层中设计共享专家和技能专用专家组合,共享专家始终激活以捕捉全局信息,技能专家则针对特定场景和阶段进行优化[21] 性能优势 - 在CODA自动驾驶极端情况推理任务中,MoSE模型在综合得分上达到66.03,优于专业模型如CODA-8B(63.62)和DriveMM-8B(64.18)[34] - 与基线模型Qwen2-VL SFT(62.50)和普通MoE方法(64.33)相比,MoSE在保持模型规模较小(<3B参数)的情况下实现了性能提升[34][35] - 模型在单轮问答中完成多轮对话的任务,避免了额外的计算成本,激活参数数量相比现有方法减少至少62.5%[2][10] 数据效率与可扩展性 - MoSE方法仅需少量技能标注数据(如2000个样本)即可有效训练路由器,扩大标注数据规模(如3000个样本)并未带来显著性能提升,表明该方法对数据需求较低[42][43] - 通过专家组扩展策略,在不重新训练路由器的情况下增强模型能力,例如为不同模态(文本、图像)分配专用专家,进一步提升性能[23][34] - 在DriveLM数据集上的扩展实验表明,MoSE能够适配不同骨干模型(如StableLM-1.6B)和任务设置,验证其跨数据集的泛化能力[45][46] 行业应用潜力 - 该技术为自动驾驶领域提供了一种高效利用小规模模型实现复杂推理任务的解决方案,有助于降低系统部署的计算成本和能耗[7][10] - 分层技能路由机制增强了模型的可解释性,通过结构化推理链(如对象检测→行为预测→优先级评估)提供调试线索,提升用户对模型的信任[15][48] - 方法可扩展至其他需要多模态理解和实时决策的领域,如机器人技术,为高智能应用系统的开发提供新思路[5][48]
为什么行业如此痴迷于强化学习?
自动驾驶之心· 2025-07-13 21:18
核心观点 - 强化学习(RL)相比监督微调(SFT)能显著提升大语言模型的泛化能力,尤其在跨领域任务迁移中表现更优 [5][6][14] - 数学推理能力的提升可正向迁移至其他理科领域,验证了RL训练对机器智能发展的关键作用 [7][15] - SFT训练会导致模型在非推理任务上出现负向迁移(TI_non达113.7),而RL模型保持稳定(TI_non仅36.9) [7][12] 训练方法对比 - **模仿学习(SFT)**:依赖高质量数据集直接复制解题过程,但导致模型输出冗长(3000+重复token)且破坏原有知识结构(158-390个无关token变化) [6][13][16] - **强化学习(RL)**:仅提供最终答案奖励,模型自主探索解题路径,保持表示空间稳定(仅14-15个任务相关token变化) [10][11][16] 实验设计 - 使用相同基础模型(Qwen3-14B-Base)和数学数据集(47K问题)对比RL与SFT效果 [11] - 可迁移指数量化显示:RL模型在数学/其他推理/非推理任务的TI分别为8.5/3.5/36.9,显著优于SFT模型(21.4/10.9/113.7) [8][12] - PCA分析证实RL模型的表示漂移距离最小,知识结构保留度最佳 [10] 案例表现 - 数学问题求解:RL模型直接建立方程(简洁),SFT模型产生大量冗余检查步骤 [13] - 非推理任务:RL模型高效完成辞职邮件,SFT模型陷入过度思考循环 [13] 行业意义 - 研究为Grok 4等新一代RL训练范式提供了理论支撑,证明探索式学习更接近人类智能发展路径 [1][14][15] - 数学能力作为基础学科的迁移效应,验证了跨领域知识转移对AI系统的重要性 [7][15]
自动驾驶论文速递 | 多模态大模型、运动规划、场景理解等~
自动驾驶之心· 2025-07-13 16:10
自动驾驶算法模型研究进展 - MCAM模型在BDD-X数据集上驾驶行为描述任务BLEU-4提升至35.7%,推理任务BLEU-4提升至9.1%,显著优于DriveGPT4等基线模型[1] - TigAug技术使交通灯检测模型错误识别率降低39.8%,增强数据重新训练后mAP平均提升67.5%[12][17] - LeAD系统在CARLA仿真平台实现71.96驾驶分,路线完成率93.43%,超越现有基线模型[23][27] - DRO-EDL-MPC算法计算效率提升5倍,不确定场景下碰撞率接近于零[33][40] - 3DGS-LSR框架在KITTI数据集实现厘米级定位,城镇道路误差0.026m,林荫道误差0.029m[43][47] 自动驾驶数据集与框架创新 - NavigScene框架使nuScenes数据集平均L2轨迹误差降低至0.76m,比基线提升24%,碰撞率从32.48‱降至20.71‱[52][58] - LiMA框架在nuScenes数据集LiDAR语义分割mIoU达56.67%,3D目标检测mCE降至91.43%[61][68] - L4 Motion Forecasting数据集包含德美两国400+小时原始数据,覆盖250km独特道路[78][82] - 动态掩码与相对动作空间缩减策略使CARLA仿真训练效率提升2倍,车道偏离降低至0.07米[71][76] 技术突破与性能提升 - DSDAG因果图建模自车状态动态演化,为驾驶视频理解提供结构化理论基础[5] - TigAug单张图像合成耗时0.88秒,模型重训练平均耗时36小时[13] - LeAD系统通过LLM增强实现场景语义理解和类人逻辑推理[25] - DR-EDL-CVaR约束同时处理数据不确定性和模型不确定性[38] - 3DGS-LSR摆脱对GNSS依赖,仅用单目RGB图像实现厘米级重定位[46]