自动驾驶之心

搜索文档
ADAS新范式!北理&清华MMTL-UniAD:多模态和多任务学习统一SOTA框架(CVPR'25)
自动驾驶之心· 2025-06-23 19:34
核心观点 - 提出统一的多模态多任务学习框架MMTL-UniAD,可同步识别驾驶员行为、情绪、交通环境及车辆行为四项任务,解决现有研究忽视任务间联合学习潜力的问题 [1][5][26] - 通过多轴区域注意力网络(MARNet)和双分支多模态嵌入模块两大核心组件,有效缓解多任务学习中的负迁移现象,实现任务共享特征与特有特征的动态平衡 [5][7][14] - 在AIDE数据集上验证显示,MMTL-UniAD在四项任务中均达到SOTA性能,mAcc指标提升4.10%-12.09%,驾驶员行为识别和车辆行为识别准确率分别提升4.64%和3.62% [18][26] 算法设计 多轴区域注意力网络(MARNet) - 采用水平-垂直双向注意力机制提取全局上下文信息,结合区域注意力筛选任务相关特征,减少无关特征导致的负迁移 [11][12] - 将特征图划分为独立区域并计算区域级注意力,通过相似度矩阵选取最相似邻域区域,增强关键特征提取能力 [12] 双分支多模态嵌入模块 - 任务共享分支整合多模态信息学习通用表示,任务特有分支通过一维卷积和多头注意力动态调整模态权重,保留任务特性 [14][16] - 自适应调节两类特征权重,实验表明移除该模块会导致mAcc下降5.34%,验证其平衡共享与特有特征的有效性 [25] 实验结果 性能对比 - 在2D模型、2D+时序建模、3D模型三类对比方法中全面领先,四项任务最高准确率达DER 76.67%、DBR 73.61%、TCR 93.91%、VBR 85.00% [18][20] - 消融实验显示,联合训练驾驶员状态与交通环境任务可使双方准确率提升3.50%-4.45%,单任务训练会导致性能下降3.98%-6.13% [22][23] 模块贡献 - 单独移除MARNet或双分支模块均导致mAcc下降至70.25%-76.96%,证明二者协同作用对性能提升的关键性 [24][25] - 多模态数据联合使用(面部+身体姿态+场景)相比单一模态可使mAcc提升5.39%-26.61% [25] 行业意义 - 为ADAS领域提供首个整合驾驶员状态与交通环境识别的多任务框架,推动跨模态特征共享技术发展 [5][26] - 开源代码与模型结构有望成为行业基准,加速智能辅助驾驶系统向高效自适应方向演进 [1][26]
热乎出炉的面经,刚面完NVIDIA TRT LLM~
自动驾驶之心· 2025-06-23 19:34
作者 | 笑渐不闻声渐悄 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1918033580103282744 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『求职招聘』技术交流群 本文只做学术分享,如有侵权,联系删文 热乎出炉,刚面完Nvidia TRTLLM。本人bg是做llm推理加速的,主要在做speculative decoding,也 有一篇文章中了ICLR 2025。因为想继续做推理加速,所以尝试性的面了一下Nvidia,看能不能积累 connection。首先得吐槽一下这个面试机制:4位面试官一人面了我一个小时,整整连续面了4个小 时,面完感觉就是一个虚弱无力...然后简单聊一聊面试的问题 第一位面试官:自我介绍,讲一下自己的iclr 25关于spec的工作。面试官问的比较细致,从方法的 设置到evaluation都问到了,然后简单讲了一下自己nips 23的科研工作。感觉面试官对我的科研经 历还是比较满意,随后出了一道coding:n位数字插入任意数量的+,最后 ...
为什么一篇论文要耗尽整个研究生生涯?
自动驾驶之心· 2025-06-23 16:03
核心观点 - 公司提供自动驾驶、具身智能、机器人领域的论文辅导服务,覆盖选题、实验设计、写作投稿全流程,旨在帮助学生高效产出高质量论文 [2][3][4] - 服务团队由全球QS前100高校的300+专家组成,近3年辅导400+学员,中稿率达96% [3] - 辅导方向聚焦前沿技术,包括大模型、端到端自动驾驶、多传感器融合等20+细分领域 [5][7] 服务定位 - 目标用户为本科生至博士生,解决从课程论文到顶会投稿的全阶段学术需求 [4] - 提供1对1定制化辅导,匹配强相关研究背景的导师,拒绝模板化服务 [7][9] - 覆盖CCF-A/B/C类会议期刊及SCI/EI等全等级投稿需求 [11] 技术领域覆盖 - 自动驾驶方向涵盖BEV感知、轨迹预测、3D目标检测等15+技术分支 [5] - 具身智能方向包括VLA、强化学习、仿真交互等8大领域 [5] - 机器人领域覆盖SLAM、决策规划等交叉学科技术 [5] 服务内容 - 全流程支持:从选题创新点挖掘到审稿意见回复的7个关键环节 [4][12] - 实验级指导:包含算法实现、硬件调试、数据集处理等实操难题解决方案 [12] - 写作优化:针对逻辑结构、图表呈现等学术规范提供深度修改建议 [12][15] 核心优势 - 导师团队100%具有顶会发表经验,熟悉CVPR、ICRA等会议评审标准 [8][11] - 服务聚焦自动驾驶等三大领域,深度理解技术发展趋势与评审偏好 [5][8] - 提供前沿动态追踪服务,帮助学生定位关键文献与技术脉络 [12][13] 成果交付 - 明确产出路径:平均1-2年论文周期可缩短至高效产出阶段 [2][15] - 提升录用概率:通过专业投稿策略指导显著提高顶会命中率 [12][15] - 方法论沉淀:培养学生独立科研能力,形成可持续的学术思维体系 [15]
深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
自动驾驶之心· 2025-06-22 22:09
大模型微调技术 - 大模型高效微调成为业界焦点 无论是通用大模型还是智驾大模型 如何通过轻量微调变成专业模型成为热点话题 [2] - 开发大模型成本极高 ChatGPT单次训练成本超千万美元 DeepSeekv3单次训练成本超500万美元 小公司或个人难以承担 [2] - LoRA通过旁路降维再升维操作模拟intrinsic rank 训练时固定预训练模型参数 仅训练降维矩阵A与升维矩阵B [3] - LoRA初始化采用随机高斯分布初始化A 0矩阵初始化B 保证训练开始时旁路矩阵为0矩阵 [3] - LoRA思想类似残差连接 通过旁路更新模拟全参数微调过程 全参数微调可视为LoRA特例 [11] - LoRA推理时几乎不引入额外延迟 只需计算W=W0+△W [12] 多模态大模型课程内容 - 第一章介绍多模态大模型基础概念 包括结构&训练范式 公开数据集 应用场景 课程框架 [18] - 第二章讲解多模态大模型基础模块 包括模态编码器 Input Projector LLM Backbone Output Projector Modality Generator [20] - 第三章聚焦通用多模态大模型 涵盖图文理解 视频理解 任意模态 轻量大模型 统一视觉任务大模型算法 [22] - 第四章专注微调与强化学习技术 包括Adapter LoRA QLoRA Reward Model+PPO KTO DPO等算法实战 [25] - 第五章探讨多模态大模型在自动驾驶应用 包含DriveVLM等端到端自动驾驶前沿算法 [27] - 第六章提供求职专题 涵盖行业公司 发展方向 应用瓶颈 面试准备等实战经验 [29] 课程相关信息 - 讲师为一线大厂高级算法工程师 研究方向包括多模态大语言模型 Agent 参与过多车型量产项目 [32] - 课程适合高校研究人员 初创团队 企业技术骨干 转行人员等群体 [35] - 课程收获包括掌握通用大模型理论 自动驾驶前沿算法 微调部署能力 实际问题解决能力等 [36]
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
DPO与PPO的对比研究 - 论文指出当前开源榜单上DPO占据领先位置,但顶级闭源模型如GPT4和Claude仍采用PPO方案,引发对两者实际优势的探讨[1] - DPO存在与PPO类似的reward hacking问题,即可能产生不符合人类偏好但能获得高奖励的解决方案[2] - 理论分析表明PPO导出的策略是DPO导出策略的真子集,DPO可能产生偏离参考策略的解[3] - 实验数据显示在编程比赛等硬核任务上PPO显著优于DPO,如Code Llama 34B模型在APPS测试集上PPO达到44.4%通过率,而DPO-Iter为34.2%[11] DPO的缺陷分析 - DPO在偏好数据集未覆盖的数据点上可能分配过高概率,导致无法预期的行为[6] - 表格数据显示DPO在安全相关指标上表现较差,如Helpfulness为-4.19,Harmfulness为-0.97,Safety Rate仅55.4%[7] - 通过SafeSFT、迭代DPO和数据过滤等方法可提升DPO性能,但仍无法超越PPO[8] PPO性能提升关键因素 - 采用优势函数规范化、大Batch训练和参考模型滑动更新三项技术可显著提升PPO性能[9] - 实验显示当batchsize太小时PPO性能甚至差于SFT[9] - 在编程任务中PPO刷新了SoTA,如Code Llama 34B模型在测试集上达到22.4%通过率,显著高于DPO的0%和DPO-Iter的3.2%[12] 编程任务实验结果 - 在APPS测试集上,Code Llama 34B模型PPO方法在Intro、Inter和Comp三个难度级别分别达到44.4%、18.0%和9.1%通过率[11] - PPO在编程任务中直接利用测试用例结果作为奖励信号,无需人工标注或训练奖励模型[13] - 对比实验显示DPO训练失败产生无意义结果,而PPO刷新了该领域的最高水平[13]
实验室老板想搞个自动驾驶小车,还没什么头绪。。。
自动驾驶之心· 2025-06-22 22:09
产品发布与促销 - 黑武士系列001自动驾驶教研小车正式开售,原价36999元,现下单赠送3门课程(模型部署+点云3D检测+多传感器融合)[1] - 当前订单已排满,5台及以上批量采购可享优惠,主要面向高校和研究院所[2] 产品定位与功能 - 定位为教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等全栈功能[5] - 适用于本科生学习比赛、研究生科研论文、高校实验室教具、职业培训等多场景应用[9] - 支持二次开发,预留多种传感器接口(相机、毫米波雷达等)[6] 硬件配置 - 主要传感器包括:Mid 360 3D激光雷达(FOV360°*59°,测距0.1-40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m,精度≤2%)[16][26] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器[16] - 阿克曼底盘设计,车体尺寸620×400×320mm,自重30kg,最大载荷30kg[18][19] - 续航时间>4小时,最大运动速度2m/s,采用24V供电系统[18][19] 软件系统 - 基于ROS框架,支持C++/Python开发[21] - 提供一键启动开发环境,包含2D/3D目标检测、多模态SLAM(视觉/激光/惯性)、点云处理、车辆导航避障等22项核心功能[22] - 代码示例显示支持地图构建、轨迹规划等算法模块[41] 测试验证 - 已完成室内/室外/地库等多场景测试,包括: - 户外公园行驶[10] - 点云3D目标检测[11] - 2D/3D激光建图[12][13] - 上下坡测试[14] - 大场景3D建图[15] 售后服务 - 提供1年非人为损坏保修,人为损坏可付费维修[44] - 提供硬件采购咨询通道[44]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 22:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]
100+自动驾驶数据集,这5个你总得知道吧?
自动驾驶之心· 2025-06-22 09:35
自动驾驶数据集 - KITTI数据集是自动驾驶领域最经典的基准数据集之一,包含立体视觉、光流、视觉里程计、3D目标检测和跟踪等多种感知任务的标注,覆盖城市、高速和乡村场景 [3][6] - nuScenes数据集包含1000个连续驾驶场景,配备6个摄像头、5个毫米波雷达、1个顶置LiDAR,提供约140万张高分辨率相机图像和39万帧LiDAR扫描,标注了23个对象类别的1.4M个3D边界框 [5][7] - Waymo Open Dataset是全球最大的自动驾驶开放数据资源之一,包含2030个20秒场景的高分辨率相机和LiDAR数据,以及103,354个场景的车辆轨迹及3D地图信息 [10][12] - PathTrack数据集包含720个序列中的15,000多个人的轨迹,专注于人员跟踪任务 [13][14] - ApolloScape数据集规模远超同类数据集,包含数十万帧高分辨率的逐像素语义分割标注图像,定义了26个语义类别 [17][19] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,创办于2022年7月,已聚集近4000人,包含100+行业专家 [32] - 社区覆盖30+自动驾驶技术学习路线,包括端到端自动驾驶、世界模型、视觉大语言模型、BEV感知等几乎所有子方向 [32][36] - 每周举办1-2场视频直播,每年计划100场左右,邀请CVPR、ICCV等顶会作者及顶尖公司团队分享 [38][39] - 社区成员来自地平线、蔚来、小鹏、理想等知名公司,以及清华大学、上海交大、香港科大等国内外高校 [134] 前沿技术方向 - 2025年自动驾驶技术基调已确定为大模型赋能下的端到端2.0 - VLA(Vision-Language-Action) [26] - 视觉大语言模型(VLM)在自动驾驶中的应用包括作为教师模型训练端到端系统、直接作为规划器等 [31][122] - 扩散模型与自动驾驶结合的前沿方向包括轨迹联合预测、3DGS生成技术等 [26][63] - 世界模型在自动驾驶中的应用包括场景理解、未来场景演化预测等 [59][60] 求职与职业发展 - 自动驾驶求职方向包括TensorRT模型部署、毫米波雷达视觉融合、车道线检测、规划控制等细分领域 [89] - 对于3D目标检测方向,建议从BEV感知开始学习,关注DETR3D、BEVFormer等算法 [115] - SLAM领域从业者可考虑向闭环仿真3DGS重建方向转型,规控方向建议学习基于模型的planner算法 [118] - 多模态3D检测领域相对成熟,建议关注端到端、大模型、数据闭环等新兴方向 [121]
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 09:35
π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术,包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据,通过权重调整处理不同机器人的动作空间差异[3] - 训练流程基于PaliGemma VLM,融合多模态输入(图像编码器、语言编码器、proprioceptive state编码器)[3] - 独立子网络(3亿参数)负责将VLM输出转换为连续动作,采用流匹配技术生成高频率动作序列(最高50Hz)[3] π₀优势与功能 - 零样本直接执行任务,通过语言提示控制机器人无需额外微调[4] - 支持复杂任务多阶段微调,如叠衣服分解为多个步骤[4] - 语言指令跟随与高层策略集成,提升语义理解与任务规划能力[4] - 高频率精细操作(50Hz)适用于折叠衣物、组装盒子等任务[4] - 单模型适配多种机器人形态,降低部署成本[4] π₀性能分析 - 开箱即用性能:在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[4] - 衬衫折叠成功率接近100%,远超OpenVLA[6] - 复杂清理任务正确分类物体数量比Octo高40%[6] - 预训练+微调流程实现60%-80%任务完成度,显著优于从头训练[7] π0.5模型结构 - 采用双阶段训练框架和分层架构,基于Transformer的视觉-语言-动作(VLA)模型[7][9] - 分层推理机制:高级语义子任务预测+低级动作生成[9] - 动作表示融合离散标记(FAST tokenizer)和连续表示(流匹配)[9] - 预训练阶段使用400小时移动机器人数据+非移动机器人数据+网页多模态数据[9] π0.5优势与功能 - 异构数据驱动泛化,实现从未见场景中的任务执行[13] - 长时程任务处理能力,支持10分钟以上连续操作[13] - 零样本语义理解,基于网页数据预训练理解未见过物体[13] - 在"盘子入水槽"等任务中成功率比π0高25%-40%[12] - 离散-连续动作混合训练比纯扩散模型效率高3倍[12] π0.5性能分析 - 真实家庭环境中多阶段任务成功率达60%-88%,任务时长10-15分钟[23] - 随训练环境增加性能持续提升,"整理床铺"成功率从30%升至80%[24] - 跨实体数据移除后任务性能下降20%-30%[24] - 网页数据对未知物体泛化至关重要,移除后成功率从60%降至30%[24] A0模型结构 - 采用分层架构设计:高层空间Affordance理解+低层动作执行[21] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[22][25] - 预训练与微调策略:100万接触点数据集预训练+标注轨迹数据微调[25] A0优势与功能 - 跨平台泛化能力,可在多种机器人平台无缝部署[26] - 高效空间推理,避免密集空间表示的高计算成本[26] - 数据利用效率高,少量任务特定数据即可适应新场景[26] - 可完成擦黑板、物体放置、开抽屉等需要空间推理的任务[26] A0性能分析 - Franka机器人平均成功率62.5%,开抽屉任务成功率75%[27] - Kinova机器人平均成功率53.75%,轨迹跟踪任务比基线高20%[27] - 擦黑板任务成功率比MOKA高15%-20%,比ReKep高约20%[27] - 在Kinova平台擦黑板任务中成功率50%,远超RDT-1B(10%)和π₀(35%)[27]
理想最新DriveAction:探索VLA模型中类人驾驶决策的基准~
自动驾驶之心· 2025-06-21 21:15
研究背景与问题提出 - 自动驾驶技术发展中,Vision-Language-Action(VLA)模型凭借多模态处理能力带来新机遇,但现有基准数据集在场景多样性、动作标注可靠性和评估协议一致性方面存在不足,制约了VLA模型的发展和应用 [2] - 现有基准数据集主要问题包括:场景多样性不足(来源单一,忽略复杂场景如道路合并、行人交互等)、动作标注不真实(缺乏实时驾驶意图反映)、评估框架不完善(未体现目标驱动决策模式) [3] DriveAction基准的核心创新 - 提出首个专为VLA模型设计的动作驱动基准,三大创新包括:用户贡献的广泛覆盖驾驶场景、与人类驾驶偏好一致的真实标注、以动作为根的树状结构评估框架 [3] - 数据集覆盖中国148个城市及所有量产车型记录,涵盖7大关键场景类别(如匝道合并、导航变道、绕行弱势道路使用者等),每个场景关联多种细粒度动作 [5] - 动作标签直接来源于用户实时驾驶操作,离散化为高级动作并经过多轮人工验证,确保可靠性和有效性 [6] 实验设计与关键发现 - 评估12个VLM模型,分为非推理模型(如GPT-4o、Claude 3.5 Sonnet)和推理模型(如o1、Gemini 2.5 Pro),通过VLMEvalKit实现性能测量 [11] - 全流程模式(V-L-A)准确率最高,无信息模式(A)最低:移除视觉输入准确率下降3.3%,移除语言输入下降4.1%,两者均移除下降8.0% [14] - 推理模型在复杂场景下优于非推理模型(如o1和o3在V-L-A模式下准确率超92%),但无信息模式下部分非推理模型表现更优 [14] - 特定任务评估显示:模型在动态/静态障碍物任务表现较好,导航任务得分较低(车道定位能力有限),交通灯任务准确率持续偏低 [16][17] DriveAction的意义与价值 - 为学术界提供更全面、真实的评估工具,推动VLA模型研究发展,同时支持工业界识别模型瓶颈并优化系统 [20] - 通过促进学术界与工业界在一致评估标准下合作,加速自动驾驶技术向更安全、智能的方向发展 [20]