Workflow
自动驾驶之心
icon
搜索文档
冷静看待VLA:不是救世主,也不是“垃圾”
自动驾驶之心· 2025-12-26 17:18
文章核心观点 - 文章对当前视觉语言动作模型的研究现状进行了批判性分析,认为许多研究在任务设置、环境复杂性和方法透明度上存在显著不足,但同时也肯定了其潜在价值并提出了改进方向[1][8] - 文章认为纯粹的端到端训练方法难以实现真正的通用人工智能,而更倾向于采用结构清晰、训练量小的显式思维链方法[5][8] - 文章指出,在复杂环境下,基于学习的方法相比依赖精确坐标的传统方法可能更具优势,因其更接近人类通过感知误差不断修正行为的方式[4] VLA模型的当前局限与批评 - 任务设置过于简单,主要集中在“抓-放”类操作,缺乏复杂任务挑战[6] - 实验环境高度简化,多为纯色背景、仅放置1-2个物体、无遮挡且大部分是2D平面任务[6] - 模型训练本质上是数据量巨大的“升级版行为克隆”,系统呈现黑盒特性,难以解释模型的实际能力[6] - 部分研究存在实验内容与态度问题,被评价为“劣币驱逐良币”[8] VLA模型的潜在优势与改进思路 - VLA模型并非完全黑盒,例如NVIDIA的CoT-VLA工作展示了可拆分为三层的思维链,其思考模式与人类相似[1] - 真正的挑战在于让模型学会泛化,关键在于设计好子目标嵌入以保证其在遮挡、复杂背景及3D空间中的表现[2][3] - 有效的子目标嵌入应具备语义性、上下文相关性、能指明目标大致区域,并通过融合MLP保证可微性[7] - 在复杂环境下,基于学习的方法相比依赖精确坐标的传统方法可能更具优势,因其更接近人类通过视觉观测感知误差并修正动作以逼近目标的行为方式,无需每一步都遵循完美路线[4] 实现通用AGI的路径探讨 - 纯粹的端到端训练难以产生真正的通用人工智能,AGI需要的是少量样本学习及依靠推理逻辑处理新任务的能力,而非依赖海量数据的“死记硬背”[5] - 倾向于采用显式的VLA思维链方法:由大模型负责拆解任务,动作头根据子目标进行训练与执行,该方法训练量小、结构清晰,便于资源有限的研究者实施[8] - 只要任务拆解得足够细致和准确,无论后续采用基于模型还是基于学习的策略,效果都会不错[8] VLA模型的典型工作流程 - 大语言模型将语言指令拆解为子任务[6] - 视觉语言模型根据当前图像和子任务生成子目标嵌入[6] - 策略模型根据子目标嵌入和当前感知输出动作[6]
刷新NAVSIM SOTA!端到端自动驾驶新框架Masked Diffusion
自动驾驶之心· 2025-12-26 11:32
行业技术范式转移 - 端到端自动驾驶正经历从模块化向大一统的范式转移,VLA模型兴起[3] - 主流自回归生成范式存在局限性,其强制遵循的从左到时序生成逻辑与人类驾驶员以终为始的思维直觉存在本质差异[3] - 基于模仿学习的模型容易陷入平均司机陷阱,倾向于拟合数据分布均值,导致策略平庸化,难以在激进与保守间灵活切换[3] 核心技术创新:WAM-Diff框架 - 复旦大学与引望智能联合提出WAM-Diff框架,将离散掩码扩散模型引入VLA自动驾驶规划[3] - 框架结合稀疏混合专家架构与在线强化学习,构建了一套不受限于单向时序的生成式规划系统[3] - 在NAVSIM-v1和v2榜单上分别取得91.0 PDMS和89.7 EPDMS的SOTA成绩,证明了非自回归范式的潜力[4] 技术细节:生成逻辑与架构 - 采用混合离散动作分词技术,将连续2D轨迹坐标量化为高精度离散Token,误差控制在0.005以内,并与语义Token置于共享词表[6] - 使用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有位置Token,提升推理效率与全局优化能力[6] - 探索因果序、反因果序和随机序三种解码策略,实验发现反因果序策略在闭环指标上表现最佳,验证了以终为始生成逻辑的有效性[9] 模型架构增强 - 集成LoRA-MoE架构,包含64个轻量级专家,通过门控网络实现动态路由与稀疏激活,根据场景自动激活最匹配的驾驶专家[12] - 采用多任务联合训练,使模型在学习轨迹预测的同时通过驾驶VQA任务理解场景语义,增强规划的可解释性与泛化能力[12] - 引入分组序列策略优化算法,将优化粒度从单步Token提升至完整轨迹序列,依据安全性、合规性及舒适性等多维指标对整条轨迹进行评分[14] 性能表现与实验验证 - 在NAVSIM-v1评测中,WAM-Diff达到91.0的PDMS分数,超越DiffusionDrive、ReCogDrive及DriveVLA-W0等基线模型[16][17] - 在NAVSIM-v2评测中,取得89.7的EPDMS成绩,相较于DiffusionDrive提升了5.2分,表明其能有效平衡安全性与合规性[18][19] - 消融研究表明,反因果序解码策略取得最佳闭环性能,PDMS为91.0,支持以终为始的规划直觉[20][21] - 定性实验验证了MoE架构与GSPO在线强化学习在提升长尾场景鲁棒性方面的作用[22] 行业意义与展望 - WAM-Diff标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出重要一步[26] - 该研究证明在VLA时代,如何生成与生成什么同样重要,具备反向推理能力的规划器可能是通往L4级自动驾驶的关键拼图[26]
端到端下半场,如何做好高保真虚拟数据集的构建与感知?
自动驾驶之心· 2025-12-26 11:32
文章核心观点 - 自动驾驶行业正从传统模块化架构向“端到端”架构演进,而高质量、大规模的数据是决定模型上限的关键[2] - 现实路测数据在成本、安全、长尾场景覆盖等方面存在局限,高保真虚拟仿真数据成为解决数据瓶颈、支撑高阶模型训练不可或缺的一环[2][5] - 康谋科技通过其高保真仿真平台aiSim、自动化工具链aiSim2nuScenes以及开源的SimData虚拟数据集,提供了一套从数据生成到算法验证的完整解决方案,旨在以低成本、高效率的方式生成海量高质量数据,加速自动驾驶算法研发[3][5][11][29] SimData数据集概述 - 数据集规模庞大,包含15张高精度地图、45个独立场景、215,472个关键帧样本数据以及超过64,000个目标实例标注[6][7] - 场景覆盖多样,重点建模了高速公路、城市峡谷和立体停车场三大核心ODD,并针对施工区、高速匝道汇入、无保护路口等真实路测难以捕捉的场景进行了重点建模[7] - 通过人为干预优化了类别均衡性,在保证基础类别密度的同时,增加了拖车、路障、交通锥、面包车等稀缺类别的样本比例,以提升模型对异形障碍物的检出能力[7] - 数据集已正式开源,提供完整版和mini版供获取[11] 自动化工具链:aiSim2nuScenes - 该工具链是一套端到端的合成数据生产与闭环评测体系,实现了从高保真数据合成、标准化格式迁移到自动化闭环测评的全流程无缝串联[11][12] - 工具链实现了对行业标准nuScenes-devkit的原生级支持,提供脚本批处理与图形化界面双模式,能自动将aiSim原始数据转换为nuScenes标准格式,降低工程迁移成本[13] - 在数据生成阶段,通过确定性的仿真时钟保证了多模态传感器(6路环视相机、1个LiDAR、5个Radar)数据的微秒级严格时空同步,满足BEV算法的严苛要求[13] - 工具链自动化程度高,能自动完成视觉数据格式转换与抽帧、点云数据格式清洗,并自动生成所有必要的元数据文件,实现了“生成即真值”,消除了人工标注误差[15] 算法实证:性能跨越与鲁棒性验证 - 在纯虚拟数据集上训练的BEVFormer-tiny模型在30个Epoch内迅速收敛,最终mAP达到0.446,NDS达到0.428,证明aiSim生成的数据具备良构性,能被深度神经网络有效拟合[18][19] - 虚实一致性分析表明,SimData训练的模型与nuScenes官方预训练模型在检测精度上呈现显著正相关,且注意力热力图高度重合,证明了虚拟数据的高保真度与特征同源性[20][22] - 迁移学习实验证明,“真实数据预训练 + 虚拟数据微调”的策略在绝大多数类别上实现了性能的全面超越,尤其在行人、拖车、路障等长尾类别上检测精度显著提升[23][26] - 实验结论表明,高质量的虚拟数据并非真实数据的简单替代,而是其完美互补,“真实先验 + 仿真多样性”的组合能有效抑制过拟合,显著提升模型的泛化能力与鲁棒性[23][26] 高保真仿真技术的核心价值 - aiSim仿真器基于自研渲染引擎,采用融合式渲染架构,在复杂光照及雨、雾、雪等极端环境下仍可保持像素级物理一致性,为感知模型提供高置信度输入[27][29] - aiSim实现了从像素级到信号级的确定性建模,对相机、激光雷达、毫米波雷达的成像噪声、光束发散、多径效应等物理机理进行建模,使生成数据在统计特性上高度接近真实传感器输出[27] - 高保真仿真技术能大幅降低数据采集与标注的边际成本,规避极端工况测试的道德与安全风险,并通过“虚实结合”的训练策略,显著提升感知模型在复杂现实世界中的表现[29] - 随着端到端大模型与世界模型的兴起,对高质量合成数据的需求将呈指数级增长,高保真虚拟世界正成为连接算法与物理现实的桥梁,加速自动驾驶从有限场景迈向全域通达[29]
前馈GS在自驾场景落地的难点是什么?
自动驾驶之心· 2025-12-26 11:32
课程核心内容与结构 - 课程旨在提供一套全面的3D高斯泼溅技术学习路线图,从原理到实战,帮助学员掌握3DGS技术栈 [2] - 课程由自动驾驶之心联合工业界算法专家设计,历时两个月开发 [2] - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,开课时间为12月1日,预计两个半月结课 [13] 讲师背景 - 讲师Chris拥有QS20硕士学位,现任某Tier1厂商算法专家 [3] - 讲师从事端到端仿真、多模态大模型、世界模型等前沿算法的预研和量产,并参与过全球TOP主机厂的仿真引擎及工具链开发 [3] - 讲师拥有丰富的三维重建实战经验 [3] 课程大纲详解 - **第一章:3DGS的背景知识**:概述计算机图形学基础,包括三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、SuperSplat、Gsplat等开发工具,附带基于3D Real Car训练模型的小作业 [6] - **第二章:3DGS的原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战部分使用英伟达开源的3DGRUT框架 [7] - **第三章:自动驾驶3DGS**:聚焦自动驾驶仿真重建,讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战使用学术界和工业界广泛采用的DriveStudio [8] - **第四章:3DGS重要的研究方向**:探讨COLMAP扩展、深度估计及Relighting等研究方向,并分析其工业界应用与学术前景 [9] - **第五章:Feed-Forward 3DGS**:梳理前馈3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作 [10] - **第六章:答疑讨论**:通过线上交流形式,讨论3DGS岗位需求、行业痛点及开放性问题 [11] 课程面向人群与学后收获 - **面向人群**:课程要求学员自备GPU,推荐算力在4090及以上,并具备计算机图形学基础、对视觉重建/NeRF/3DGS有一定了解、有概率论与线性代数基础、熟悉Python和PyTorch [15] - **学后收获**:学员将掌握3DGS完善的理论知识及相关技术栈、掌握算法开发框架并能训练开源模型、可与学术界及工业界同行持续交流,对实习、校招、社招均有助益 [15] 行业技术动态与课程关联 - 前馈3DGS是当前热门方向,旨在克服传统“per-scene optimization”的不便,但其在点云精度上仍有不足,尤其在私有数据域上精度不稳定 [2] - 课程内容紧密联系行业前沿,如第三章聚焦自动驾驶仿真,第五章专门探讨Feed-Forward 3DGS [8][10]
一个在量产中很容易被忽略重要性的元素:导航信息SD
自动驾驶之心· 2025-12-26 09:56
导航信息在自动驾驶中的应用与核心职责 - 导航信息SD/SD Pro已在许多量产方案上使用 提供车道、粗粒度路径点等信息 为车辆提供粗略的全局和局部视野 [2] - 导航模块的核心职责之一是提供参考线 这是下游规划与控制模块的强需求 能极大减轻规划压力 车辆只需在参考线基础上进行细化 [4] - 导航模块的另一核心职责是提供规划约束与优先级、路径监控和重规划功能 [5] 导航信息的具体功能与系统集成框架 - 导航信息能实现车道级的全局路径规划 搜索目标车道的最优车道序列 [6] - 导航信息能为行为规划提供明确的语义指导 方便车辆提前准备变道、减速、让行等操作 [6] - 在两段式系统框架中 导航信息输入到感知模型 输出导航路径 该路径再作为机器学习规划器的输入 用于预测自车行驶轨迹 [16] - 在一段式系统框架中 导航信息经过专用编码器编码后 与动态、静态信息一起作为输入 参与后续的模型优化 [21] 端到端自动驾驶课程核心内容概述 - 课程重点聚焦落地 内容涵盖一段式、两段式、强化学习、导航应用、轨迹优化及量产经验分享 [24] - 课程第一章概述端到端任务 介绍主流的感知模型一体化架构和经典的规控学习化方案 并对开源数据集和评测方式进行详细说明 [29] - 课程第二章介绍两段式端到端算法框架 包括其建模方式、感知与规划控制的信息传递方式、优缺点 并通过经典算法进行实战 [30] - 课程第三章介绍一段式端到端算法框架 该框架可实现信息无损传递 性能通常优于两段式 涵盖基于向量逻辑注意力、扩散模型等多种方案 [31] - 课程第四章专门讲解导航信息的量产应用 包括主流导航地图的格式与内容 以及导航地图在端到端模型中的编码与嵌入方式 [32] - 课程第五章介绍自动驾驶中的强化学习算法 旨在弥补纯模仿学习的不足 让机器学习因果关系以实现更好的泛化能力 [33] - 课程第六章进行基于神经网络的规划器项目实战 重点介绍基于扩散模型和自回归模型的模仿学习算法 以及后续的强化学习算法 [34] - 课程第七章讲解量产中的兜底方案——时空联合规划 介绍多模态轨迹打分搜索、轨迹平滑等后处理算法 以确保输出轨迹的稳定可靠 [35] - 课程第八章分享端到端量产经验 从数据、模型、场景、规则等多个视角剖析如何选用合适工具与方法以提升系统能力边界 [36] 课程安排与面向人群 - 课程为小班教学 仅剩10个招生名额 [24][26] - 课程开课时间为11月30日 预计三个月结课 采用离线视频教学 配合VIP群答疑及三次线上答疑 答疑服务截止2026年11月30日 [37] - 课程面向进阶学员 建议学员自备算力在4090及以上的GPU 并熟悉自动驾驶BEV感知、视觉Transformer、端到端等常见算法 [39] - 课程章节按计划解锁 例如第一章于11月30日解锁 第二章于12月7日解锁 后续章节依次在12月14日、12月21日、12月30日、1月15日、2月10日、2月24日解锁 [38][40]
一见Auto采访小米陈光的一些信息分享......
自动驾驶之心· 2025-12-26 09:56
行业技术路线争鸣 - 智能驾驶行业在2025年出现“名词过载”现象,技术路线分化出多个派别,争鸣不断 [7] - 理想汽车与智驾供应商元戎启行坚定选择VLA路线,在算法架构中引入大语言模型 [4] - 华为表示不会走向VLA,而是坚定选择WA路线,小鹏也在尝试去掉Language环节 [4] - 小米汽车是持续深耕端到端方向的企业之一 [5] 小米汽车的技术路径与策略 - 小米汽车端到端研发启动较晚,于2024年内部正式整合成立“端到端算法与功能部”,比理想、蔚来晚了至少3个月 [5] - 但小米追赶迅速,在2025年2月向用户全量推送了300万Clips的端到端,7月再次推送了1000万Clips版本,11月于广州车展发布Xiaomi HAD增强版 [5] - 小米HAD增强版最大的不同是引入了世界模型+强化学习,使模型具备开放世界的知识性以及推断复杂场景因果的能力 [5] - 公司认为在端到端算法中引入世界模型和强化学习并非首创,但会将其做得“更坚决” [5] - 公司智能驾驶团队主要分成三拨,除端到端和VLA外,市面上所有路线(包含WA、VA)在内部都有预研团队 [10] - 面对技术路径选择,公司并非“一刀切”,认为新技术的引入需要循序渐进,技术是否先进并不代表体验一定更好 [12] - 公司判断技术的最终标准是能否被用户感知、信任和长期使用,用户体验不好,用户只会觉得是公司的问题,而非技术问题 [12][24] - 公司认为在有限算力下训练出智能密度最大的模型是努力方向,不过分卷算力,用户体验才是关键 [18][32][33] 小米智驾团队的独特性与能力 - 小米智驾团队虽然不是成立最早,却是组建最快、追赶最猛的团队 [12] - 自2021年3月官宣造车起,第一年便组建了500人团队,而理想组建700人团队花费两年,小鹏花费3年 [13] - 4年间,团队已超1800名成员 [13] - 自2024年3月SU7上市以来,公司从高精度地图进化到无图,近一年间推送了三个版本的端到端,实现了“一年追三代”,而其他新势力的摸索至少经历了三年时间 [13] - 截至2025年第三季度,公司年内已投入235亿元研发费用,其中四分之一(约58.75亿元)用于AI研发 [13] - 公司具备强大的“基建”能力,即以数据为核心的研发效能提升,包括快速数据挖掘、标注、模型训练与自动化评测 [41][42] - 云端基建能力可相互借鉴且经验可复制,公司其他业务(如云服务)的扎实底层基建能够被汽车业务快速复用 [14][44][45] - 公司测试资源、数据资源非常充沛,易于获取高质量场景数据 [46] - 强大的基建能力与对专属素材及测试的重视,共同造就了公司快速的研发迭代 [47] 端到端、世界模型与强化学习的应用 - 公司认为,无论是VA、WA还是VLA,本质都是如何让模型的智能密度最大 [5][18] - 单纯的端到端只是模仿学习,属于数据驱动;而引入强化学习、世界模型或VLA后,则进入认知驱动阶段,模型具备推理因果逻辑的能力 [20] - 强化学习在智能驾驶中应用面临两大难题:世界模型难以完全保真,需要放入大量可编辑的数字资产;并行探索的效率面临算力合理分配的挑战 [6] - 公司在新版本中优化了奖惩制度,算法会在世界模型里反复练习,通过奖励机制不断尝试以找到更优的驾驶思路 [39] - 公司认为端到端+世界模型+强化学习主要解决“直觉”问题,针对中等难度或非极端困难场景,本能反应更快 [22] - VLA则旨在解决需要长序思考的复杂场景问题 [35] - 公司不认为存在唯一最好的技术路线,有时不一定能找到最强的技术,但一定能找到最适合自身系统的技术方案 [23] 仿真测试的战略价值 - 仿真测试是公司研发的“三支柱”之一,另外两者是场地测试和实车测试 [68] - 公司针对所有实车测试里程,在仿真中的测试目标是达到至少100倍的比例 [67][70] - 在模型训练中,真实数据与仿真数据的分配比例约为八二开,真实数据占80%,仿真数据占20% [71] - 20%的仿真数据能够显著降低人力成本,若无仿真,人力成本至少需翻几倍 [72] - 仿真的核心价值在于解决实车难以遇到、不好收集和挖掘的场景数据,例如高速路上运输几十米大风叶等罕见场景 [73][74] - 公司当前仿真数据的生成质量很强,并会通过评价指标保证其与真实数据的一致性 [61][62] - 仿真环境需要足够逼真、符合物理规律,并具备强大的场景编辑能力,以改变光照、天气、路面状况、交通参与者等要素 [60] 关于芯片与VLA的考量 - 公司认为自研自动驾驶芯片需权衡需求与成本,好处是成本可控、软硬件配合更好,但前期投入大、回本辛苦 [78][79] - 从一颗芯片迁移到另一颗芯片时,会面临“部署偏差”问题,包括算子支持差异、计算精度不同导致的输出不一致等,需要针对性的优化和校准 [80] - 芯片迁移优化工作量巨大,通常需要6到10个月甚至更长时间 [81] - 公司从英伟达Orin芯片迁移到Thor芯片的速度比一般企业快很多 [83] 对L2与L4发展的看法 - 从技术栈来看,L2与L4正越来越走向统一,在数据驱动和认知驱动下,开发逻辑越来越相同,主要差异在于场景化和安全要求 [86] - 目前L2面临的挑战更大,因其受限于车上有限的算力与传感器,且需要不断平衡安全、效率、舒适性以及用户的驾乘习惯 [87] - L4对安全系数要求更高,需要做更多的安全冗余以实现绝对安全,其最终责任方是系统本身 [86][88] - L2作为辅助驾驶,人类驾驶员是最终的监督和把控责任方 [88] - 公司认为L4一定会做成,从车企的角度来说,也慢慢会涉足到L4领域 [89]
年末L4的商业化落地被九识悄悄打响了......
自动驾驶之心· 2025-12-25 17:33
行业宏观趋势 - L3牌照开始密集发放,L4市场端大量车型相继推出,覆盖Robotaxi、无人配送、重卡、矿卡等多个领域 [3] - L2的量产技术正在快速下沉到L4领域,例如OCC、端到端模型、无图感知、VLA等技术 [3] - 智能驾驶技术走向成熟,被视为真正大规模量产的起点 [3] - 智能汽车产业进入深水区,主机厂在合作选择上更注重对技术和成本的综合考量 [3] - 自动驾驶行业进入比拼商业盈利能力的新阶段,主机厂的选择趋于理性 [21] 九识智能与东风的战略合作 - 九识智能与东风汽车于本月15日达成新的战略合作 [3] - 合作指向载货车、环卫车、VAN车、客车等多个细分车型,显示出更强的商业化导向 [4] - 合作本质是“能力级合作”:东风提供整车制造与产业体系优势,九识提供成熟的L4技术与商业化经验,双方共同扩展智能化版图 [20] 九识智能的技术能力与工程化成熟度 - 公司技术路线专为复杂的城市配送场景设计 [9] - 在感知层,自研OCC时序模型,通过多帧时序数据构建三维空间占据信息,以理解物体运动趋势和潜在风险,提升在异形车辆、低矮障碍物等长尾场景的可靠性 [9] - 将目标检测与跟踪进行端到端一体化建模,直接输出轨迹级结果,减少模块间信息损耗,在多目标、高密度交通环境中具有优势 [10] - 在规控层,已完成PnC端到端模型的落地,能在毫秒级完成多因素决策,强调稳定性、可解释性和一致性,贴合主机厂对安全冗余的要求 [12] - 全面落地轻地图技术,降低对高精地图的依赖,同时在复杂城市路网中实现厘米级定位,利于跨区域部署 [12] - 从系统架构上进行了长期运行和可用性的系统性设计 [13] - 其L4系统在复杂道路和极端环境下保持稳定的能力,满足了主机厂对工程化成熟度的首要门槛要求 [7][8] 九识智能的成本控制与商业模式 - 公司是少数从一开始就围绕“降本”进行系统设计的L4企业 [15] - 在硬件层面,坚持整车、滑板底盘、传感器架构的高度自研,实现更优的性价比组合 [17] - 无人车采用激光雷达、摄像头多传感器融合方案,完成车规级升级,可在-30℃到+55℃环境中稳定运行超过5年,这种“工程级可靠性”降低了长期维护成本 [17] - 通过构建仿真系统、大数据平台,结合每日积累的海量真实场景数据及AIGC数据,以较低成本高效持续迭代算法 [17] - 通过平台化车型设计(如Z系列、L系列覆盖2~10立方、1~1.8吨重载等多个区间),显著降低了单车型的研发和制造摊销成本 [17] - 已在规模化生产与运营层面验证了成本模型,实现了“把无人车价格打下来” [18] - 对于面临新能源与智能化双重成本压力的主机厂而言,其成本控制能力具有现实价值 [18] 九识智能的产品生态与运营规模 - 公司定位并非单一车型供应商,而是围绕L4能力打造可扩展的产品与生态体系 [19] - 已形成成熟的RoboVan产品体系,并联合合作伙伴拓展出燃气巡检车、饲料投喂车、安防巡检车等多种生态无人车形态 [19] - 产品建立在真实运营数据之上,截至目前,近1.6万台九识无人车已在全球300多座城市落地运营,累计安全运行里程超过7000万公里 [19] - 运营覆盖物流配送、工业运输、市政巡检等多个高频场景 [19] - 这种生态能力使合作方能共同探索多车型智能化路径,并形成可复制的商业模式 [19]
华科&港大提出UniLION:基于线性组 RNN 的统一自动驾驶模型
自动驾驶之心· 2025-12-25 17:33
文章核心观点 - 由香港大学、华中科技大学和百度联合研发的UniLION,是一种基于线性组RNN(线性注意力)的统一自动驾驶框架,旨在解决传统Transformer模型在处理大规模点云和多视角图像时计算效率低下的问题 [2][3] - 该框架作为单一多功能架构,无需显式的时序或多模态融合模块,即可无缝支持LiDAR-only、Temporal LiDAR、LiDAR-Camera和Temporal LiDAR-Camera等多种设置,并在一系列核心自动驾驶任务上实现了具有竞争力甚至最先进的性能 [3][4] - UniLION通过其线性计算复杂度和统一的特征表示,显著降低了计算资源需求和系统设计复杂性,为自动驾驶3D基础模型的开发提供了新视角,并展现出良好的部署潜力 [3][35][37] 研究背景与挑战 - 当前自动驾驶系统面临四大挑战:传统Transformer模型二次方复杂度的注意力机制导致处理长序列数据时计算开销显著;多模态融合通常需要专门设计的复杂模块;时序信息处理依赖额外的专用模块;在单一框架中实现感知、预测和规划等多任务学习具有难度 [5] 技术创新点 - **统一的3D骨干网络**:基于线性组RNN,能够无缝处理不同模态和时序信息,无需任何显式融合模块 [7][8] - **线性计算复杂度**:利用线性组RNN的线性计算复杂度,将多视角图像、LiDAR点云和时序信息直接转换为token进行拼接,在3D空间中进行统一融合 [8] - **紧凑统一的BEV表示**:能够将异构多模态信息和时间序列压缩成紧凑、统一的鸟瞰图特征表示,作为多种下游任务的共享特征 [8] - **多任务并行学习**:采用多任务共享的BEV特征,能够通过并行多任务学习,无缝处理感知、预测和规划等多种自动驾驶任务 [8] 核心架构:UniLION Block - **UniLION Layer**:利用线性组RNN操作符实现长距离特征交互,每个层包含两个操作符,分别基于X轴和Y轴窗口划分执行特征交互 [11] - **3D空间特征描述器**:由3D子流形卷积、LayerNorm层和GELU激活函数组成,解决将3D体素特征展平为1D序列时可能丢失空间信息的问题 [11] - **体素合并与扩展**:专为高度稀疏的点云数据设计,用于特征下采样和上采样,以获取多尺度特征 [11] - **自回归体素生成**:利用线性组RNN的自回归能力,在前景体素周围生成扩散体素,解决体素合并可能导致的信息丢失问题 [11] 统一特征表示与多任务处理 - **多模态特征学习**:将LiDAR点云量化为体素提取特征,同时将多视角图像特征通过深度预测转换为相机体素特征,两者连接后生成多模态体素特征,直接输入3D骨干网络进行融合 [13][15] - **时序特征学习**:将历史多模态体素与当前帧体素进行空间对齐后连接,构建时序体素,同样直接输入3D骨干网络自适应学习时序信息 [13][15] - **多任务训练策略**:采用动态损失平衡策略,计算每个任务的动态损失权重以对齐不同任务间的损失,公式为 $$w_{t a s k}={\frac{\mathcal{L}_{d e t}}{\mathcal{L}_{t a s k}+1e^{-5}}}$$,最终损失为各任务加权损失之和 [16][17][18] 实验结果与性能分析 - **整体性能表现**:在nuScenes数据集上,基于Swin-Tiny图像骨干的多模态UniLION模型在3D物体检测上达到**74.9% NDS**和**72.2% mAP**,在多目标跟踪上达到**76.2% AMOTA**,在BEV地图分割上达到**72.3% mIoU**,在3D占用预测上达到**50.8% RayIoU** [20] - **最强时序多模态版本**:在所有评估任务中均达到最先进或极具竞争力的性能:检测任务**75.4% NDS**和**73.2% mAP**,跟踪任务**76.5% AMOTA**,地图分割**73.3% mIoU**,占用预测**51.3% RayIoU**,车辆运动预测**0.57 minADE**,行人运动预测**0.37 minADE**,规划任务碰撞率仅**0.18%** [20] - **轻量级版本性能**:采用ResNet-50和较低图像分辨率的轻量版UniLION,仍获得**73.6% NDS**、**70.8% mAP**、**75.0% AMOTA**、**71.8% mIoU**和**50.2% RayIoU**的满意性能,表明其在计算资源受限环境下仍具实用性 [22] - **组件有效性验证**:3D空间特征描述器带来**0.7% NDS**、**0.8% mAP**、**1.9% AMOTA**、**0.5% mIoU**和**1.1% RayIoU**的性能提升;体素生成模块带来**0.6% NDS**、**1.1% mAP**、**2.7% AMOTA**、**0.1% mIoU**和**0.3% RayIoU**的提升;所有组件结合相比基线模型综合提升显著 [31] - **动态损失机制影响**:动态损失机制为检测任务提升**0.3% NDS**,跟踪任务提升**0.9% AMOTA**,地图分割提升**0.6% mIoU**,但3D占用预测性能略有下降 [26][29] - **多任务学习影响**:联合训练3D检测和地图分割时,地图分割性能从**68.3% mIoU**显著提升至**71.7% mIoU**;进一步加入占用预测任务后,占用预测能力获得**2.7% RayIoU**的显著提升 [27] 鲁棒性与效率分析 - **传感器错位鲁棒性**:模拟相机与LiDAR错位实验显示,即使在“高”错位级别(相机旋转5.0°并平移0.50m),多模态UniLION仅出现适度性能下降(**0.8% NDS**、**1.3% mAP**、**1.0% AMOTA**、**0.3% mIoU**和**1.4% RayIoU**),且始终优于仅使用LiDAR的版本,展现出强大鲁棒性 [32][36] - **参数鲁棒性**:对不同窗口大小和组大小的分析表明,UniLION在不同配置下表现出显著的稳定性和一致性能,具有良好的外推能力 [30][34] - **计算效率**:凭借线性组RNN的线性计算复杂度,UniLION显著降低了计算资源需求和推理时间,相比基于Transformer的方法在处理大规模数据时效率更高,更适合实际部署,特别是在计算资源受限的环境中 [35] 主要贡献与未来展望 - **主要贡献**:提出了统一的多模态处理框架,消除了对手工设计融合模块的需求;生成了紧凑统一的BEV特征表示作为多任务通用基础;在多项核心任务上实现了卓越性能;具备显著的计算效率优势 [38][44] - **未来展望**:计划将UniLION扩展到支持更多传感器模态(如毫米波雷达);在实际自动驾驶系统中进行应用验证;探索在更大规模数据上进行预训练以进一步提升泛化能力 [39][45]
Physical Intelligence内部员工分享(从数采到VLA再到RL)
自动驾驶之心· 2025-12-25 17:33
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈完全基于行为克隆,其核心挑战在于处理分布外状态、任务不确定性以及动作误差累积,而超越行为克隆的强化学习等方法在真实世界应用中仍面临仿真与现实差距、高质量价值函数学习等重大障碍,行业未来发展将依赖于更高效的人类示范系统、视频模型骨干以及世界模型的进步[8][41][44][46][72][74] 2025年机器人学习栈的剖析 - 当前所有机器人学习系统本质上都是行为克隆系统,通过监督学习模仿人类提供的接近最优的任务演示,预测动作片段[8] - 行为克隆的训练数据主要来源于三种人类演示方式:主从控制方案、手持设备示范以及直接的人类示范视频[9][10] - **主从控制方案**:使用控制器远程操控机器人,优点是能记录全套传感器信息且动作在运动学上可行,缺点是操作速度可能比人类直接操作慢10倍,操作员需要数周练习,且规模化数据采集成本高昂[11][12] - **手持设备示范**:人类操作者手持配备低成本传感器套件的设备完成任务,通过SLAM和逆运动学重建状态,优点是操作更易上手、速度更快、部署成本更低,缺点是存在传感器噪声和域差距,且无法保证动作的动力学可行性[13][14][15][20] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的视频数据,优点是数据规模巨大、多样且以人类自然速度产生,缺点是在重建状态和动作时存在巨大差距,存在视角不一致和运动学不可行等问题[16][17][21] 行为克隆中的难题与解决方案 - 行为克隆策略在实际执行时会因环境微小变化、任务本身的不确定性/多模态性以及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态[19][22][23] - 解决分布外状态性能问题的核心方法不是仅依赖专家示教数据,而是需要引入DAgger风格的方法,即训练模型学会从失败状态中恢复[28][30] - 构建有效的DAgger恢复数据是一门高度迭代的“艺术”,需要精心筛选数据以避免模型学会进入失败状态,这个过程繁琐、耗时且依赖人类的强判断力[32][33][34][35] - DAgger数据迭代通常基于预训练好的基础策略进行,投入足够精力后策略可以变得出乎意料地鲁棒,但随着鲁棒性提升,评估性能所需时间会急剧增加,且离线指标与真实性能相关性弱[36][37] - 行为克隆策略难以超越人类示范的速度,直接加速执行会给控制系统带来压力并导致物理交互错误,筛选最快示范或对速度条件化建模都无法让策略速度超过人类本身[38][39][40][42] 超越行为克隆的挑战 - 行为克隆系统受限于人类示教者提供数据的速度以及修复失败所需的大量人工投入,行业理想是发展能够自我提升、自主探索并达到超人速度的机器人系统[41][43][44][55] - 大语言模型中的强化学习成功得益于其能从完全相同的状态无限次执行以及拥有强大的基础策略,这使得在线、on-policy的强化学习可行,而机器人领域不具备这些条件[47][48][49][53] - **仿真中的强化学习**:面临严重的仿真到现实差距问题,仿真器在物理建模、视觉外观等方面往往是现实世界的糟糕仿制品,完全在仿真中训练的策略迁移到真实世界时表现通常糟糕[58][59] - **真实世界中的强化学习**:避免了仿真到现实的差距,但直接从策略执行中学习改进面临障碍,核心难点在于必须回答反事实问题,而机器人无法从同一状态反复尝试不同动作[63][64][65] - 学习高质量的世界模型或Q/V函数来评估反事实结果仍然是一个开放的研究问题,目前尚未有工作能很好建模灵巧操作任务关心的环境交互动力学,近期方法如优势加权回归仅展示出相较于纯行为克隆的小幅提升[60][61][68][69][70][71] 对机器人学习未来的预测与建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,世界模型将能很好地模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得;传统仿真引擎将成为世界模型的数据生成器,但核心是端到端学习的;接近专家级的示范数据对微调世界模型仍至关重要;真实机器人执行数据仍是实现超人级性能所必需的[74] - **行业建议**:人类示范将长期持续重要,构建能有效降低痛点的软硬件一体人类示范系统是极具价值的创业或合作方向[74] - **创业方向分析**:数据标注是高度商品化、人力成本套利的业务,缺乏技术护城河;售卖预训练数据需要证明能提升客户模型性能,这既是运营也是技术挑战;评估对模型改进闭环至关重要,必须内部完成,无法外包;由于传感器和任务目标差异巨大,具身AGI领域不会出现通用的数据平台[74]
某头部智驾公司离职员工被判大额竞业赔偿......
自动驾驶之心· 2025-12-25 14:42
事件概述 - 某头部智驾公司通过内部全员通告披露了一起针对前员工违反竞业限制义务的司法追责结果 [3] - 法院已作出生效判决认定该员工违反竞业限制义务需向该公司支付巨额赔偿 [3] - 该员工离职后隐匿身份加入竞对企业公司启动司法程序并追查到底 [3] 公司立场与措施 - 公司对任何违反竞业限制的行为持零容忍态度无论员工级别时间节点或去向都将穷尽法律手段追责到底 [3] - 公司强调该判决意味着违约行为将通过该判决永久留在其职业记录里 [3] - 公司提醒全体员工竞业违约不仅意味着经济层面的巨额赔偿也将对个人职业生涯造成长期影响 [3] 行业影响与趋势 - 此事件标志着中国智能驾驶领域头部玩家的竞争烈度显著升级 [4] - 行业竞争焦点正从过去几年的技术路线量产落地速度和融资规模等商业与技术竞争迅速延伸至人才保卫商业秘密保护及法律合规等全方位立体化的竞争层面 [4][5]