自动驾驶之心
搜索文档
自动驾驶技术进入停滞年代
自动驾驶之心· 2026-01-14 17:00
文章核心观点 - 行业认为2025年国内自动驾驶技术的关键词是“停滞”,尽管行业竞争激烈,但技术发展已进入平台期 [2] 技术分享与发布会现状 - 当前自动驾驶技术分享内容“油腻”,充满故事感和高级词汇,但缺乏具体技术细节和算法迭代 [3] - 技术讨论偏向路线与哲学探讨,而非实质性进展,发布会内容同质化严重,演讲者替换对内容影响不大 [3] - 近两年的发布会缺乏新的算法迭代、系统架构升级或基础设施建设新理念 [3] - 行业技术分享的吸引力下降,例如特斯拉AI Day时长从超长缩减至约1小时,且同行不愿多提,反映内容乏善可陈 [5] 过往技术突破与当前对比 - 过去的技术突破曾带来显著进步:BEV感知统一了感知技术路线并成为主流范式 [4];无图化技术让智能驾驶从一线城市下探至全国 [4];端到端技术范式提升了系统绕行能力,降低了接管率 [5] - 近两年技术发布会未能兑现新的技术范式预期,新名词无法带来功能体验的显著进步 [5] - 大洋彼岸的进展(如V14版本MPCI上千、北美0接管)多由用户数据驱动,而非来自行业全面的技术革新分享 [5] 智能驾驶功能平权与市场影响 - 智能驾驶功能正下探至十万甚至几万元价位的车型,削弱了高端车型的议价权 [6] - 功能平权并非源于头部企业技术下放,而是因其发展停滞,让传统玩家借助后发优势看到弯道超车希望 [7] - 尽管可测试车型增多,但头部品牌因功能差异不显著、缺乏新体验而失去媒体关注度,性能提升多来自规控策略的细微打磨 [7] - 后来者品牌在供应商支持下进步迅速,但消费者关注度有限,部分用户(如网约车司机)对功能无感,更关心成本与生计 [7] 行业研发动力与未来展望 - 根据彼得·蒂尔的观点,垄断带来的超额利润可支撑大规模研发投入以促进技术进步 [8] - 当前的“平权”趋势可能导致技术先驱无法获得研发红利,难以支撑持续高投入,进而影响行业长远发展 [8] - 行业未来是走向共同平庸,还是能突破停滞、终结L2并实现无人驾驶,近几年将是关键时期 [8]
图森未来智驾方案解析:感知、定位、规划和数据闭环
自动驾驶之心· 2026-01-14 17:00
整体技术路线 - 核心思想是感知与规控紧耦合,并输出不确定性,感知系统应输出概率分布而非确定性结果[8][10] - 概率化感知输出障碍物的核心特征概率分布,包括位置、速度、大小和类别[11] - 不确定性估计至关重要,它使系统能够量化自身的认知不确定性,从而提前规避风险,对安全决策至关重要[11] - 面临的主要挑战包括算法局限、传感器噪声和环境本质模糊性带来的不可避免的不确定性,以及需要研发能输出概率分布的算法和能利用不确定性信息的规控算法[12][15] 感知系统 - 采用完全稀疏的感知栈,从成熟的二维目标检测出发生成初始“种子”目标,再通过Transformer和稀疏注意力机制收集信息并回归三维检测框[19][20] - 基于物体的多视角3D检测框架在透视视图下操作,无需显式构建BEV空间,通过稀疏注意力进行高效信息聚合[22][26] - 从2D检测框出发的优势在于:利用成熟的检测器框架和高质量易获取的标注数据,实现相机间的冗余互补,并利用图像丰富的语义信息实现高准确度和高召回率[24][27] - 极度压榨目标跟踪带来的时序信息,对同一目标在不同帧的信息进行融合[30] - 激光雷达感知采用稀疏计算,直接使用稀疏卷积,并基于类似聚类的逻辑处理点云,之后进行二阶段精修以补全目标形状[33][35][38] - 通过高度的信息冗余、长时间的观察和远距离感知来应对异常情况,例如使用多个摄像头长时间观察前方500米的路况[41] 定位系统 - 定位是自动驾驶的基石,目标是精确、实时地确定车辆自身的三维位置和三维姿态[46] - 方案核心是多传感器融合,输入传感器包括激光雷达、摄像头、RTK GNSS、IMU、轮速计和高精地图[47] - 算法核心能力是通过概率化方法处理各传感器输入,生成对车辆运动状态的最合理估计,并自动剔除异常值[48] - 两大技术创新点包括:能智能删除异常值的多信源定位融合算法,以及自研的RTK GNSS紧耦合定位方案,后者通过融合原始观测数据提升系统鲁棒性[49][50][53] - 针对卡车的核心挑战是超高精度姿态估计,尤其是偏航角,因为微小误差会被长感知距离急剧放大,例如100米外1°的偏航误差会导致约1.74米的横向偏差[50][53] - 方案达成的关键性能是将用于长距离感知的摄像头的姿态(主要是偏航角)精度控制在0.1°以内,这在100米处仅引入约0.17米的误差[53] 预测系统 - 早期方案包括栅格化表示和矢量化表示两种主流技术路线[58][65] - 栅格化表示将动态轨迹和静态地图信息渲染成多通道的鸟瞰图图像,使用CNN进行编码和预测,其优势是应用相对成熟、对结构化/非结构化道路兼容性好,但主要缺陷是交互信息难以包含在渲染中,且计算成本高[60][62][63][70] - 矢量化表示将地图元素和轨迹表示为矢量,通过图神经网络进行编码,其核心优势是能显式建模交互、数据表征紧凑高效,对结构化特征表达精确[66][71][72] - 公司方案采用一种务实的混合策略,针对不同场景结合两者优势:对于结构化道路主要采用自研的矢量化表示方法,对于非结构化道路则采用栅格化表示作为补充[73][75][77] 规划与控制 - 公司方案的核心是联合预测与规划,在处理高度动态的多车交互时,同时考虑安全性与灵活性[84] - 对于自车的每条规划轨迹,使用博弈论模型预测他车行为的概率,并加入Contingency分支来评估轨迹的安全性,允许自车偏离预定轨迹以应对他车未来的行为[84] - 通过Contingency方案,规划策略本质上考虑了未来多种可能场景下自车的应对措施[85] - 控制策略从开环控制升级为自适应闭环控制,以解决开环控制缺乏鲁棒性的问题[91][92] - 闭环控制的核心是反馈控制器,它实时读取车辆当前状态,与理想轨迹比较并计算出消除误差的控制指令,形成控制闭环[92][93] - 核心升级在于自适应与在线学习,控制器参数可根据实时表现或驾驶模式自动调整,并结合车辆动力学仿真进行在线学习和策略优化[94][95][99] - 该框架构建了一个完整的“感知-决策-控制-学习”闭环,其核心目标是在考虑他车不确定交互、自车物理约束和综合驾驶目标的前提下,通过全局优化找到最优自车控制策略[95][97] - 框架包含概率交互Agent模型、闭环车辆动力学仿真与在线学习、Reward/Cost模型和全局优化器等关键组件[98][100][105] 仿真与数据系统 - 端到端仿真是更高级别的集成测试,是将整个算法系统作为黑盒进行测试的基础[106][107] - 仿真系统架构包括仿真引擎、车辆模型、传感器模拟等,支持真实及人工编辑场景,用于测试整体算法流程[108][109] - 端到端仿真的常见实现包括路测数据回放和虚拟引擎渲染,两者各有优劣[111] - 公司采用轨迹级别的离线自动标注方案,通过双向多目标跟踪和轨迹特征提取,实现“一帧检测,永不丢失”的效果,其标注效果(如3D AP达到90.19)超越了人类标注水平[112][113][116]
探寻世界模型最优解!SGDrive:层次化世界认知框架,VLA再升级(理想&复旦等)
自动驾驶之心· 2026-01-14 08:48
文章核心观点 - 复旦大学、上海创智学院、理想汽车、同济大学和萨里大学联合提出了一种名为SGDrive的新型自动驾驶框架,该框架通过将结构化和层次化的驾驶世界知识整合到视觉-语言模型中,旨在解决现有端到端方法在复杂场景中缺乏显式因果推理和高层理解的问题,从而提升自动驾驶的安全性和可靠性 [2][3][12][15] 背景回顾 - 端到端自动驾驶技术从UniAD、VAD到SparseDrive不断演进,但缺乏显式因果推理和高层场景理解,在复杂长尾场景中存在局限 [6] - 大语言模型和视觉-语言模型的出现,为整合先验知识和复杂推理能力以缓解传统方法不足提供了可能 [6] - 早期尝试将VLM用于驾驶规划存在局限:直接生成轨迹坐标存在精度损失,而基于扩散模型的解码器方法则未能解决VLM在空间感知、关键信息辨别和未来状态预测方面的根本缺陷 [6][9][10][11] 核心方法:层次化世界认知框架 - **整体设计理念**:SGDrive通过引入一组特殊的世界查询token,引导VLM关注驾驶相关的关键知识并预测其未来演变,从而增强VLM的3D空间感知能力 [15] - **问题定义**:框架建模为两个互补子问题:提取代表性世界知识和预测未来世界状态 [16] - **世界查询编码器**:查询token并非随机初始化,而是通过融合自车状态、历史轨迹和视觉特征进行初始化的“先验感知”查询,能有效捕获场景上下文 [17][20][21] - **层次化世界知识表征**:受人类驾驶认知启发,从三个维度组织知识: - **场景几何布局感知**:专注于感知和预测场景的3D占据结构,回答“位置能否通行”的问题,并使用VAE解码器进行重建,通过重采样策略解决场景稀疏性挑战 [22][23][24] - **安全关键智能体检测**:基于与自车轨迹的交互可能性和可见性,选择性关注可能影响驾驶安全的车辆、行人和骑行者,而非所有对象,并预测其当前和未来的3D状态 [25] - **短期驾驶目标预测**:预测约4秒后的自车目标姿态,为轨迹规划提供高层语义指导,确保驾驶行为的完整性和一致性 [28][30] - **结构化块状注意力掩码**:为防止不同层次知识间的信息泄漏,采用块状注意力机制,允许同类查询互相关注,但禁止跨类别查询互相关注,以保持表征的独立性和准确性 [31][33] - **扩散规划器**:利用扩散Transformer,以学习到的层次化世界知识为条件,从带噪声的初始化中生成平滑、连续的未来轨迹点序列 [34][35] - **两阶段训练策略**: - **阶段一(监督微调)**:训练VLM联合预测视觉问答答案、场景几何、安全关键智能体和短期驾驶目标 [36][37] - **阶段二(扩散规划器训练)**:冻结VLM作为世界模型,专门训练扩散规划器生成轨迹,实现“理解世界”与“生成动作”的解耦 [36][39] 实验结果 - **主要结果**: - 在NAVSIM v1测试集上,基于InternVL3-2B骨干的SGDrive在仅使用相机输入的方法中达到了87.4 PDMS的SOTA性能,超越了更大的通用VLM(如InternVL3-8B)4.1 PDMS,也超越了之前SOTA的驾驶VLM方法Recogdrive-8B 0.6 PDMS [39] - 在关键的碰撞相关指标NC和TTC上取得最佳分数,证明了其安全性 [3][39] - 在与强化学习框架集成后,PDMS进一步提升至91.1,超越所有现有方法 [40] - 在NAVSIM v2测试集上,SGDrive达到86.2 EPDMS,超越之前最先进的ReCogDrive-8B 2.6个百分点,并在安全指标上保持领先 [40][41] - **消融实验**: - **世界知识预测有效性**:仅表征当前多层世界状态使PDMS提升2.5个百分点,增加未来世界预测后性能进一步提升至85.5 PDMS,表明预测未来演变能增强安全意识和规划效率 [42] - **世界查询子成分有效性**:逐步添加场景、智能体、目标和未来状态信息来引导规划器,PDMS从86.0提升至87.4,且安全指标(如NC、TTC)获得改善 [43] - **结构化注意力掩码有效性**:与因果注意力相比,结构化注意力将EP从80.1提升至81.2,整体PDMS从87.1提升至87.4,产生了更清晰的任务特定嵌入和更真实的驾驶行为 [44][45] - **定性结果**: - 与RecogDrive对比显示,SGDrive在复杂交互和弯道场景中能生成更安全、无碰撞的轨迹 [46] - 可视化表明模型预测的层次化世界知识与真值标注高度对齐 [48] - 模型能根据自车运动状态(如直行高速、转弯)自适应调整感知焦点和范围,体现了对驾驶场景的有效理解 [50][51] 结论 - SGDrive框架通过将驾驶理解分解为场景-智能体-目标的层次结构,并预测其未来演化,显式地组织了VLM的表征学习 [52] - 结合结构化注意力掩码和基于DiT的规划器,该方法在NAVSIM基准测试中实现了安全驾驶方面的最先进性能 [52]
自驾转具身!使用低成本机械臂复现pi0和pi0.5~
自动驾驶之心· 2026-01-14 08:48
行业现状与人才需求 - 视觉语言动作模型算法人才在行业内非常“急需”,尤其是在自动驾驶领域,这一点从大量职位需求和论文数量上得到体现 [2] - 自动驾驶领域的VLA与具身智能领域的VLA虽有相通之处,但底层差距很大 [2] 技术发展面临的挑战 - VLA模型在开发和优化上存在困难,表现为模型“不好调”且数据采集过程麻烦,这是从业者普遍反映的问题 [3] - 具身智能领域高度依赖硬件本体,仅通过论文研究和仿真实验难以了解算法在真实环境中的表现,与其他领域区别显著 [4] - 真实数据采集需要借助遥操、VR、全身动捕等硬件手段,许多具身智能公司坚持“真机数据”路线,因为仿真和互联网数据在泛化性能上无法保证 [5] - 真机数据采集本身存在困难,采集的数据可能不好用,且整个流程周期长,在模型优化上也面临挑战,有时效果难以调出或在真机上表现不佳 [5] - 对于初学者而言,将数据、VLA模型、训练优化、部署整套流程打通非常困难,部分从业者甚至花费半年时间“踩坑”仍难以入门或取得好效果 [8] - 对于π0、π0.5、GR00T等前沿模型,其数据采集和模型训练过程中包含许多不公开的技巧 [8] 解决方案与课程介绍 - 有机构基于SO-100机械臂和LeRobot平台,复现了ACT、GR00T、π0、π0.5等方法,旨在解决学习者缺乏真机、不知如何上手的问题 [9] - 针对VLA技术更新快、学习难度大的痛点,有平台联合领域专家推出了《面向实战与求职的VLA小班课》,提供实战教程以节省学习者“踩坑”时间 [10] - 该课程项目经验可写入简历,其中的技巧可作为面试答案,帮助学习者高效积累经验 [11] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法与评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解 [13] - 该课程被描述为目前该平台最大、最完整的课程,采用软硬结合的方式 [13] - 购买课程的学员将获赠一套包含示教臂和执行臂的SO-100机械臂硬件 [14] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表过10篇以上学术论文 [17] 课程目标人群与要求 - 课程面向正在具身领域求职需要实战项目者、VLA领域需进阶者、从事具身智能研究的各学历学生、希望从传统CV/机器人/自动驾驶转行者,以及对领域感兴趣的其他人员 [21] - 课程对硬件有建议配置:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,也可自租云服务器资源 [21] - 学员需具备一定的Python和PyTorch基础 [21] 预期学习成果 - 学员将掌握真机的调试与数据采集技能 [21] - 学员将掌握各类VLA算法在真机上的部署 [21] - 学员将对VLA模型的量化有深入了解 [21] - 学员将对具身智能产业及其落地应用有清晰认识 [21] - 学员的简历将获得足够多的项目支撑 [21] - 学员在学完后将达到具备1-2年以上经验的算法工程师水平 [21] 课程安排 - 课程定于2025年12月30日正式开课,后续章节将延续至2026年2月25日 [22]
摸底地平线HSD一段式端到端的方案设计
自动驾驶之心· 2026-01-13 18:14
文章核心观点 - 地平线公司提出的两篇关于一段式端到端自动驾驶方案(HSD)的核心文章,即DiffusionDrive和ResAD,为行业提供了重要的技术思路和启发 [2][3] - DiffusionDrive的核心贡献在于其基于锚点(anchor-based)的轨迹生成方法,旨在降低训练难度并提升推理实时性 [4][8][10] - ResAD的核心贡献在于其残差监督设计,通过预测未来轨迹与惯性外推轨迹之间的残差,使模型更专注于学习驾驶行为的多样性,有效应对数据分布不平衡问题 [11][12][17] DiffusionDrive方案总结 - **整体架构**:方案整体架构可分为三部分:感知信息、导航信息和轨迹生成 [6] - **感知信息**:核心是将感知任务的信息表征传递给规划器,一段式方案可采用稠密(dense)的BEV特征图或稀疏(sparse)的实例特征等不同玩法,通常结合公司现有技术栈适配 [6] - **导航信息**:实践中确保模型遵循正确导航路线极具挑战性,特别是在复杂路况(如上海)下,算法设计需考虑导航平台、信息丰富度及定位能力等多方面因素 [7] - **轨迹生成**:采用“截断扩散”(Truncated Diffusion)方法,基于人类驾驶行为存在固定模式的观察 [8] - 具体流程:1) 从训练集中通过K-Means聚类出N个代表常见驾驶行为的轨迹序列作为锚点;2) 训练时对这些锚点轨迹施加较弱的噪声,从而减少去噪所需的步数;3) 训练时计算与真值轨迹最接近的锚点的去噪轨迹损失,并为每个锚点预测存在性 [9] - **方案优势**:基于锚点的轨迹生成方法能降低训练收敛难度,减少推理时的去噪次数需求,并且可根据算法设计锚点数量以控制推理成本 [8][9][10] - **潜在疑问**:文章未涉及系统时序模块,因此轨迹在时序上的稳定性如何保证存疑 [10] ResAD方案总结 - **核心设计**:方案最有意思的部分是残差设计,模型不直接生成未来轨迹,而是预测未来轨迹与基于惯性外推的未来轨迹之间的残差 [12] - **残差正则化**:由于距离当前时刻越远,残差通常越大,因此需要对时序上的残差进行正则化处理,以压缩其区间 [13] - **设计优势**:残差监督能使不同未来时刻的轨迹分布更一致,这种一致性非常有益:在损失计算上,轨迹预测误差不会被距离自车较远的点过度影响;在学习难度上,模型更不易在数据分布不平衡的情况下“偷懒” [14][17] - **惯性参考扰动**:考虑到残差设计,其生成过程中的噪声扰动方式也不同,噪声直接作用于初始速度,并通过控制横向(lat)和纵向(lon)的噪声大小来调整模型对不同方向的学习难度和关注程度,会设置K种噪声以供推理时按需选择 [15] - **轨迹排序器(Ranker)**:方案提到了轨迹选择器,将top-k的预测轨迹编码作为查询(Q),环境信息(感知和导航信息)作为键(K)和值(V),通过Transformer处理,同时加入自车状态(ego status)的嵌入,来预测多个可自定义的度量分数(metric scores) [16] - **方案评价**:正则化的残差监督令人印象深刻,它将惯性部分从预测中剥离,使模型专注于真正的多样性部分,有效对抗了数据采集(数采)中大量匀速行驶数据导致的不平衡分布问题 [17] - **改进建议**:轨迹排序器部分解答了关于DiffusionDrive轨迹稳定性的疑问,但可以进一步设计为时序模块,以提升选择的稳定性 [17]
自动驾驶的人才,正疯狂涌入具身智能......
自动驾驶之心· 2026-01-13 17:52
行业趋势与人才流动 - 当前行业共识是自动驾驶进入存量阶段,而具身智能被视为下一波技术浪潮 [2] - 大量人才正从自动驾驶领域流向具身智能领域,技术大佬出走方向统一,表明两领域技术共通性强且人才流动趋势明显 [2] - 具身智能的发展阵仗类似2016/2017年的自动驾驶热潮,但预计发展速度更快,想象空间更大 [2] - 多家自动驾驶公司已开始布局机器人赛道,并着手搭建具身智能团队 [3] 关键技术进展:π系列模型 - π系列是视觉语言动作(VLA)领域的里程碑,其核心在于以持续技术突破引领生成式AI时代的机器人学习范式,重塑行业应用逻辑 [4] - π0(2024年10月):首创Flow Matching连续动作轨迹预测,突破传统离散动作精度瓶颈,为精密制造、自动驾驶等场景提供毫米级操作基础 [5] - π0.5(2025年4月):采用异构任务协同训练与层次化推理,在陌生环境复杂任务泛化成功率高达94%,通过人类视频训练使数据成本降低90%,大幅提升跨本体适应性并降低规模化部署门槛 [5] - π0.6(2025年11月):通过RECAP强化学习赋能零样本泛化与高效微调,真实世界效率与精度超越人类,实现工业级100%任务完成率与数十分钟快速换型,推动柔性生产落地 [5] - π系列模型能力引领通用机器人从实验室走向工业制造、家庭服务等实景应用,成为2025年以来业界众多VLA模型的核心参考 [5] - 不少具身智能公司基于π系列搭建真机演示(如叠衣服、拆箱子),或基于其思路进行改进优化 [5] 技术应用挑战与市场需求 - π系列模型存在调试困难、不易达到预期效果的问题,导致使用者需要花费大量时间“踩坑” [6] - 对于初学者而言,基于π系列完成从数据、VLA模型训练优化到部署的全套任务非常困难,有的甚至踩坑半年仍无法有效入门 [7] - 市场存在对项目指导的强烈需求,有项目经验有助于转行面试 [8][13] - 对于更新快速的技术路线如VLA,如何有效学习难倒了相当多的从业者,即使拥有真机设备也常不知如何使用 [10] 行业培训解决方案 - “具身智能之心”平台基于SO-100机械臂复现了π0、π0.5、ACT、GR00T等方法,旨在解决行业缺乏真机与项目指导的问题 [9] - 该平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》,手把手指导复现π0系列 [10] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [14][15] - 购买课程的学员将获赠一套SO-100机械臂(包含示教臂和执行臂) [17] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,聚焦产学研协同落地,并在顶级期刊发表学术论文10篇以上 [20] - 课程目标学员包括:正在具身领域求职需实战项目者、VLA领域需进阶者、从事具身智能研究的本硕博学生、希望从传统CV/机器人/自动驾驶转行者,以及对领域感兴趣的其他人员 [24] - 课程对硬件有建议配置:推理建议RTX 3060及以上,训练建议2张以上RTX 3090 Ti,学员也可自租云服务器资源 [24] - 学员学后预期收获包括:对具身产业及落地有清晰认识、简历上有足够项目支撑、达到1-2年以上算法工程师经验水平 [28] - 课程于2025年12月30日正式开课,分九章进行,有效期2年并提供微信群答疑 [25][29]
为什么自动驾驶领域内的强化学习,没有很好的落地?
自动驾驶之心· 2026-01-13 11:10
自动驾驶端到端技术发展现状与挑战 - 强化学习在自动驾驶决策中至关重要,但面临奖励机制设计的核心难题,即平衡安全与效率时易出现“奖励破解”问题,导致性能难以全面提升[2] - 自动驾驶的强化学习问题比具身智能更复杂,需在达成行驶目标的同时严格遵守驾驶规则,并解决长时序决策、多目标权衡、不确定交互建模及规则难以穷举的“灰色决策区”等挑战[2] - 强化学习进一步落地的关键在于设计能与强化学习良好配合的系统架构[3] - 主流依赖模仿学习的端到端方案存在轨迹不稳定等问题,核心原因是模型缺乏基于环境反馈的持续修正能力[4] - 行业头部公司已形成完整的模型迭代思路:模仿学习训练 → 闭环强化学习 → 规则兜底(时空联合规划),并引入导航信息,该体系涉及模型、算法、数据到规则,人才壁垒极高[5] 自动驾驶端到端领域人才市场状况 - 该领域因技术壁垒高、人才稀缺,薪资水平非常慷慨,拥有五年以上经验的头部人才薪资普遍在100万元人民币起步,且上不封顶[6] - 量产落地过程中需克服众多复杂场景的挑战,如拥堵加塞、静态偏航、碰撞场景等,并需精准判断何时进行数据挖掘或数据清洗[7] - 端到端自动驾驶是一个系统工程,而非单点技巧,行业面临现实问题:大量从业者仅有论文基础,缺乏量产落地的系统经验,即使已从事端到端开发的工程师,其解决实际落地场景的能力也普遍较弱[7] 端到端自动驾驶课程核心内容架构 - **课程概述与基础**:介绍感知任务合并与规控算法学习化等主流趋势,讲解一体化感知架构、经典规控学习化方案,并详细说明当前端到端的开源数据集与评测方式[13] - **两段式端到端算法**:讲解两段式框架的建模方式、感知与规划控制的信息传递机制,分析其优缺点,阐明下游消费的感知信息及消费方式,并通过PLUTO算法进行实战[14] - **一段式端到端算法**:介绍性能更优的一段式框架,因其可实现信息无损传递,课程涵盖基于VLA、基于Diffusion等多种方案,并通过VAD系列进行深入学习[15] - **导航信息集成**:讲解导航地图在引导、选路、选道中的关键作用,介绍主流导航地图格式与内容,以及其在端到端模型中的编码、嵌入方式,以更有效发挥其能力[16] - **强化学习算法应用**:指出纯模仿学习的不足,需结合强化学习以学习因果关系并实现泛化,本章重点介绍强化学习算法及其训练策略[17] - **轨迹输出优化实战**:进行NN Planner项目实战,包括基于模仿学习的算法(重点介绍扩散模型与自回归算法),并在监督微调后继续讲解基于强化学习的算法实战[18] - **量产兜底方案**:介绍量产中为保证轨迹稳定可靠的后处理兜底逻辑,包括轨迹平滑优化算法、多模态轨迹打分搜索算法等[19] - **量产经验分享**:从数据、模型、场景、规则等多视角分享量产经验,剖析如何选用合适工具与策略以快速提升系统能力边界[20] 目标学员与课程要求 - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端等常见算法知识,掌握强化学习与扩散模型理论基础,并拥有Python、PyTorch及MMDetection3D框架的使用经验,同时需要自备算力在GeForce RTX 4090及以上的GPU[21][22]
百度智驾方案解析
自动驾驶之心· 2026-01-13 11:10
百度自动驾驶技术架构 - 公司采用感知大模型与规划大模型相结合的架构 [2] - 系统采用端到端联合训练方式,从原始传感器时序数据直接到油门和转向控制输出 [3][5] - 联合训练确保感知部分的中间态数据以模型自身可理解的隐式数据空间形式,携带最佳信息丰度和准确度进入决策规划网络 [5] 端到端联合训练的具体实现 - 在端到端联合训练前,感知和规划分模型的独立训练与调整仍是必要的,以确保中间态数据符合人类对感知结果的判断标准 [5] - 联合架构中保留了感知网络的Decoder(如道路结构decoder、障碍物decoder)以及“显示三维向量空间”,以增加模型的可读性、可监督性和问题可追溯性 [5] - 规划侧切割出一个局部视图,用于处理更精细的规划任务 [6] 感知结果与决策规划的融合 - 显式的感知结果(人类独立训练下的感知输出,如道路参与目标状态和道路状态目标)与隐式的BEV特征数据一同被送入决策规划网络 [8] - 决策规划网络对显式三维向量空间进行Encoder编码,然后与隐式BEV数据联合送入Transformer模型 [8] - Transformer模型用于在大量数据间挖掘隐藏关系,寻找最佳轨迹匹配 [8] 系统整体方案 - 公司构建了包含数据闭环的系统解决方案 [9][10] - 系统解决方案涵盖感知系统与计算平台 [11] - 方案采用了全维冗余设计以提升系统可靠性 [13]
NAVSIM SOTA!LatentVLA:通过潜在动作预测构建高效自驾VLA(OpenDriveLab&理想)
自动驾驶之心· 2026-01-12 17:20
文章核心观点 - 上海创智学院、OpenDriveLab和理想汽车联合提出了一种名为LatentVLA的新型端到端自动驾驶框架,该框架通过自监督潜在动作预测训练视觉-语言模型,并利用知识蒸馏将其能力迁移至高效的纯视觉网络,旨在解决VLM在自动驾驶中面临的轨迹预测不精确、依赖语言标注和推理效率低下三大挑战,在NAVSIM基准测试中以92.4的PDMS得分创造了新的SOTA,并在nuScenes基准上展示了强大的零样本泛化能力 [2][17][52] 背景与挑战 - **端到端自动驾驶的局限性**:尽管端到端方法能直接从传感器输入映射到轨迹,但其性能受限于训练数据的场景多样性,难以应对真实世界中复杂多变的长尾场景 [4][10] - **视觉-语言模型在自动驾驶中的三大挑战**: 1. **数值不敏感与轨迹不精确**:VLM基于离散语言标记的自回归训练方式不适合连续动作空间,导致输出不稳定,特别是在长时域轨迹规划中精度受损 [4] 2. **数据标注负担与语言偏差**:依赖大规模语言标注(如VQA风格)会引入语言偏差,限制对隐性驾驶知识的捕获,可能导致文本描述与实际驾驶行为不匹配 [5] 3. **计算效率低与认知不对齐**:采用思维链式推理的VLM计算成本高、耗时长,难以满足实时部署要求 [5] 解决方案:LatentVLA框架 - **核心创新**:提出整合VLM优势与传统视觉方法效率和精度的新型框架 [17] - **两大核心技术**: 1. **自监督潜在动作预测**:采用以自车为中心的潜在动作预测作为自监督学习目标来训练VLM,完全无需语言标注,能从无标注轨迹数据中学习丰富的驾驶表征,减轻语言偏差并降低标注负担 [6][21] 2. **知识蒸馏机制**:将训练好的VLM(教师模型)学到的表征和推理能力蒸馏到规划Transformer(学生模型)中,再将其特征与传统端到端方法的特征融合,使学生模型继承VLM泛化能力的同时,保持传统方法的计算效率和实时性能 [6][21][35] - **潜在动作学习与解耦**: - 通过编码器-解码器架构和VQ-VAE,从视觉观测中学习并离散化连续动作,生成量化的潜在动作表征 [23] - 提出潜在动作解耦,通过两阶段过程分离自车运动与环境变化,使模型能更准确地捕获驾驶意图,提升规划质量 [23][25] 实验结果与性能 - **NAVSIM基准测试**: - LatentVLA(iPad)版本获得92.4的PDMS得分,刷新SOTA,比原生iPad方法(91.7)提高了0.7分 [2][41][42] - LatentVLA(TransFuser)版本将得分从84.0提升至86.6 [41][42] - 知识蒸馏版本性能接近完整模型,Distilled LatentVLA(iPad)得分为92.1,性能保持率达99.7%,同时比原生iPad提高0.4分 [41] - **nuScenes零样本泛化能力**: - LatentVLA(iPad)在nuScenes开环规划中平均L2误差为0.33米,在顶级VLM方法中排名靠前 [44][46] - 在关键短期时间域表现优异,1秒时L2误差为0.13米,2秒时为0.28米,匹配或超越了部分基线方法 [44] - 尽管训练数据规模和多样性显著少于基线方法(如EMMA+、ImpromptuVLA),但仍展现出强大的跨数据集泛化能力 [44] - **推理速度提升**: - 直接集成VLA模型推理延迟高(约790ms),帧率低于1.3 FPS,无法满足实时要求 [51] - 经过知识蒸馏后,推理延迟降低约3.8倍(至约210ms),帧率提升近3.7倍(至约4.8 FPS),显著加速 [51] - **定性分析优势**:在环岛、交叉路口等复杂场景中,LatentVLA能生成准确、平滑且安全的轨迹,而基线方法可能出现方向误判或轨迹偏离可行驶区域的情况 [48] 消融实验验证 - **关键组件有效性**:系统性地整合视觉嵌入、动作嵌入以及将语言条件改为轨迹条件,均能持续提升模型性能,最终LatentVLA(TransFuser)的PDMS得分从基线84.0提升至86.6 [50] - **训练数据影响**:使用更大规模的OpenScene数据集进行潜在动作模型训练,相比仅使用navtrain数据集能带来进一步的性能提升 [50]
我们在招募这些方向的合伙人(世界模型/4D标注/RL)
自动驾驶之心· 2026-01-12 17:20
行业阶段与平台定位 - 自动驾驶行业已进入下半场 行业面临难点与痛点需要更多参与者共同突破 [2] - 公司作为国内自动驾驶领域的技术创作平台 旨在行业激流中贡献力量 成为能为行业带来价值的平台 [2] 业务发展方向与人才需求 - 公司业务发展需要更多优秀伙伴加入 [3] - 主要业务方向涵盖自动驾驶产品经理 4D标注与数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个前沿技术方向 [4] - 岗位职责主要面向B端与C端的自动驾驶培训合作 课程开发以及原创文章创作 [5] - B端客户面向企业 高校及研究院所 [5] - C端客户面向学生及求职人群 [5] 合作方式 - 有关待遇与合作方式的进一步沟通 可通过指定微信联系 [6]