端到端自动驾驶
搜索文档
刷新NAVSIM SOTA!端到端自动驾驶新框架Masked Diffusion
自动驾驶之心· 2025-12-26 11:32
来源 | 机器之心 原文链接: 刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。然而,将感知、推理与规划压缩进单一模型 后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本 质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当前 的短期操控动作。此外,基于模仿学习的模型容易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之间灵活切 换。 针对上述痛点, 复旦大学与引望智能联合提出了 WAM-Diff 框架 。该研究创新 ...
刷新NAVSIM SOTA,复旦提出端到端自动驾驶新框架
具身智能之心· 2025-12-26 08:55
文章核心观点 - 端到端自动驾驶的范式正从模块化向VLA模型主导的“大一统”转变,但主流自回归生成范式存在局限性,其强制性的“从左到右”时序逻辑与人类“以终为始”的驾驶直觉不符,且基于模仿学习的模型易陷入“平均司机”陷阱 [1] - 复旦大学与引望智能联合提出的WAM-Diff框架,通过引入离散掩码扩散模型、结合稀疏混合专家架构与在线强化学习,构建了一套非自回归的生成式规划系统,有效解决了上述痛点 [2] - WAM-Diff在权威评测基准NAVSIM上取得了最先进的成绩,证明了非自回归生成范式在复杂自动驾驶场景下的巨大潜力,是通往高阶自动驾驶的关键技术探索 [2][25] 技术框架与核心创新 - **生成逻辑重构**:WAM-Diff的核心创新在于重新思考生成逻辑,采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有Token,实现了全局优化,摆脱了自回归模型单向时序的束缚 [4][5] - **动作表示离散化**:框架引入了混合离散动作分词技术,将连续的2D轨迹坐标量化为高精度离散Token,并与驾驶指令的语义Token置于共享词表中,实现了在统一特征空间内的理解与规划 [5] - **“以终为始”的解码策略**:通过探索因果序、反因果序和随机序三种解码策略,发现反因果序策略表现最佳,即先确定远期驾驶意图再反推近期动作,从模型层面验证了人类驾驶员的直觉思维,并取得了91.0的PDMS最高分 [9][20][21] 模型架构与训练优化 - **稀疏混合专家网络**:通过集成LoRA-MoE架构,模型包含64个轻量级专家,能根据场景动态路由与稀疏激活,在控制计算开销的同时显著提升了模型容量与场景适应性 [12] - **多任务联合训练**:模型通过驾驶VQA等任务进行联合训练,使专家网络不仅掌握驾驶技能,更理解决策背后的因果逻辑,增强了规划的可解释性与泛化能力 [12] - **在线强化学习优化**:引入了分组序列策略优化算法,将优化粒度从单步Token提升至完整轨迹序列,依据安全性、合规性及舒适性等多维指标对整条轨迹评分,引导模型生成更安全、更规范的规划结果 [14] 性能表现与实验结果 - **NAVSIM-v1基准测试**:WAM-Diff取得了91.0的PDMS分数,超越了DiffusionDrive、ReCogDrive以及DriveVLA-W0等主流基线模型 [16][17] - **NAVSIM-v2基准测试**:在引入了更严格指标的v2测试中,模型取得了89.7的EPDMS成绩,相较于DiffusionDrive提升了5.2分,证明了其在平衡安全性、合规性与舒适性方面的稳健性 [18][19] - **消融研究验证**:对解码策略的消融研究证实,反因果序策略取得了最佳的闭环性能,支持了“以终为始”规划直觉的有效性 [20][21] - **定性分析**:可视化结果展示了模型在复杂博弈场景下的稳定性,验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用 [22]
刚做了一份世界模型的学习路线图,面向初学者......
自动驾驶之心· 2025-12-25 11:24
世界模型与端到端自动驾驶的关系 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 行业将自动驾驶世界模型的研究收敛于生成和重建两大领域[2] - 目前主流应用是利用世界模型进行闭环仿真,以应对Corner Case成本过高的问题[2] 世界模型课程核心内容架构 - 课程第一章概述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 课程第二章涵盖世界模型的基础知识,包括场景表征、Transformer、BEV感知等,是求职面试的高频技术点[5][6] - 课程第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 课程第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等算法,并以OpenDWM进行实战[7] - 课程第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划[8] - 课程第六章分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备经验[9] 世界模型涉及的关键技术栈 - 基础技术包括Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础[11] - 涉及BEV感知基础知识及占用网络[11] - 涵盖扩散模型理论,该模型是输出多模轨迹的热点技术[11] - 包括闭环仿真相关的NeRF和3DGS技术[11] - 也涉及其他生成式模型,如VAE、GAN以及Next Token Prediction[11] 世界模型相关的重要研究 - 国内重要研究包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World[12] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,助力从业者深入理解端到端技术[10] - 学员需自备GPU,推荐算力在4090及以上[13] - 学员需具备自动驾驶领域基础,熟悉其基本模块[13] - 学员需了解transformer大模型、扩散模型、BEV感知等基本概念[13] - 学员需具备一定的概率论、线性代数及Python、PyTorch基础[13] - 课程期望使学员达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展及BEV感知等关键技术,并能复现主流算法框架[13] 课程进度安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 各章节解锁时间:第一章12月10日,第二章1月1日,第三章1月20日,第四章2月4日,第五章2月24日,第六章3月1日[15]
刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架
机器之心· 2025-12-25 11:12
行业技术范式转移 - 端到端自动驾驶正经历从“模块化”向“大一统”的范式转移,VLA模型兴起[2] - 主流自回归生成范式存在局限性,其“从左到右”的时序逻辑与人类驾驶员“以终为始”的思维直觉存在本质差异[2] - 基于模仿学习的模型易陷入“平均司机”陷阱,倾向于拟合数据分布均值,导致策略平庸化,难以在激进与保守间灵活切换[2] 核心解决方案:WAM-Diff框架 - 复旦大学与引望智能联合提出WAM-Diff框架,旨在解决现有痛点[2] - 框架创新性地将离散掩码扩散模型引入VLA自动驾驶规划,并结合稀疏混合专家架构与在线强化学习[2] - 构建了一套不再受限于单向时序的生成式规划系统[2] 核心技术创新:生成逻辑与架构 - 引入混合离散动作分词技术,将连续2D轨迹坐标量化为高精度离散Token,误差控制在0.005以内,并与语义Token置于共享词表[6] - 采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有位置Token,提升推理效率与全局优化能力[6] - 集成LoRA-MoE架构,包含64个轻量级专家,通过门控网络实现动态路由与稀疏激活,根据场景自动激活最匹配专家以提升容量与适应性[11] - 采用多任务联合训练策略,使模型在学习轨迹预测同时通过驾驶VQA任务理解场景语义,增强规划可解释性与泛化能力[11] 核心技术创新:规划策略与优化 - 探索因果序、反因果序和随机序三种解码调度策略,实验发现反因果序策略在闭环指标上表现最佳[9] - 反因果序策略验证了“以终为始”的生成逻辑,即先确定终点状态再倒推轨迹细节,能显著提升规划一致性与安全性[9] - 引入分组序列策略优化算法,将优化粒度从“单步Token”提升至“完整轨迹序列”,依据安全、合规及舒适等多维指标对整条轨迹评分[14] - GSPO通过计算组内相对优势,显式引导模型向“高安全、高舒适”区域更新,确保规划结果比人类驾驶数据更安全规范[14] 性能表现与实验结果 - 在NAVSIM-v1评测基准上取得91.0 PDMS的SOTA成绩[3][16] - 在NAVSIM-v2评测基准上取得89.7 EPDMS的SOTA成绩,相较于DiffusionDrive提升5.2分[3][18] - 在NAVSIM-v1详细对比中,多项指标领先:NC 99.1, DAC 98.3, TTC 96.5, Comf. 99.9, EP 84.4, PDMS 91.0[17] - 在NAVSIM-v2详细对比中,多项指标领先:NC 99.0, DAC 98.4, DDC 99.3, TLC 99.9, EP 87.0, TTC 98.6, EPDMS 89.7[19] - 消融研究证实反因果序解码策略取得最佳闭环性能(91.0 PDMS),支持“以终为始”的规划直觉[20][21] - 定性实验验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用[22] 行业意义与影响 - WAM-Diff标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出重要一步[25] - 该框架通过Masked Diffusion重构时序生成逻辑,利用MoE解决策略单一性瓶颈,通过RL守住安全底线[25] - 证明了在VLA时代,“如何生成”与“生成什么”同样重要[25] - 这种具备反向推理能力且风格多变的规划器,被认为是通往L4级自动驾驶的关键拼图[25]
下周开课!我们设计了一份自动驾驶世界模型学习路线图....
自动驾驶之心· 2025-12-24 17:22
自动驾驶世界模型技术趋势与课程核心内容 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 当前行业将自动驾驶世界模型的研究收敛于生成和重建两大领域,并主要用于闭环仿真[2] - 行业正经历风格转换,因处理Corner Case成本过高,需寻求更有效的手段[2] - 近期世界模型相关研究呈现爆发式增长[2] 课程结构与核心知识点 - 课程共分六章,从概述、背景知识到专题应用,系统讲解世界模型[5][6][7][8][9] - 第一章阐述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 第二章涵盖世界模型所需基础技术栈,包括场景表征、Transformer、BEV感知等[5] - 第三章聚焦通用世界模型,解析Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 第四章专注视频生成类世界模型,涵盖GAIA-1、GAIA-2、UniScene、OpenDWM、InstaDrive等,并以OpenDWM进行实战[7] - 第五章讲解基于OCC生成的世界模型,涉及OccWorld、OccLLaMA、HERMES、II-World等三大论文及一个项目实战[8][12] - 第六章为工业界应用与岗位专题,分享行业痛点、应用现状及面试准备经验[9] 课程技术深度与目标人群 - 课程深度覆盖BEV感知、多模态大模型、3DGS、扩散模型、NeRF、VAE、GAN等关键技术[11] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV感知基本概念、有Python/PyTorch基础的学习者[13] - 学习目标为使学员达到约1年经验的自动驾驶世界模型算法工程师水平,能够复现主流算法并应用于实际项目[13] - 课程为离线视频教学,配备VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 课程自1月1日开课,预计两个半月结课,各章节按计划在12月10日至次年3月1日期间逐步解锁[14][15]
深扒特斯拉ICCV的分享,我们找到了几个业内可能的解决方案......
自动驾驶之心· 2025-12-23 08:53
文章核心观点 文章系统阐述了特斯拉FSD等端到端自动驾驶方案面临的三大核心挑战,并分别提出了三项创新性的技术解决方案,这些方案相互协同,形成了一个从高效感知决策到可解释性增强,再到物理一致评估的完整技术栈,有望推动行业向L4/L5级别自动驾驶发展 [30][31] 挑战一:维度灾难及其解决方案 - **挑战核心**:端到端自动驾驶面临维度灾难,需在输入层面高效处理海量多模态时序数据,在输出层面实现从原始感知到规划决策的真正端到端映射 [4] - **解决方案**:提出UniLION框架,这是业界首个基于线性组RNN的统一自动驾驶框架,采用类ViT范式,将多视角图像、LiDAR点云和时序信息统一转换为token序列,在3D空间进行高效融合 [4] - **架构特点**:UniLION具有统一的3D骨干网络,基于线性组RNN实现线性计算复杂度,解决了传统Transformer处理长序列时的计算效率瓶颈,能无缝处理不同模态和时序信息,无需显式融合模块 [7] - **核心组件**:UniLION Block包含四个关键设计:UniLION Layer(利用线性组RNN实现长距离特征交互)、3D空间特征描述器、体素合并与扩展、自回归体素生成,采用层次化结构提取多尺度特征 [9] - **性能表现**:在多项任务中达到卓越性能,包括检测任务75.4% NDS和73.2% mAP,跟踪任务76.5% AMOTA,地图分割73.3% mIoU,占用预测51.3% RayIoU,车辆运动预测0.57 minADE,行人运动预测0.37 minADE,规划任务碰撞率仅0.18% [11] 挑战二:可解释性与安全保障及其解决方案 - **挑战核心**:自动驾驶系统需具备可解释性以确保安全,但传统LLM缺乏精确3D空间感知能力,而基于视觉的模型缺乏可解释性和自然语言交互能力 [12] - **解决方案**:提出DrivePI框架,这是业界首个以单一LLM模型(仅0.5B参数的Qwen-2.5)实现视觉-语言-行为(VLA)和视觉-行为(VA)架构统一的框架 [13] - **架构特点**:DrivePI是一种空间感知4D多模态大语言模型,引入激光雷达作为补充传感模态以提供精确3D几何信息,生成中间的精细3D感知和预测表示,确保MLLM输出特征保持可靠的空间感知能力 [14] - **性能表现**:在文本理解方面超越OpenDriveVLA-7B模型2.5个百分点(60.7% vs 58.2%),碰撞率比ORION降低70%(从0.37%降至0.11%),3D占用性能超过FB-OCC模型10.3个RayIOU点(49.3% vs 39.0%),轨迹规划L2误差比VAD低32%(0.49m vs 0.72m) [13] - **主要贡献**:提出了首个统一的空间感知4D MLLM框架,弥合了基于视觉和基于VLA范式之间的技术鸿沟,尽管仅使用0.5B参数骨干网络,但在3D占用和占用流预测方面优于现有的基于视觉的专用模型 [17] 挑战三:系统评估及其解决方案 - **挑战核心**:自动驾驶系统评估面临人类驾驶行为不确定性与复杂交互场景多样性的挑战,传统方法难以覆盖足够的边缘场景和安全关键场景 [18] - **解决方案思路**:需要开发一个具备物理感知场景生成能力、长时序预测能力和高度可控性的自动驾驶世界模型 [20] - **具体解决方案**:提出GenieDrive,这是业界首个采用4D占据表征作为中间状态的自动驾驶世界模型,采用“先生成4D占据、再生成视频”的两阶段框架,能生成长达20秒的多视角高质量视频序列 [21] - **架构特点**:GenieDrive是一种以4D Occupancy作为中间表示的自动驾驶世界模型框架,通过Tri-plane VAE高效压缩技术,仅使用现有方法58%的潜在表示数量实现SOTA的占据重建性能,大幅降低计算和存储需求 [22] - **性能表现**:在4D占据预测任务上将mIoU提高了7.2%(相比I²-World),在视频生成质量评估中将FVD指标降低了20.7% [21] - **主要贡献**:开创了“先生成4D占据、再生成视频”的全新研究路径,在仅使用3.47M参数的情况下实现了41 FPS的实时推理速度,支持长时序视频生成和场景编辑功能,为自动驾驶系统的闭环评测、难例生成和安全验证提供了强大技术支持 [27] 技术协同与生态系统 - **技术闭环**:三项技术创新形成了一个相互赋能的完整技术生态系统:UniLION提供高效的感知和决策基础,并为DrivePI提供强大的视觉编码能力;DrivePI增强了系统的可解释性和人机交互能力,同时为GenieDrive提供控制输入条件;GenieDrive则为整个系统提供可靠的评估和验证环境,并通过生成合成数据反哺UniLION和DrivePI的训练过程 [31] - **整体意义**:通过这种系统性方法,构建了一个从感知到决策再到评估的完整闭环自动驾驶技术栈,每个环节都实现了显著的性能突破,为未来更安全、更可靠、更高效的自动驾驶系统开发铺平了道路,有望加速整个行业向L4/L5级别自动驾驶的跨越式发展 [31]
世界模型工作正在呈现爆发式增长
自动驾驶之心· 2025-12-20 10:16
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径,当前行业研究主要聚焦于生成和重建两大领域,并广泛应用于闭环仿真以应对Corner Case成本过高的问题 [2] - 行业正经历风格转换,世界模型相关研究呈现爆发式增长,为应对此趋势,推出了聚焦通用世界模型、视频生成、OCC生成等算法的进阶实战课程 [2] 课程内容与结构 - **第一章:世界模型介绍** 涵盖世界模型与端到端自动驾驶的联系、发展历史、应用案例,并介绍纯仿真、仿真+规划、生成传感器输入、生成感知结果等不同流派及其在行业中的应用环节和解决的问题 [5] - **第二章:世界模型的背景知识** 讲解世界模型的基础技术栈,包括场景表征、Transformer、BEV感知等,为后续学习奠定基础,这些内容是当前世界模型求职面试的高频技术关键词 [5][6] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细解析李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器等模型的核心技术与设计理念 [6] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战展开 [7] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [8] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、世界模型需解决的问题,以及相关岗位面试准备与公司关注重点 [9] 课程技术覆盖与学习目标 - **技术覆盖** 课程内容涉及Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN、Next Token Prediction等多种生成式模型与关键技术 [11] - **核心算法案例** 课程涵盖清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等具体算法工作 [12] - **学习目标** 学员学完后预期能达到约1年经验的世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,深刻理解BEV感知、多模态大模型等关键技术,能够复现II-World、OpenDWM等主流算法框架,并应用于实际项目设计 [13] 课程安排与面向人群 - **课程安排** 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日,各章节按计划从12月10日至次年3月1日逐步解锁 [14][15] - **面向人群** 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、扩散模型、BEV感知等基本概念,拥有概率论与线性代数基础,以及Python和PyTorch编程能力的学员,学习需自备算力在4090及以上的GPU [13]
某新势力智驾负责人遭排挤离职......
自动驾驶之心· 2025-12-19 17:25
智驾公司A停摆与集团接管 - 智驾独角兽A公司停摆的直接原因是集团B的全面接管,而接管源于公司内部的人事与财务问题[4] - 去年4月,因一名年薪近百万的销售被举报简历造假,引发集团彻查,进而暴露出财务问题,导致公司彻底失去集团信任[4] - 集团随后收回了A公司的公章以及包括审批付款在内的所有权限[4] - 公司负责人乙将事务全权交由外援管理,外援缺乏创业精神、热衷内部斗争,导致公司管理失控,最终不得不配合外援向集团隐瞒实情[5] - 公司在去年11月大裁员后,仅剩余300多位员工,且在通知停工前,全员群已被禁言[4] 新势力车企C供应链管理失误 - 以供应链成本控制著称的新势力C公司,其供应链负责人因在内存涨价潮中未及时备货而被撤职[6] - 此次失误直接触动了老板的雷区,因为公司此前曾因核心零部件备货不足吃过亏,老板早已明确划定红线[6] 新势力车企D智驾团队内斗与技术路线困境 - 车企D的智驾负责人丙离职,导火索是其上任后计划砍掉公司原有的约200人地图团队,触动了相关利益并遭到排挤[7] - 公司长期执着于高端技术定位,认可特斯拉路径,不惜重金投入,曾引入高精地图与激光雷达,智驾团队规模一度达到千人[7] - 然而,有图路线研发坎坷,地图团队消耗大量资源却未取得理想成效,砍掉该团队从效益看更稳妥,但与公司长期技术风格相悖[7] - 即便负责人被挤走,公司仍面临有图方案落地难、拿不出成果的实际困境[7] 物流公司E的L4自动驾驶战略摇摆 - 物流公司E在L4自动驾驶上态度摇摆,近期将L2和L4团队合并,但因底层架构不同,反而造成团队额外消耗[8] - 公司计划投入60人、1.5亿人民币,用一年时间打造“头车有人、后车无人”的开放L4编队demo[8] - 该demo的成败将决定公司后续行动:若成功则用于拉投资,若失败则可能对其控股的自动驾驶公司进行裁员[8] - 公司今年裁员后算法岗社招困难,许多技术背景不错的人因认为其“外行领导内行”而不愿加入[8] 无人车公司F独立融资失败 - 无人车公司F曾计划拆分并独立融资,以约10亿人民币的估值寻求资金,但最终因融资困难而失败[9] - 公司过往运营数据亮眼:日常运营近1000台无人车,累计送货达2000多万件包裹,同期友商送货量不到百万级[9] - 投资人认为其团队缺乏强大战斗力,且组织架构随时可能被集团收回,因此不愿投资[9] - 公司经历多次团队换帅,创始成员大多已转型为机器人、AI领域创业者[9] 主机厂G的创新困境与效率低下 - 主机厂G内部鼓励创新,但执行中演变为“表演式上班”,员工到点不下班也不真正工作[10] - 为追求“创新必须可见”,研发团队在整车散热系统整合项目中,为展示压缩机多功能性而增加第二个冰箱,挤占了后排空间,但用户并不需要[10] - 公司自动驾驶板块拥有四五千人的工程师队伍,但仅跑通两条demo路线,产出寥寥[10] - 有传言称公司手握除华为外业内几乎所有公司的代码,这些代码多由跳槽员工带来[10] 智驾公司H的管理混乱 - H公司实行老板丁的“一言堂”和饭圈式管理,对内靠拉踩友商标榜自身,对外则通过公关手段删除负面评价[11] - 公司高管要么不听号令,要么阳奉阴违,多数处于躺平状态,管理松散,导致600人的公司如一盘散沙[12] - 基层管理者没有决策权,也不了解公司整体规划,核心人才多沦为一线耗材,士气低落[12] - 曾有员工大半年未到岗,但HR和部门负责人均不知情或不闻不问[12] 新势力车企I的内斗与技术掉队 - 车企I的高管甲在公司内大肆挑起内斗,其嫡系感知部门与规控等部门针锋相对,导致严重内耗[13] - 在智驾技术路线选择的关键节点,甲反对公司跟进行业主流的端到端架构,CEO采纳其意见,导致公司错失最佳转型窗口期[13] - 当CEO醒悟时,公司在智驾领域已明显掉队,难以挽回[14] 自驾货运公司J的商业模式困境 - 自驾货运公司J陷入“L2辅助驾驶越做越亏,却不得不硬撑”的困境[15] - 公司为通过L2规模化积累数据,推出高额补贴政策,如按自动驾驶里程补贴运费、“买十赠一”等,初期有效压制了友商[15] - 公司采用租赁运营模式,向客户承诺提供稳定货源以快速抢占市场[15] - 但半年后货源供应问题爆发,无法兑现承诺导致客户退货,大量车辆积压[15] - L2作为辅助驾驶无法有效降低人工成本,反而增加研发与运营投入,导致亏损,但公司为维持“规模化走向L4”的资本叙事只能继续推进[15][16]
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]
端到端VLA的入门进阶和求职,我们配备了完整的学习路线图!
自动驾驶之心· 2025-12-18 08:06
行业人才需求与趋势 - 近期多家行业中游厂商积极寻求端到端自动驾驶和视觉语言动作模型方向的技术人才 计划在明年投入更多资源进行技术落地 [2] - 对于经验丰富的专家级人才 行业提供的薪酬水平普遍在百万年薪起步 显示出市场对高端技术人才的强烈需求和竞争 [2] 行业培训课程概况 - 为应对工业界明确的技术需求 行业推出了多个聚焦于量产落地的实战培训课程 包括《面向量产的端到端实战小班课》、《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》旨在打通从入门、进阶到求职的全链条 [4] - 课程由来自顶尖企业和学术机构的专家授课 师资背景强大 均拥有C9及QS排名前列高校的学历 并在国际顶级会议发表多篇论文 且具备将前沿算法成功量产落地的实战经验 [6][9][14][15] 端到端自动驾驶量产课程 - 该课程聚焦于端到端自动驾驶的量产落地 详细讲解导航信息应用、强化学习优化、Diffusion和自回归模型的量产经验以及时空联合规划兜底等核心模块 [4] - 课程设计了七大落地实战项目 目标人群为已经从事端到端自动驾驶相关工作并希望进阶加薪的从业者 [4] 端到端与VLA宏观技术课程 - 该课程从宏观领域梳理端到端自动驾驶 涵盖一段式/两段式方向的重点算法和理论基础 详细讲解BEV感知、大语言模型、扩散模型和强化学习 [7] - 课程包含两大实战项目 分别是基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [7] 自动驾驶VLA与大模型实战课程 - 该课程由学术界专家带队 全面梳理视觉语言动作模型领域 涵盖从视觉语言模型作为解释器到模块化VLA、一体化VLA以及当前主流的推理增强VLA三大方向 [12] - 课程配套详细的理论基础梳理 包括视觉、语言、动作三大模块以及强化学习和扩散模型等 并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [12] - 课程对学员有明确的先决条件要求 包括需要自备算力在4090及以上的GPU、具备自动驾驶领域基础、了解Transformer大模型等技术的基本概念、拥有一定的数学和编程基础 [11]