自动驾驶之心
搜索文档
BigBite解析,Tesla FSD就是一个端到端大模型
自动驾驶之心· 2026-01-27 17:40
Tesla FSD 技术架构解析 - 文章核心观点认为,Tesla FSD 是一个端到端的大模型方案,而非数百个小场景模型的简单组合,其技术先进性体现在工程化实现上[4][5][17] 关于FSD模型性质的争论与澄清 - 有观点根据黑客green的发现,质疑FSD由数百个小模型组成,但作者指出这种理解有误[5][8] - 作者明确结论:Tesla FSD 就是一个大模型,使用一个巨大的神经网络完成从图像输入到控制输出的端到端计算[6][7][14] 对模型参数文件的解读 - green 发现 HW3 上的 FSD v12.6 在 A核有1.2GB、189个参数文件,在 B核有2.3GB、110个参数文件,其中61个为共享文件[8] - HW4 上的 v13 模型参数增长至 A核2.3GB,B核7.5GB[8] - B核参数文件数量少但总大小更大,表明后期端到端模型的主要参数集中在B核[10] - 大量的参数文件并非独立的单模型,而可能是一些小任务Head的模型参数,或用于数据采集触发等继承自旧版本的功能[10] - 部分参数文件的命名规则(如FSD_E2E_FACTORY_PART_X)表明它们属于一个大模型的分片,这是大模型分布式部署的常见做法[11] 硬件带宽与模型规模的关系 - HW3 使用 LPDDR4-4266,带宽为68GB/s,理论上支持36Hz输出的模型参数上限约为1.8GB(18亿参数),这与B核2.3GB的参数文件大小基本匹配[12] - HW4 使用 GDDR6 显存,带宽高达384GB/s,若使用FP8参数类型,理论上可在36Hz下支持约100亿参数的端到端模型[12] - HW4 上B核参数文件大小(7.5GB)相比HW3(2.3GB)的增长,与公司此前宣称的参数量增加约3.5倍的说法基本对应[12] 模型扩展性与MOE架构 - 尽管硬件带宽限制了参数扩展空间,但公司通过采用类似混合专家(MOE)的架构,在推理时仅部分激活专家网络,从而节省显存带宽开销,大幅提升模型的等效参数量[13] - 基于HW4的16G显存容量和可能的模型并行策略,未来FSD模型参数继续大幅增加是可能的[13] - 公司可能在特定场景(如厂区自动出场)使用一些本地化参数,这被理解为通过MOE方式增加的额外专家参数,而大部分驾驶场景的参数是共用的[13][15] 对技术先进性的看法 - 作者反驳了将FSD视为“落后”技术的观点,强调工程化创新同样是技术进步的重要体现,并以可回收火箭和发动机阵列为例进行类比[17] - 作者认为,将先进科学发现转化为成熟落地的技术,其本身代表了巨大的科技进步[17]
轻舟智航L2/L4智驾方案解析:一段式、VLA和世界模型
自动驾驶之心· 2026-01-26 15:16
轻舟智航技术方案与产品进展 - 公司首个基于单颗地平线征程6M芯片的城市NOA方案已于21号正式上车理想L系列智能焕新版[2] - 该方案在23号的发布会上进行了技术分享[2] 基于单J6M的端到端自动驾驶架构 - 技术方案采用单征程6M芯片实现了一段式端到端架构并结合了强化学习[3] - 核心网络架构的输入部分包括时序图像、激光雷达、SD导航和自车位姿信息[6] - 经过多传感器时序BEV融合后,得到全局的BEV表征[6] - 后续通过多任务解码头输出道路拓扑、OCC特征、交通元素特征和智能体特征[6] - 这些特征用于获取动静态信息、OCC和交通信号灯等[6] - BEV表征与上述特征共同输入到一个统一的世界-状态隐编码器[7] - 之后连接一个Flow-Matching规划器,用于解码他车运动预测并生成多模态的自车轨迹[7] - 后续利用Safe RL进一步优化自车轨迹,该步骤增加了规则判断[5] - 整套架构的挑战在于在J6M芯片128TOPS的有限算力上实现[5] - 采用的DiffusionDrive和Flow Matching算法已被多家公司验证为可量产算法[5] - Flow规划器是Diffusion规划器的改进版本,源自清华AIR詹仙园老师团队的工作[5] 实车演示表现 - 公司展示了L2级别实车在困难场景下的表现,包括严重错位道路和复杂路口的无保护左转,效果良好[5] - 严重错位道路场景对静态感知基本功要求高,不仅考验道路/车道线识别,也考验SD地图接入模型的表现[5] - 公司也展示了L4级别实车的表现[9] 下一代自动驾驶模型架构展望 - 公司提出了下一代自动驾驶模型架构,其核心理念是将视觉语言动作模型与世界模型融合到一个端到端系统中[11] - 若去掉Transformer解码器和语言推理模块,该架构仍可理解为一段式端到端,整体与小鹏的VLA 2.0有些相似[11] - 架构中同样包含通过强化学习微调自车轨迹的步骤,该判断模块是为端到端系统提供安全保障的兜底模块[12] - 针对L4级自动驾驶,公司提出了RA机制以保障系统级安全,在此意义上,VLA被视为L4系统规模化运行的基础设施而不仅是能力展示[12] - 根据架构图,下一代系统输入可能增加用于交互的语音指令[17] - 世界编码器可能仍基于BEV特征,可直接解码得到动静态/OCC/交通控制信息[17] - 增加了Transformer解码器,用于处理环境复杂文本、困难场景描述和车端语言指令,并作为思维链的中间表示[17] - 增加了多模态世界解码器,作为具备未来世界动态演化能力的生成式世界预测模型[17] - 多模态世界解码器与语言推理模块需要强交互并对齐,这是VLA的核心,否则会产生严重幻觉[17] 公司高层观点 - 公司联合创始人兼CEO于骞判断,无论是VLA还是世界模型,都不会是自动驾驶技术的终极答案[13]
聚焦端到端的公司,越来越多了......
自动驾驶之心· 2026-01-25 18:07
行业技术趋势:端到端自动驾驶 - 端到端自动驾驶技术不再是头部玩家的特权,未进入该领域的车企和Tier 1供应商正在加速转型 [2] - 有资源的大型公司倾向于开发“一段式”端到端模型,而中小型公司则选择“两段式”模型作为切入点 [2] - 训练一个泛化性不错的“两段式”模型,目前公开信息显示大约需要200万Clips数据,训练资源需求相对友好,约为百卡规模 [2] - 训练“一段式”模型需要对标头部公司的千万Clips数据量,训练资源需求达到千卡规模 [2] - 行业当前关注的技术点包括:视觉语言模型/视觉语言大模型在车端/云端的作用、强化学习的损失权重配比、以及相关落地参考论文和未来预研方向 [2] - 行业探讨的具体问题包括:模仿学习/强化学习解决现有模块化方案难处理的场景、以及端到端中场景描述的必要性与潜在问题 [4] 社区与资源平台:“自动驾驶之心知识星球” - “自动驾驶之心知识星球”是一个综合性的自动驾驶技术社区,集视频、图文、学习路线、问答、求职交流于一体,目前已有近4500名成员,目标是在未来2年内达到近万人规模 [5][17] - 社区联合了学术界和工业界的专家,旨在降低行业入门壁垒,为初学者和进阶者提供交流与技术分享的聚集地 [5] - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,并汇总了行业资源,包括近40个开源项目、近60个数据集以及主流仿真平台,以缩短成员的信息检索时间 [7][9][17] - 社区邀请了数十位活跃在一线产业界和学术界的嘉宾,为成员答疑解惑,并不定期举办直播分享,目前已举办超过一百场专业技术直播 [7][89] - 社区与多家自动驾驶公司建立了岗位内推机制,并提供自动驾驶相关工作岗位推荐与行业机会挖掘服务 [11][22] - 社区为成员提供了七大福利视频教程,内容涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等多个前沿领域 [86] 技术方向与学习内容概览 - 社区覆盖的入门与基础学习资料包括:数学基础、计算机视觉、深度学习、编程、经典书籍与课程课件 [10] - 感知相关技术方向包括:BackBone网络、2D/3D目标检测与分割、鱼眼感知、车道线检测、深度估计、目标跟踪、BEV感知、Occupancy网络、在线高精地图、多传感器融合等 [10][18][52][54][56][58][59] - 规划控制与决策相关方向包括:轨迹预测、规划控制框架、基于搜索/采样/优化的规划方法、模型预测控制、强化学习等 [10][18][48][60][62] - 前沿模型与技术方向包括:端到端自动驾驶、视觉语言模型、视觉语言动作模型、扩散模型、世界模型、3D高斯泼溅、神经辐射场、大模型在自动驾驶中的应用等 [10][18][38][40][42][44][46][50][85] - 工程与落地实践方向包括:模型压缩与部署优化、CUDA编程、自动驾驶仿真、传感器标定、数据工程等 [10][18][65][69][71][81] - 社区整理了“自动驾驶100问”系列,内容涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定、3D&4D毫米波雷达等工程实践问题 [10]
摸底GS重建在自动驾驶业内的岗位需求
自动驾驶之心· 2026-01-24 10:55
行业需求与岗位分析 - 有企业在2026年需要在重建方向投入招聘名额(HC) [2] - 重建技术主要用于自动驾驶测试的闭环仿真 具体流程是对离线片段(clip)数据用3D高斯泼溅(3DGS)重建动静态元素 以验证新模型能否预测合理新轨迹并正常行驶 [2] - 支撑闭环仿真中重建优化一般需要5至20人的算法团队 [3] - 云端数据生产也存在需求 例如BEV视角下的静态路面重建(2DGS)可应用于静态真值生产 [3] - 小米的ParkGaussian将GS技术应用到泊车场景中 [3] - 每个技术方向至少需要10人左右的算法团队规模来支撑最基本功能需求 [3] 技术发展路线与学习资源 - 3D高斯泼溅(3DGS)领域较新 缺乏有效学习资料 对初学者存在困难 [3] - 梳理出的明确技术发展路线为:静态重建3DGS → 动态重建4DGS → 表面重建2DGS → 场景重建混合GS → 前馈GS [3] - 为应对学习需求 推出了《3DGS理论与算法实战教程》 花费两个月时间设计了一套从原理到实战的学习路线图 [3] 课程内容与结构 - 课程第一章讲解3DGS背景知识 包括计算机图形学基础、三维空间表达、渲染管线、光线追踪、辐射场渲染 并介绍SuperSplat、COLMAP、Gsplat等开发工具 附带基于3D Real Car训练模型及使用SuperSplat移除杂点的作业 [8] - 第二章深入讲解3DGS原理和算法 包括核心伪代码 以及动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法 实战选用英伟达开源的3DGRUT框架 [9] - 第三章聚焦自动驾驶仿真重建 重点讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作 实战选用学术界和工业界使用较多的DriveStudio [10] - 第四章探讨3DGS重要研究方向 包括COLMAP扩展、深度估计及重光照(Relighting) 并分享这些方向如何服务工业界及未来走势 [11] - 第五章讲解前馈3DGS(Feed-Forward 3DGS) 梳理其发展历程和算法原理 并讲解最新的AnySplat和WorldSplat算法工作 [12] - 第六章为线上答疑讨论 内容涉及3DGS岗位需求、行业痛点及开放性问题 [13] 课程安排与面向人群 - 课程于12月1日开课 预计两个半月结课 采用离线视频教学 辅以VIP群答疑及三次线上答疑 [15] - 课程章节解锁时间安排如下:第一章12月1日 第二章12月7日 第三章1月7日 第四章1月21日 第五章2月4日 [15] - 学习本课程需要自备GPU 推荐算力在RTX 4090及以上 并需具备一定的计算机图形学基础、对视觉重建/NeRF/3DGS等技术的了解、概率论与线性代数基础、以及Python和PyTorch语言基础 [17] - 课程目标使学员掌握3DGS完善的理论知识及相关技术栈、掌握算法开发框架并能训练开源模型、与学术界及工业界同行持续交流 对实习、校招、社招均有助益 [17]
英伟达的汽车生意经
自动驾驶之心· 2026-01-24 10:55
文章核心观点 - 英伟达已从单纯的汽车芯片供应商,转型为提供从云端训练、仿真到车端推理全栈解决方案的“总承包商”,旨在定义智能汽车未来十年的发展规则[7] - 公司通过“三台计算机”(DGX、OVX、AGX)架构提供全栈服务,并辅以深度工程服务和战略级开源,构建系统性工程能力和持续演进生态,驱动全球汽车产业对算力的持续需求[8][21][42] 三大支柱:全栈解决方案 - **DGX:AI模型训练工厂**:由数千张GPU组成的超级计算集群,用于处理海量真实与仿真驾驶数据以训练AI模型,例如具备“思维链”推理能力的Alpamayo模型在此平台炼成[11][12] - **OVX:数字孪生试验场**:基于Omniverse平台构建1:1虚拟世界,支持24小时不间断测试、模拟极端场景及百万公里压力测试,并通过NuRec工具实现真实场景重建与变体生成以加速算法迭代[13][14][15][16][17] - **AGX:车端推理大脑**:车载计算芯片算力从几十TOPS跃升至上千TOPS(如Thor),并依靠完整的车载软件生态(DriveOS、TensorRT、CUDA)优化性能,例如通过TensorRT迭代可将Transformer性能提升30-50%[18][20] - 三台“计算机”形成高效协同闭环,使车企能在同一技术栈上完成研发到量产的全过程,降低开发难度与集成风险[20] 盈利模式:从卖硬件到卖服务 - 商业模式超越单纯芯片销售,通过收取一次性工程服务费(NRE),派驻工程师团队深度参与车企量产项目,帮助优化算法效率、解决集成问题并提供架构建议[22][23][24] - 服务模式创造多赢:车企团队快速成长,英伟达获得一线需求反馈并建立深度信任,核心驱动力是满足对云端和车端算力永无止境的需求,从而促进DGX、OVX和AGX硬件的销售[25] - 2025年初,公司将Alpamayo系列(包括约100亿参数的思维链推理模型Alpamayo1、开源仿真框架AlpaSim及超1700小时的真实道路驾驶数据集)全面开源,旨在降低行业门槛、做大生态蛋糕、对抗地缘政治风险并确立下一代技术范式领先地位[28][29][30][31][34] - 开源战略已见成效,至少有三家中国客户基于其开源框架构建了自身数据标注流水线,早期采纳者形成的网络效应难以被竞争对手撼动[35] 中国市场驱动与竞争格局 - 英伟达汽车业务加速很大程度上由中国市场需求驱动,海外车企研发落地节奏相比中国慢两到三年,形成“中国定义需求,全球实现产品”的模式[38] - 中国车企快节奏迭代与高功能落地追求,倒逼英伟达本地团队快速开发专用工具,例如为满足将百亿参数大模型以毫秒级延迟部署车端的需求,TensorRT-LLM for Auto从提出需求到原型验证仅用两个月[38] - 面对地平线、高通等竞争对手及自研芯片车企,公司的自信源于智能驾驶终极竞争是系统性工程能力和持续演进生态的竞争,其构建的全栈体系(涵盖芯片、安全认证、OS、中间件、加速库及开发工具)及应对法规要求的能力构成了高门槛的“隐性护城河”[40][41][42] - 公司与奔驰的合作展示了其全栈方案可形成灵活配置的模块化服务体系,标杆价值显著[37]
自驾有这方面经验的同学,在具身很抢手
自动驾驶之心· 2026-01-23 14:28
行业动态与人才需求 - 具身智能行业当前非常青睐有端到端和大模型经验的从业人员,以及具备模仿学习、强化学习背景的人才 [2] - 对于校招生而言,入行门槛相对不高,技术准备以力扣刷题为主,并需掌握一些前沿算法模型,如pi0.5、GROOT N1.5、pi*0.6等 [3] - 行业正积极探索技术落地与应用,但整体发展形势尚不明朗,风险较高,需要与高风险相匹配的预期回报才值得进入 [4] 技术社区概况 - “自动驾驶之心知识星球”是一个综合性的自动驾驶技术社区,集视频、图文、学习路线、问答、求职交流于一体,已运营三年 [9] - 该社区目前成员超过4000人,并计划在未来2年内将规模扩展至近万人 [9] - 社区成员背景多元,来自国内外知名高校实验室(如上海交大、清华大学、CMU、ETH等)及头部公司(如蔚小理、华为、英伟达、小米汽车等) [26] - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,并汇总了近40个开源项目、近60个数据集及主流仿真平台信息 [14][26] 核心技术方向与资源 - 社区覆盖的核心技术方向广泛,包括但不限于:端到端自动驾驶、视觉语言模型(VLA/VLM)、多模态大模型、世界模型、BEV感知、3D目标检测、多传感器融合、Occupancy Network、规划控制、SLAM、自动驾驶仿真等 [12][15][26][36] - 提供了系统化的学习路径,例如自动驾驶感知、仿真、规划控制等专项学习路线 [26] - 整理了大量的学习资源,包括国内外高校与公司汇总、经典书籍与课程、开源项目与数据集、以及各类“100问”系列实战指南(如TensorRT模型部署、BEV感知、规划控制等) [16][37][39][41] 社区服务与活动 - 社区提供原创视频课程,内容涵盖感知融合、多传感器标定、SLAM、数据工程、端到端与大模型等系列 [17] - 定期举办线上直播分享,已累计超过一百场,邀请学术界与工业界一线专家分享最新研究成果与技术进展 [95][96] - 建立了与多家自动驾驶公司的岗位内推机制,可协助成员进行求职对接 [17] - 社区内部设有问答机制,成员可自由提问,问题范围从技术学习路线到职业发展、行业前景等,并能得到解答 [10][15][98]
小鹏组织架构新调整?副总裁、汽车互联网中心负责人魏斌休假
自动驾驶之心· 2026-01-22 17:07
小鹏汽车高层人事变动与组织调整 - 小鹏汽车副总裁、互联网中心负责人魏斌目前处于休假状态 [2][3] - 魏斌休假可能与小鹏内部高强度的研发迭代有关,同时也反映出公司正处于新一轮组织架构调整的关键阶段 [5] - 近半年小鹏内部组织变化非常快,包括李力耘因身体原因暂离一线、刘先明接任自动驾驶中心负责人等事件 [5] 魏斌的职责与贡献 - 魏斌于2021年底加入小鹏汽车,此前曾任高德地图产品总监 [2][6] - 加入后主要负责汽车互联网中心,涵盖智能座舱、车载软件平台及相关AI能力建设 [6] - 在其任内,小鹏逐步推动座舱系统从以功能为导向的“应用堆叠”,转向以算力、操作系统与模型能力为核心的底层架构升级 [6] - 小鹏智能座舱的研发节奏在过去两年中明显加快,互联网中心承担了大量围绕高算力平台、统一软件架构以及持续OTA能力建设的基础性工作 [6] 小鹏汽车的战略聚焦与组织协同 - 小鹏汽车在2024年以来的多次公开表态中,反复强调将进一步聚焦核心技术、提升组织效率,并推动智能驾驶、智能座舱与整车平台的深度融合 [7] - 从组织层面看,魏斌所负责的互联网中心,与自动驾驶中心、整车软件平台之间存在高度协同关系 [6] - 随着小鹏近年来不断强调“AI汽车”定位,智能座舱逐渐从传统意义上的人机交互系统,演变为车端AI能力的重要载体,其战略权重也随之提升 [6] - XPILOT与座舱系统在底层平台上的协同,在魏斌任内被反复强调 [6] 行业动态与趋势 - 2026年初行业变动频繁,除小鹏人事变动外,还包括美团无人车换帅、理想组织结构大变动 [3] - 自动驾驶和具身智能是汽车行业重点布局方向,小鹏人形机器人计划于2026年启动规模量产,理想与地平线也在相关领域持续扩招 [3][4]
2025年几家自动驾驶公司的采访总结
自动驾驶之心· 2026-01-22 17:07
核心观点 - 自动驾驶行业在核心算法层面已形成共识,即采用端到端(End-to-End)作为基础架构,并引入世界模型(World Model)作为关键基础设施 [6][7][10] - 行业在顶层认知上出现路线分歧,主要围绕是否在端到端模型中引入语言模型(即VLA与WA/反VLA之争),这本质上是计算效率与推理能力(快思考 vs 慢思考)的不同权衡 [7][11] - 未来三年是现有深度学习范式的“极致优化期”,核心在于通过海量数据驱动能力自然生长,而非理论重构 [7] - 行业竞争已超越单纯算法模型之争,研发基建、数据仿真、算力芯片、工程化能力及用户体验等非技术因素成为决定成败的关键变量 [13] 核心技术路线 端到端 (End-to-End) - 是自动驾驶的底层基座,替代了传统的模块化方案,直接从传感器输入映射到控制输出 [1][10] - 一段式端到端(One-Stage E2E)已被验证可行(如特斯拉FSD V12),统一了L2和L4的开发范式 [7] - 其局限性主要是“模仿学习”,能力上限受限于训练数据,缺乏逻辑推理 [12] 世界模型 (World Model) - 是核心算法演进中的关键基础设施,扮演“中间加速器”的角色 [7][10] - 主要作用分为两方面: - **对内(训练)**:作为“超级模拟器”,生成大量合成数据以解决长尾问题,并让端到端模型在虚拟环境中通过强化学习反复试错迭代,实现从“数据闭环”到“训练闭环”的演进 [2][8][11][18] - **对外(推理)**:作为“预测机”,帮助车辆理解物理规律和因果关系,直接指导动作生成 [9][11] - 3DGS(3D Gaussian Splatting)是构建高保真仿真环境的重要技术 [3] 视觉-语言-动作模型 (VLA) 与 世界-动作模型 (WA) - **VLA派(理想、英伟达)**:认为需要引入大语言模型赋予车辆逻辑推理(Chain of Thought)和解释能力,以处理复杂、罕见的长尾场景(System 2,慢思考) [9][11][12] - **WA/反VLA派(华为、小鹏)**:认为驾驶主要是直觉反应,引入语言环节会增加延迟和算力负担,主张直接从世界模型理解映射到动作(System 1,快思考) [9][11] - **务实派(小米)**:当前主推“端到端+世界模型+强化学习”解决直觉问题,内部预研VLA以备复杂推理需求,追求“智能密度”最大化 [9][11] 主要公司技术选择对比 | 公司 | 核心技术路线选择 | 核心逻辑与观点 | 世界模型/仿真工具的角色 | | :--- | :--- | :--- | :--- | | **理想汽车** | VLA (Vision-Language-Action) | 认知驱动,认为需从“模仿”进化到“自己学会”,单纯数据闭环不够,必须走向训练闭环 [9] | 利用《World4Drive》等模型构建可探索的虚拟世界,进行策略优化,是训练闭环的核心 [9] | | **英伟达 (NVIDIA)** | 物理AI + VLA (Alpamayo) | 强调AI的可解释性与推理能力,不仅要会开,还要能解释决策,并强调“Test time Scaling”(让AI多思考一会儿) [9] | 使用Omniverse & Cosmos生成合成数据和进行物理模拟,训练车辆学习物理定律 [9] | | **小米汽车** | 端到端 + 世界模型 + 强化学习 (预研VLA) | 智能密度最大化,当前方案优先解决“直觉”(System 1)问题,VLA类似“看悬疑片”(System 2),仅用于极复杂场景,不制造技术焦虑 [9][17] | 使用高保真模拟器进行强化学习训练,解决实车难以覆盖的长尾场景 [9] | | **地平线** | 一段式端到端 (One-Stage) | 范式统一,认为FSD V12证明了端到端的可行性,未来三年是“极致优化期”,旨在统一L2与L4的开发范式 [9] | 未详细展开,主要强调通过统一范式和低成本部署打通壁垒 [9] | | **华为 / 小鹏** | WA (World Action) / 反VLA | 去语言化,认为驾驶主要是直觉反应,不需要经过语言环节,以降低延迟和算力负担 [9] | 利用世界模型理解环境演变,直接指导动作生成 [9] | 非核心技术关键因素 研发基建与工程效率 - 基建(以数据为核心的研发效能)决定迭代速度,好的基建能大幅提升研发效率,例如小米能在一年内实现“追三代”的技术跨越,核心在于云端基建的复用和自动化率提升 [3][18] - 基建的好坏取决于发现问题后,能否迅速从海量数据中挖掘出类似场景,并形成高质量标注数据进行训练 [18] - 强化工程能力和组织能力被视为公司的“工业母机”,是应对技术范式变化的确定性方法 [18] 仿真与合成数据 - 仿真成为解决长尾问题(Corner Case)的核心,单纯依赖真实路测数据已无法满足需求 [14] - 合成数据价值极高,例如在小米的训练数据中,仿真数据占比约为20%,但节省了数倍的人力成本 [18] - 英伟达通过Cosmos世界模型生成符合物理定律的合成数据来训练自动驾驶模型 [18] - 理想汽车等公司强调从“数据闭环”走向“训练闭环”,让AI在虚拟世界中进行强化学习,自我探索最优策略 [18] 算力规模与芯片适配 - 智驾是算力和硬件的“暴力美学”,计算机工业的本质就是“玩命堆算力” [15][18] - 英伟达发布Rubin平台以应对每年增长5倍的AI推理需求,旨在将推理成本降低至原来的1/10 [18] - 算法上车面临巨大的“部署偏差”,从一颗芯片迁移到另一颗芯片通常需要6-10个月解决算子支持、计算精度对齐等问题,这种高昂的迁移成本构成了芯片厂商的护城河 [18] - 随着AI进行长序思考(System 2),车载芯片的“显存”面临巨大挑战 [18] 商业化成本与泛化能力 - 技术再先进也需考虑成本,智驾系统的目标是将L4级体验以极低的部署成本普及到10万元级别车型 [18] - 新一代端到端技术通过数据驱动,在一个复杂城市验证后,能大概率泛化到整个国家,极大地降低了扩张成本 [18] 用户体验与安全冗余 - 技术先进性不等于体验更好,必须在收益和风险之间取得平衡,避免为了“显摆技术”而制造焦虑 [17] - 安全机制至关重要,即便是激进的端到端方案也需要安全兜底,例如英伟达的方案中包含了一个经典的规则驱动AV栈作为安全护栏,在端到端模型信心不足时回退 [19]
最近咨询世界模型岗位的同学越来越多了......
自动驾驶之心· 2026-01-22 08:51
行业人才需求与招聘趋势 - 算法岗位春招及跳槽方向集中在世界模型(生成+重建)、端到端、VLA三大领域,需求旺盛[2] - 端到端岗位招聘要求高,更青睐有实际量产经验的人才[2] - VLA岗位需要求职者同时具备大模型和端到端背景[2] - 世界模型方向在2025年因特斯拉在ICCV的分享而受到行业关注并开始爆发,当前是入局的合适时机[2] 课程核心内容与结构 - 课程由自动驾驶之心联合工业界专家开设,聚焦通用世界模型、视频生成、OCC生成等算法,涵盖特斯拉世界模型及李飞飞团队Marble等案例[2] - 课程大纲分为六章:世界模型介绍、背景知识、通用世界模型探讨、基于视频生成的世界模型、基于OCC的世界模型、世界模型岗位专题[5] - 第一章概述自动驾驶世界模型,复盘其与端到端自动驾驶的联系,讲解发展历史、应用案例、不同流派(纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其解决的问题和环节,并介绍学术界与工业界动态、相关数据集与评测[7] - 第二章讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,为后续学习奠定基础,这些内容是当前求职面试频率最高的技术关键词[7][8] - 第三章探讨通用世界模型及近期热门工作,详细讲解李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器[8] - 第四章聚焦视频生成类世界模型算法,从Wayve的GAIA-1 & GAIA-2讲起,扩展至上交的UniScene、商汤的OpenDWM、中科大的InstaDrive,并以商汤开源的OpenDWM进行实战[9] - 第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端[10] - 第六章基于前五章算法基础,分享世界模型在工业界的应用现状、行业痛点、期望解决的问题,以及相关岗位的面试准备和公司关注点[11] 课程技术深度与覆盖范围 - 课程背景知识部分将复习Transformer并扩展至视觉Transformer,讲解CLIP和LLAVA,详细介绍BEV感知和占用网络,讲解扩散模型理论,梳理闭环仿真、NeRF和3DGS的核心概念,并讲解其他生成式模型如VAE、GAN及Next Token Prediction[13] - 课程将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES、西交最新的II-World等具体研究工作[14] - 课程实战部分选取商汤开源的OpenDWM和II-World等主流算法框架进行复现[9][14][15] 课程目标与学员收获 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界的落地,帮助学员真正理解端到端[12] - 期望学员学完后能达到1年左右世界模型自动驾驶算法工程师水平[15] - 学员将掌握世界模型技术进展,涵盖视频生成、OCC生成等方法[15] - 学员将对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解[15] - 学员能够复现II-World、OpenDWM等主流算法框架,并将所学应用到项目中,学会设计自己的世界模型[15] - 课程对实习、校招、社招均有助益[15] 讲师背景与课程安排 - 讲师Jason拥有C9本科和QS50 PhD学历,已发表2篇CCF-A论文及若干CCF-B论文,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付[4] - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群内答疑及三次线上答疑,答疑服务截止2026年12月31日[16] - 各章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[17] 学员入学要求 - 学员需自备GPU,推荐算力在4090及以上[15] - 需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块[15] - 需了解transformer大模型、扩散模型、BEV感知等技术的基本概念[15] - 需具备一定的概率论和线性代数基础,熟悉常用数学运算[15] - 需具备一定的Python和PyTorch语言基础[15]
一位智驾算法工程师的跳槽复盘:焦虑与选择......
自动驾驶之心· 2026-01-22 08:51
行业技术发展趋势 - 2025年对于整个AI行业是技术加快收敛的一年,大模型飞速发展,自动驾驶技术从端到端向VLA(视觉语言动作)模型转变,技术更新迭代迅速[4] - 从端到端方案开始,行业越来越清楚未来留给单独的感知、预测或规控模块的算法岗位会越来越少[5] - 具身智能是当前最火的概念,相关创业公司井喷,其招聘方向更偏向VLA、强化学习和运动控制,对普通感知算法需求不大[14] 自动驾驶算法工程师就业市场分析 - 对于算法工程师而言,焦虑不仅源于内卷和年龄危机,更源于单模块算法岗位的减少[2] - 工业界有机会从事新方向研发的工程师是极少数,大多数工程师仍在实施落后一两年的技术方案[5] - 在L2辅助驾驶领域,招聘方主要包括传统主机厂、新势力主机厂和供应商三类[9] - 至2025年,即使行动较慢的主机厂(如比亚迪、吉利、奇瑞)其自研团队也基本搭建完成,但技术进度常落后于新势力和头部供应商[9] - 新势力车企(如小鹏、理想)在智能驾驶领域走在前面,团队成熟,外部招聘机会较少,放出的岗位多与数据闭环相关[9] - 智能驾驶供应商(如华为、Momenta、元戎、轻舟、卓驭及博世)的招聘需求部分取决于订单量,主机厂对供应商的选择是动态的,存在与自研团队赛马的情况[9] - L4级别自动驾驶得益于技术成熟及成本下降,预计在2026年将逐渐大规模应用,相关公司(涉及Robotaxi、无人配送/物流、封闭场景等)开始扩充团队[11] - 当智驾算法达到L4后,下一个应用场景是智能座舱,但目前相关招聘岗位更偏向VLM等方向,与LLM技术栈更相关,且工作压力可能相对较小[13] 个人职业发展观察 - 作者通过跳槽前后的大量交流、刷招聘信息及面试后感受到,单模块算法岗位正在减少[2][3] - 作者最终选择了L4自动驾驶方向,认为其虽然不是最热门的,但更符合个人判断[15]