文章核心观点 - 文章核心观点是复盘并梳理了理想汽车在自动驾驶世界模型领域的技术布局与研究方向,指出行业正围绕“重建+生成”的技术路径,以视频为核心构建时空认知系统,并介绍了相关的课程内容 [2][3] 理想汽车的世界模型技术布局 - 理想汽车对世界模型的定义是“重建+生成”,利用3DGS技术重建自动驾驶场景,再通过生成方法实现闭环仿真或场景生成 [2] - 其核心技术包括3DGS和生成方法,并有一系列相关研究成果,如中稿ICCV 2025的Hierarchy UGP(场景重建)、StyledStreets(多风格场景生成)、World4Drive(整合多模态驾驶意图与潜在世界模型)、GeoDrive(视频生成扩散世界模型),中稿ACMMM2025的OmniGen(统一生成视觉与lidar的框架),中稿NeurIPS 2025的RLGF(结合强化学习的视频生成世界模型),以及SparseWorld-TC(稀疏注意力4D OCC预测)和AD-R1(端到端闭环强化学习框架) [2] - 公司目前没有在车端深入利用世界模型能力,但已探索相关方向(如World4Drive) [3] 行业对世界模型的共识与现状 - 行业内普遍认为世界模型是围绕视频为核心搭建的时空认知系统,通过跨模态的互相预测和重建,让系统学习时空和物理规律 [3] - 通过“重建+生成”技术,既可以做云端的数据生成,也可以用于闭环仿真和测试 [3] - 业内世界模型主要涵盖几个技术块:3DGS重建、视频生成/OCC生成、以及Lidar点云生成 [3] - 特斯拉也在利用前馈GS做闭环仿真,据文章了解,很多中游厂商都在布局世界模型的预研和落地 [3] 世界模型的技术定义与学习挑战 - 世界模型的定义仍然模糊,存在“生成 = 世界模型?”或“生成 + 重建 = 世界模型”的困惑,导致新入行者容易“踩坑” [4] - 对于初学者而言,想要搞懂世界模型并完成数据生成、闭环仿真等任务非常困难,有的甚至踩坑半年无法入门 [5] 相关培训课程内容架构 - 课程第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例,以及不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)在业界的应用和解决的问题 [7] - 第二章讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等背景知识,这些是求职面试频率最高的技术关键词 [7][8] - 第三章探讨通用世界模型及热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及业界广泛讨论的VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [8] - 第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、CVR'25 上交的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [9] - 第五章聚焦OCC生成类世界模型,涉及三大论文讲解和一个项目实战,这类方法可扩展为自车轨迹规划以实现端到端 [10] - 第六章为世界模型岗位专题,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备 [11] - 课程背景知识部分详细复习Transformer、视觉Transformer、CLIP和LLAVA,介绍BEV感知、占用网络、扩散模型、闭环仿真、NeRF和3DGS,以及其他生成式模型如VAE、GAN和Next Token Prediction [13] - 课程涉及的OCC生成类工作包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World [14] - 课程面向具备一定基础的学习者,期望学完后能达到1年左右世界模型自动驾驶算法工程师水平,掌握技术进展,并能复现II-World、OpenDWM等主流算法框架 [15]
理想在世界模型方向,布局了这些工作......
自动驾驶之心·2026-01-07 17:44