正式开课！三个月搞懂自动驾驶世界模型技术栈

文章核心观点 - 世界模型是理解并改变物理世界的核心技术，正引领生成式AI自动驾驶范式，重塑自动驾驶底层能力[2] - 自动驾驶领域对世界模型的探索持续进行，主要方向包括视频生成和OCC生成[2] - 行业基于开源算法搭建云端/车端世界模型，用于长尾数据生成、闭环仿真评测，并尝试直接赋能车端驾驶能力[3] - 世界模型定义尚不清晰，初学者入门困难，存在大量“踩坑”现象[4][5] - 为解决学习难题，推出了国内首个《世界模型与自动驾驶小班课》，旨在系统化教学，帮助学员达到约1年经验的算法工程师水平[7][20] 行业技术动态与探索方向 - 视频生成方向：是学术界和工业界探索最多的领域，代表工作包括Wayve的GAIA-1/2/3、上海交通大学CVPR'25的UniScene等[2] - OCC生成方向：经典工作包括OccWorld、OccLLaMA，以及西安交通大学最新的SOTA工作II-World[2] - 通用世界模型进展：近期重要发布包括2025年6月Yann LeCun的V-JEPA 2、2025年8月DeepMind的Genie 3、2025年11月李飞飞团队的Marble[2] - 业界热门工作：包括导航世界模型、VLA+世界模型算法DriveVLA-W0以及特斯拉在ICCV上分享的世界模型模拟器[13] 课程内容与结构 - 第一章：世界模型介绍：复盘世界模型与端到端自动驾驶的联系，讲解发展历史、应用案例、不同流派（纯仿真、仿真+Planning、生成传感器输入、生成感知结果等）及其在业界的应用与解决的问题[12] - 第二章：世界模型背景知识：讲解场景表征、Transformer、BEV感知等基础知识，为后续学习奠定基础，内容被认为是求职面试频率最高的技术关键词[12][13] - 第三章：通用世界模型探讨：深入讲解Marble、Genie 3、JEPA、DriveVLA-W0、特斯拉模拟器等热门模型的来龙去脉、核心技术与设计理念[13] - 第四章：基于视频生成的世界模型：从Wayve的GAIA-1 & GAIA-2讲起，涵盖CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive，并以商汤开源的OpenDWM进行实战[14] - 第五章：基于OCC的世界模型：聚焦OCC生成类算法，讲解三大论文并进行一个项目实战，此类方法可扩展至自车轨迹规划以实现端到端[15] - 第六章：世界模型岗位专题：分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备要点[16] 课程涉及的关键技术栈 - 基础模型与架构：Transformer、视觉Transformer、为多模态大模型奠定基础的CLIP和LLaVA[18] - 感知与表征：BEV感知、占用网络[18] - 生成式模型：扩散模型（用于输出多模轨迹）、VAE、GAN以及Next Token Prediction[18] - 仿真技术：闭环仿真、NeRF和3DGS[18] 课程面向人群与学后收获 - 面向人群：课程是首个面向端到端自动驾驶的进阶实战教程，旨在推动端到端在工业界落地，助力从业者真正理解端到端技术[17] - 学员基础要求：需自备GPU（推荐算力在4090及以上），具备一定的自动驾驶领域基础，了解transformer大模型、扩散模型、BEV感知等基本概念，以及概率论、线性代数、Python和PyTorch基础[20] - 学后收获目标：掌握世界模型技术进展（视频生成、OCC生成等方法），对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解，可复现II-World、OpenDWM等主流算法框架，能够将所学应用到项目设计中[20] - 职业发展：学完预计能达到1年左右世界模型自动驾驶算法工程师水平，对实习、校招、社招均有助益[20] 课程安排与信息 - 课程进度：开课时间为1月1日，预计两个半月结课，采用离线视频教学，提供VIP群内答疑及三次线上答疑，答疑服务截止2026年12月31日[21] - 章节解锁时间表： - 12月10日：第一章[22] - 1月1日：第二章[22] - 1月20日：第三章[22] - 2月4日：第四章[22] - 2月24日：第五章[22] - 3月1日：第六章[22] - 讲师背景：Jason老师拥有C9本科和QS50高校博士学位，已发表CCF-A论文2篇及CCF-B论文若干，现任国内TOP主机厂算法专家，从事端到端、大模型、世界模型等前沿算法预研和量产，并主持完成多项自动驾驶感知和端到端算法的产品量产交付[9]