正式开课!三个月搞懂自动驾驶世界模型技术栈
自动驾驶之心·2025-12-30 17:20

文章核心观点 - 世界模型是理解并改变物理世界的核心技术,正引领生成式AI自动驾驶范式,重塑自动驾驶底层能力[2] - 自动驾驶领域对世界模型的探索持续进行,主要方向包括视频生成和OCC生成[2] - 行业基于开源算法搭建云端/车端世界模型,用于长尾数据生成、闭环仿真评测,并尝试直接赋能车端驾驶能力[3] - 世界模型定义尚不清晰,初学者入门困难,存在大量“踩坑”现象[4][5] - 为解决学习难题,推出了国内首个《世界模型与自动驾驶小班课》,旨在系统化教学,帮助学员达到约1年经验的算法工程师水平[7][20] 行业技术动态与探索方向 - 视频生成方向:是学术界和工业界探索最多的领域,代表工作包括Wayve的GAIA-1/2/3、上海交通大学CVPR'25的UniScene等[2] - OCC生成方向:经典工作包括OccWorld、OccLLaMA,以及西安交通大学最新的SOTA工作II-World[2] - 通用世界模型进展:近期重要发布包括2025年6月Yann LeCun的V-JEPA 2、2025年8月DeepMind的Genie 3、2025年11月李飞飞团队的Marble[2] - 业界热门工作:包括导航世界模型、VLA+世界模型算法DriveVLA-W0以及特斯拉在ICCV上分享的世界模型模拟器[13] 课程内容与结构 - 第一章:世界模型介绍:复盘世界模型与端到端自动驾驶的联系,讲解发展历史、应用案例、不同流派(纯仿真、仿真+Planning、生成传感器输入、生成感知结果等)及其在业界的应用与解决的问题[12] - 第二章:世界模型背景知识:讲解场景表征、Transformer、BEV感知等基础知识,为后续学习奠定基础,内容被认为是求职面试频率最高的技术关键词[12][13] - 第三章:通用世界模型探讨:深入讲解Marble、Genie 3、JEPA、DriveVLA-W0、特斯拉模拟器等热门模型的来龙去脉、核心技术与设计理念[13] - 第四章:基于视频生成的世界模型:从Wayve的GAIA-1 & GAIA-2讲起,涵盖CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战[14] - 第五章:基于OCC的世界模型:聚焦OCC生成类算法,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端[15] - 第六章:世界模型岗位专题:分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备要点[16] 课程涉及的关键技术栈 - 基础模型与架构:Transformer、视觉Transformer、为多模态大模型奠定基础的CLIP和LLaVA[18] - 感知与表征:BEV感知、占用网络[18] - 生成式模型:扩散模型(用于输出多模轨迹)、VAE、GAN以及Next Token Prediction[18] - 仿真技术:闭环仿真、NeRF和3DGS[18] 课程面向人群与学后收获 - 面向人群:课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力从业者真正理解端到端技术[17] - 学员基础要求:需自备GPU(推荐算力在4090及以上),具备一定的自动驾驶领域基础,了解transformer大模型、扩散模型、BEV感知等基本概念,以及概率论、线性代数、Python和PyTorch基础[20] - 学后收获目标:掌握世界模型技术进展(视频生成、OCC生成等方法),对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目设计中[20] - 职业发展:学完预计能达到1年左右世界模型自动驾驶算法工程师水平,对实习、校招、社招均有助益[20] 课程安排与信息 - 课程进度:开课时间为1月1日,预计两个半月结课,采用离线视频教学,提供VIP群内答疑及三次线上答疑,答疑服务截止2026年12月31日[21] - 章节解锁时间表: - 12月10日:第一章[22] - 1月1日:第二章[22] - 1月20日:第三章[22] - 2月4日:第四章[22] - 2月24日:第五章[22] - 3月1日:第六章[22] - 讲师背景:Jason老师拥有C9本科和QS50高校博士学位,已发表CCF-A论文2篇及CCF-B论文若干,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法预研和量产,并主持完成多项自动驾驶感知和端到端算法的产品量产交付[9]

正式开课!三个月搞懂自动驾驶世界模型技术栈 - Reportify