《世界模型与自动驾驶小班课》
搜索文档
答应大家的《自动驾驶世界模型》课程终于开课了!
自动驾驶之心· 2026-01-06 14:52
课程核心信息 - 课程名称为《世界模型与自动驾驶小班课》,是《端到端与VLA自动驾驶小班课》的进阶课程,聚焦于通用世界模型、视频生成、OCC生成等算法 [1] - 课程为首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界的落地,助力学员理解端到端自动驾驶 [11] - 课程为离线视频教学,包含VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [15] - 课程于1月1号开课,预计两个半月结课,各章节按计划时间解锁 [15][16] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表2篇CCF-A论文及若干CCF-B论文 [3] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产 [3] - 拥有丰富的自动驾驶感知和端到端算法研发实战经验,已主持并完成多项相关算法的产品量产交付 [3] 课程大纲与内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其在业界的应用环节,并介绍相关数据集与评测 [6] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当下世界模型求职面试频率最高的技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解及一个项目实战,此类方法可扩展为自车轨迹规划以实现端到端 [9] - **第六章:世界模型岗位专题** 基于前五章基础,分享世界模型在工业界的应用现状、行业痛点、期望解决的问题,以及如何准备相关岗位面试 [10] 关键技术覆盖 - 课程将复习Transformer并扩展到视觉Transformer,讲解为多模态大模型奠定基础的CLIP和LLaVA [12] - 详细介绍BEV感知基础知识及世界模型常见的占用网络 [12] - 讲解扩散模型理论,该模型输出多模轨迹是当前学术界和工业界追捧的热点 [12] - 梳理世界模型中常提的闭环仿真、NeRF和3DGS的核心概念 [12] - 讲解其他生成式模型,如VAE、GAN以及Next Token Prediction [12] - OCC生成类世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World等经典与前沿工作 [13] 面向人群与学后收获 - **面向人群要求**:学员需自备GPU,推荐算力在4090及以上;需具备一定的自动驾驶领域基础,熟悉其基本模块;了解transformer大模型、扩散模型、BEV感知等技术基本概念;具备一定的概率论、线性代数及Python和PyTorch语言基础 [14] - **学后收获目标**:学员学完后能够达到1年左右世界模型自动驾驶算法工程师水平;掌握世界模型技术进展,涵盖视频生成、OCC生成等方法;对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解;可复现II-World、OpenDWM等主流算法框架;能够将所学应用到项目中,设计自己的世界模型;在实习、校招、社招中均能受益 [14]
正式开课!三个月搞懂自动驾驶世界模型技术栈
自动驾驶之心· 2025-12-30 17:20
文章核心观点 - 世界模型是理解并改变物理世界的核心技术,正引领生成式AI自动驾驶范式,重塑自动驾驶底层能力[2] - 自动驾驶领域对世界模型的探索持续进行,主要方向包括视频生成和OCC生成[2] - 行业基于开源算法搭建云端/车端世界模型,用于长尾数据生成、闭环仿真评测,并尝试直接赋能车端驾驶能力[3] - 世界模型定义尚不清晰,初学者入门困难,存在大量“踩坑”现象[4][5] - 为解决学习难题,推出了国内首个《世界模型与自动驾驶小班课》,旨在系统化教学,帮助学员达到约1年经验的算法工程师水平[7][20] 行业技术动态与探索方向 - **视频生成方向**:是学术界和工业界探索最多的领域,代表工作包括Wayve的GAIA-1/2/3、上海交通大学CVPR'25的UniScene等[2] - **OCC生成方向**:经典工作包括OccWorld、OccLLaMA,以及西安交通大学最新的SOTA工作II-World[2] - **通用世界模型进展**:近期重要发布包括2025年6月Yann LeCun的V-JEPA 2、2025年8月DeepMind的Genie 3、2025年11月李飞飞团队的Marble[2] - **业界热门工作**:包括导航世界模型、VLA+世界模型算法DriveVLA-W0以及特斯拉在ICCV上分享的世界模型模拟器[13] 课程内容与结构 - **第一章:世界模型介绍**:复盘世界模型与端到端自动驾驶的联系,讲解发展历史、应用案例、不同流派(纯仿真、仿真+Planning、生成传感器输入、生成感知结果等)及其在业界的应用与解决的问题[12] - **第二章:世界模型背景知识**:讲解场景表征、Transformer、BEV感知等基础知识,为后续学习奠定基础,内容被认为是求职面试频率最高的技术关键词[12][13] - **第三章:通用世界模型探讨**:深入讲解Marble、Genie 3、JEPA、DriveVLA-W0、特斯拉模拟器等热门模型的来龙去脉、核心技术与设计理念[13] - **第四章:基于视频生成的世界模型**:从Wayve的GAIA-1 & GAIA-2讲起,涵盖CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战[14] - **第五章:基于OCC的世界模型**:聚焦OCC生成类算法,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端[15] - **第六章:世界模型岗位专题**:分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备要点[16] 课程涉及的关键技术栈 - **基础模型与架构**:Transformer、视觉Transformer、为多模态大模型奠定基础的CLIP和LLaVA[18] - **感知与表征**:BEV感知、占用网络[18] - **生成式模型**:扩散模型(用于输出多模轨迹)、VAE、GAN以及Next Token Prediction[18] - **仿真技术**:闭环仿真、NeRF和3DGS[18] 课程面向人群与学后收获 - **面向人群**:课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力从业者真正理解端到端技术[17] - **学员基础要求**:需自备GPU(推荐算力在4090及以上),具备一定的自动驾驶领域基础,了解transformer大模型、扩散模型、BEV感知等基本概念,以及概率论、线性代数、Python和PyTorch基础[20] - **学后收获目标**:掌握世界模型技术进展(视频生成、OCC生成等方法),对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目设计中[20] - **职业发展**:学完预计能达到1年左右世界模型自动驾驶算法工程师水平,对实习、校招、社招均有助益[20] 课程安排与信息 - **课程进度**:开课时间为1月1日,预计两个半月结课,采用离线视频教学,提供VIP群内答疑及三次线上答疑,答疑服务截止2026年12月31日[21] - **章节解锁时间表**: - 12月10日:第一章[22] - 1月1日:第二章[22] - 1月20日:第三章[22] - 2月4日:第四章[22] - 2月24日:第五章[22] - 3月1日:第六章[22] - **讲师背景**:Jason老师拥有C9本科和QS50高校博士学位,已发表CCF-A论文2篇及CCF-B论文若干,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法预研和量产,并主持完成多项自动驾驶感知和端到端算法的产品量产交付[9]
为什么世界模型对行业产生了这么大的影响?
自动驾驶之心· 2025-12-29 17:17
世界模型在自动驾驶领域的愿景与探索 - 世界模型的愿景是理解并改变物理世界,其核心在于以持续技术突破引领生成式AI自动驾驶范式,重塑自动驾驶底层能力 [2] - 自动驾驶领域对世界模型的探索持续进行,主要方向包括视频生成、OCC生成以及Lidar点云生成或视觉与点云的联合生成 [3] - 许多公司基于开源算法搭建云端或车端世界模型,用于长尾数据生成或闭环仿真与评测,部分公司正尝试基于世界模型直接赋能车端驾驶能力 [4] 世界模型的技术定义与学习挑战 - 世界模型的定义尚不清晰,存在“生成即世界模型”与“生成加重建即世界模型”等不同理解,导致新入行者容易混淆 [5] - 对于初学者而言,理解世界模型并完成数据生成、闭环仿真等后续任务非常困难,部分从业者甚至花费半年时间仍难以有效入门 [6] 自动驾驶世界模型课程概述 - 该课程由自动驾驶之心平台联合工业界算法专家Jason推出,旨在从原理到实战帮助学习者掌握自动驾驶世界模型领域,是国内首个《世界模型与自动驾驶小班课》 [6][8] - 讲师Jason拥有C9本科与QS50博士学位,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的产品量产交付 [8] - 课程为离线视频教学,开课时间为1月1日,预计两个半月结课,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [20] 课程大纲与核心内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派及其在业界解决的问题与所处环节 [11] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [11][12] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,深入讲解Marble、Genie 3、JEPA、导航世界模型、DriveVLA-W0及特斯拉的世界模型模拟器等模型的核心技术与设计理念 [12] - **第四章:基于视频生成的世界模型** 聚焦视频生成类算法,讲解Wayve的GAIA-1 & GAIA-2、上交的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战 [13] - **第五章:基于OCC的世界模型** 聚焦OCC生成类算法,涵盖三大论文讲解与一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [14] - **第六章:世界模型岗位专题** 分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备与公司关注点 [15] 课程技术细节与学习收获 - 课程背景知识部分将详细讲解Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真中的NeRF与3DGS,以及其他生成式模型如VAE、GAN等 [17] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科的HERMES以及西交最新的II-World等工作 [18] - 学完本课程后,学习者预期能达到约1年经验的自动驾驶世界模型算法工程师水平,掌握技术进展,对BEV感知、多模态大模型等关键技术有更深刻理解,并可复现II-World、OpenDWM等主流算法框架 [19] 课程安排与参与要求 - 课程章节按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [21] - 学习本课程需要自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、了解Transformer大模型等基本概念、拥有概率论与线性代数基础以及Python和PyTorch编程能力 [19]
工业界大佬带队!彻底搞懂自动驾驶世界模型...
自动驾驶之心· 2025-12-11 11:35
课程核心定位 - 课程为自动驾驶领域首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员深入理解端到端自动驾驶 [11] - 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程由工业界专家授课,内容基于讲师丰富的端到端算法研发和量产交付实战经验 [3][6] 课程内容与结构 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派(如纯仿真、仿真+规划、生成传感器输入等)及其在业界解决的问题与所处环节,并介绍相关数据集与评测 [6] - **第二章:世界模型背景知识** 讲解世界模型的基础技术栈,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细讲解李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等三篇论文,并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端 [9][13] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用现状、行业痛点、期望解决的问题,以及如何准备相关岗位面试,内容为公司真正关注的经验积累 [10] 课程技术覆盖与学后收获 - **关键技术覆盖** 课程涵盖Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等生成式模型 [12] - **预期能力提升** 学员学完后预期能达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,并对BEV感知、多模态大模型等关键技术有更深刻理解 [14] - **实践成果** 学员将能够复现II-World、OpenDWM等主流算法框架,并将所学应用到项目中,真正搞懂如何设计自己的世界模型,对实习、校招、社招均有助益 [14] 课程安排与面向人群 - **课程进度** 课程于1月1日开课,预计两个半月结课,采用离线视频教学,配合VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [15] - **章节解锁时间** 第一章于12月10日解锁,后续章节在1月1日至3月1日期间陆续解锁 [16] - **学员基础要求** 学员需自备算力在4090及以上的GPU,具备一定的自动驾驶领域基础,熟悉Transformer大模型、扩散模型、BEV感知等基本概念,并具备概率论、线性代数及Python和PyTorch编程基础 [14]
世界模型自动驾驶小班课!特斯拉世界模型、视频&OCC生成速通
自动驾驶之心· 2025-12-10 03:00
课程核心定位 - 课程为自动驾驶领域首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员深入理解端到端自动驾驶 [11] - 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程由工业界专家授课,内容基于讲师丰富的端到端算法研发和量产实战经验 [3] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表多篇CCF-A/B类论文 [3] - 现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [3] 课程大纲与内容结构 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派(如纯仿真、仿真+Planning、生成传感器输入等)及其在业界解决的问题和所处环节,并介绍相关数据集与评测 [6] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细讲解李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交通大学的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端 [9] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验、行业痛点、期望解决的问题,以及相关岗位面试准备与公司关注重点 [10] 关键技术覆盖与学后收获 - **关键技术覆盖** 课程将详细讲解Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等生成式模型 [12] - **核心算法掌握** 学员将掌握世界模型技术进展,涵盖视频生成、OCC生成等方法,并对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解 [14] - **实战能力目标** 学员学完后能够复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目中,设计自己的世界模型,达到约1年经验的自动驾驶算法工程师水平 [14] - **职业发展受益** 课程内容对实习、校招、社招均有助益 [14] 课程进度与安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,并提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [15] - 各章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [16] 面向人群与先修要求 - **面向人群** 课程面向具备一定自动驾驶领域基础,熟悉基本模块的学员 [14] - **先修知识要求** 学员需了解transformer大模型、扩散模型、BEV感知等基本概念,具备一定的概率论、线性代数基础,以及Python和PyTorch编程能力 [14] - **硬件要求** 学员需要自备GPU,推荐算力在RTX 4090及以上 [14]
世界模型与自动驾驶小班课正式推出!特斯拉世界模型、视频OCC生成一网打尽~
自动驾驶之心· 2025-12-09 15:59
课程核心内容与定位 - 课程名称为《世界模型与自动驾驶小班课》,是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员真正理解端到端自动驾驶 [2][10] - 课程由“自动驾驶之心”公众号联合工业界大佬推出,是继《端到端与VLA自动驾驶小班课》后进一步推出的课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程讲师Jason拥有C9本科和QS50 PhD背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的研发和实战经验 [2] 课程大纲与章节详解 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、当下应用案例,并介绍纯仿真、仿真+Planning、生成传感器输入、生成感知结果等不同流派,以及它们在业界的应用、解决的问题、所处环节、相关数据集和评测 [5] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,为后续章节奠定基础,其内容是当下世界模型求职面试频率最高的技术关键词 [5][6] - **第三章:通用世界模型探讨** 聚焦通用世界模型和近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及业界广泛讨论的VLA+世界模型算法DriveVLA-W0和特斯拉ICCV上分享的世界模型模拟器 [6] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,从Wayve的GAIA-1 & GAIA-2开始,扩展到上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,兼顾经典与前沿进展,并以商汤开源的OpenDWM进行实战 [7] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法不局限于OCC生成,可较易扩展为自车轨迹规划,从而进一步实现端到端 [8] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、期望解决的问题,以及如何准备相关岗位面试和公司真正关注的内容 [9] 课程技术深度与学后收获 - 课程将详细讲解Transformer、视觉Transformer、CLIP、LLAVA、BEV感知、占用网络(Occupancy Network)、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等关键技术概念 [11] - 课程涵盖OCC生成类世界模型的多个前沿工作,包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World [12] - 学员学完本课程后,预期能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展(涵盖视频生成、OCC生成等方法),对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,并可复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目设计中,对实习、校招、社招均有助益 [13] 课程安排与面向人群 - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,辅以VIP群内答疑和三次线上答疑 [14] - 章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [14] - 面向人群需自备GPU(推荐算力在4090及以上),具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等技术的基本概念,具备一定的概率论、线性代数基础以及Python和PyTorch语言基础 [13]