世界模型小班课
搜索文档
刚做了一份世界模型的学习路线图,面向初学者......
自动驾驶之心· 2025-12-25 11:24
世界模型与端到端自动驾驶的关系 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 行业将自动驾驶世界模型的研究收敛于生成和重建两大领域[2] - 目前主流应用是利用世界模型进行闭环仿真,以应对Corner Case成本过高的问题[2] 世界模型课程核心内容架构 - 课程第一章概述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 课程第二章涵盖世界模型的基础知识,包括场景表征、Transformer、BEV感知等,是求职面试的高频技术点[5][6] - 课程第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 课程第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等算法,并以OpenDWM进行实战[7] - 课程第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划[8] - 课程第六章分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备经验[9] 世界模型涉及的关键技术栈 - 基础技术包括Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础[11] - 涉及BEV感知基础知识及占用网络[11] - 涵盖扩散模型理论,该模型是输出多模轨迹的热点技术[11] - 包括闭环仿真相关的NeRF和3DGS技术[11] - 也涉及其他生成式模型,如VAE、GAN以及Next Token Prediction[11] 世界模型相关的重要研究 - 国内重要研究包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World[12] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,助力从业者深入理解端到端技术[10] - 学员需自备GPU,推荐算力在4090及以上[13] - 学员需具备自动驾驶领域基础,熟悉其基本模块[13] - 学员需了解transformer大模型、扩散模型、BEV感知等基本概念[13] - 学员需具备一定的概率论、线性代数及Python、PyTorch基础[13] - 课程期望使学员达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展及BEV感知等关键技术,并能复现主流算法框架[13] 课程进度安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 各章节解锁时间:第一章12月10日,第二章1月1日,第三章1月20日,第四章2月4日,第五章2月24日,第六章3月1日[15]
下周开课!我们设计了一份自动驾驶世界模型学习路线图....
自动驾驶之心· 2025-12-24 17:22
自动驾驶世界模型技术趋势与课程核心内容 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 当前行业将自动驾驶世界模型的研究收敛于生成和重建两大领域,并主要用于闭环仿真[2] - 行业正经历风格转换,因处理Corner Case成本过高,需寻求更有效的手段[2] - 近期世界模型相关研究呈现爆发式增长[2] 课程结构与核心知识点 - 课程共分六章,从概述、背景知识到专题应用,系统讲解世界模型[5][6][7][8][9] - 第一章阐述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 第二章涵盖世界模型所需基础技术栈,包括场景表征、Transformer、BEV感知等[5] - 第三章聚焦通用世界模型,解析Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 第四章专注视频生成类世界模型,涵盖GAIA-1、GAIA-2、UniScene、OpenDWM、InstaDrive等,并以OpenDWM进行实战[7] - 第五章讲解基于OCC生成的世界模型,涉及OccWorld、OccLLaMA、HERMES、II-World等三大论文及一个项目实战[8][12] - 第六章为工业界应用与岗位专题,分享行业痛点、应用现状及面试准备经验[9] 课程技术深度与目标人群 - 课程深度覆盖BEV感知、多模态大模型、3DGS、扩散模型、NeRF、VAE、GAN等关键技术[11] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV感知基本概念、有Python/PyTorch基础的学习者[13] - 学习目标为使学员达到约1年经验的自动驾驶世界模型算法工程师水平,能够复现主流算法并应用于实际项目[13] - 课程为离线视频教学,配备VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 课程自1月1日开课,预计两个半月结课,各章节按计划在12月10日至次年3月1日期间逐步解锁[14][15]
世界模型工作正在呈现爆发式增长
自动驾驶之心· 2025-12-20 10:16
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径,当前行业研究主要聚焦于生成和重建两大领域,并广泛应用于闭环仿真以应对Corner Case成本过高的问题 [2] - 行业正经历风格转换,世界模型相关研究呈现爆发式增长,为应对此趋势,推出了聚焦通用世界模型、视频生成、OCC生成等算法的进阶实战课程 [2] 课程内容与结构 - **第一章:世界模型介绍** 涵盖世界模型与端到端自动驾驶的联系、发展历史、应用案例,并介绍纯仿真、仿真+规划、生成传感器输入、生成感知结果等不同流派及其在行业中的应用环节和解决的问题 [5] - **第二章:世界模型的背景知识** 讲解世界模型的基础技术栈,包括场景表征、Transformer、BEV感知等,为后续学习奠定基础,这些内容是当前世界模型求职面试的高频技术关键词 [5][6] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细解析李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器等模型的核心技术与设计理念 [6] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战展开 [7] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [8] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、世界模型需解决的问题,以及相关岗位面试准备与公司关注重点 [9] 课程技术覆盖与学习目标 - **技术覆盖** 课程内容涉及Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN、Next Token Prediction等多种生成式模型与关键技术 [11] - **核心算法案例** 课程涵盖清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等具体算法工作 [12] - **学习目标** 学员学完后预期能达到约1年经验的世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,深刻理解BEV感知、多模态大模型等关键技术,能够复现II-World、OpenDWM等主流算法框架,并应用于实际项目设计 [13] 课程安排与面向人群 - **课程安排** 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日,各章节按计划从12月10日至次年3月1日逐步解锁 [14][15] - **面向人群** 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、扩散模型、BEV感知等基本概念,拥有概率论与线性代数基础,以及Python和PyTorch编程能力的学员,学习需自备算力在4090及以上的GPU [13]
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]
世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)
自动驾驶之心· 2025-12-15 14:00
课程核心信息 - 课程名称为世界模型小班课,是继《端到端与VLA自动驾驶小班课》后推出的进阶课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力学员理解端到端自动驾驶 [12] - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,并提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表CCF-A论文2篇及若干CCF-B论文 [4] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [4] 课程大纲与内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其在业界解决的问题和应用环节,并介绍相关数据集与评测 [7] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当下世界模型求职面试频率最高的技术关键词 [7][8] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [8] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [9] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法可扩展为自车轨迹规划以实现端到端 [10] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备与公司关注内容 [11] 关键技术覆盖 - 课程将复习Transformer基本概念并扩展到视觉Transformer,讲解为多模态大模型奠定基础的CLIP和LLaVA [13] - 详细介绍BEV感知基础知识及常见的占用网络,讲解扩散模型理论知识及其在多模轨迹输出中的应用 [13] - 梳理世界模型中常提的闭环仿真、NeRF和3DGS的核心概念,并讲解其他生成式模型如VAE、GAN以及Next Token Prediction [13] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World等具体工作 [14] 面向人群与学后收获 - **面向人群要求** 学员需自备GPU,推荐算力在4090及以上,具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等基本概念,具备概率论、线性代数基础及Python和PyTorch语言基础 [15] - **预期学习成果** 学完课程能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,并能将所学应用到项目设计中,对实习、校招、社招均有助益 [15] 课程进度安排 - 课程章节按计划解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [17]