扩散模型
搜索文档
NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!
机器之心· 2025-11-24 17:30
研究背景与现有方案的局限性 - 重光照技术旨在编辑图像或视频中的光照效果,在电影、游戏、虚拟现实和增强现实等领域具有重要应用价值[11] - 当前基于扩散模型的方法存在物理一致性缺失的问题,常导致阴影错位、高光过曝和遮挡关系错误等不合理现象[11][15] - 现有评估体系不完善,通用图像评价指标无法针对性衡量光照属性的准确性,制约了模型在光照可控性方面的优化[12] UniLumos框架的核心创新 - 引入来自RGB空间的几何反馈机制,采用深度图与表面法线图作为监督信号,强制模型学习光影与三维场景结构的对齐关系,显著提升物理一致性[22] - 采用路径一致性学习,在少步训练条件下保持有效监督,使推理速度较现有SOTA方法提升达20倍[3][22][33] - 构建了细粒度光影评估基准LumosBench,基于视觉语言模型实现自动化、可解释的评估,覆盖方向、光源类型、强度等六个光照维度[4][22] 高质量训练数据构建 - 构建了高质量光影训练数据集LumosData,包含11万视频样本与120万图像样本的大规模高质量光影数据对[23] - 数据构建流程包含四个阶段,用于从真实场景数据生成多样化的重光照样本对,并引入结构化的六维光照标注协议[20][21][22] 模型架构与训练策略 - 模型基于视频生成模型Wan 2.1构建,将对齐后的视频输入经由Wan-VAE编码器处理得到语义潜表示[24] - 训练目标融合了流匹配损失、路径一致性损失和物理引导损失三种互补的损失函数,以权衡外观保真度、几何一致性与推理速度[24] - 采用选择性优化策略,在每轮训练迭代中按80/20比例划分批次,平衡物理监督与训练效率[24] 实验结果与性能表现 - 在定量结果中,UniLumos在所有关键指标上均取得最优性能,PSNR达26.719(图像)和25.031(视频),SSIM达0.913(图像)和0.891(视频)[27][28] - 在LumosBench细粒度可控性评估中,UniLumos平均可控性得分达0.773,显著高于其他专有重光照模型和通用视频生成模型[29][30] - 在生成49帧480p视频的任务中,UniLumos仅需12秒,而IC-Light需277秒,Light-A-Video需756秒,实现了显著的推理效率提升[33] 消融实验与模块分析 - 物理引导反馈模块对性能至关重要,移除深度与法向反馈会导致图像质量与物理一致性显著下降,其中法向监督的作用尤为关键[35] - 路径一致性模块在几乎不牺牲生成性能的前提下,为少步生成场景带来了可观的效率优势[35] - 统一训练方法在图像和视频两类输入上均取得了高质量的重光照结果,实现了最优的时序一致性平衡[35]
圣母大学团队打造分子设计新利器:让AI像写文章一样创造分子
仪器信息网· 2025-11-19 17:08
核心观点 - DemoDiff是一种基于上下文学习的AI分子设计系统,能够通过少量示例分子快速生成全新分子结构,显著提升药物和材料研发效率[6][7][8] - 该系统采用创新的节点对编码方法将分子描述效率提升5.5倍,原本需要38个原子描述的分子现仅需4个分子积木即可准确表达[9] - 在33个不同设计任务测试中表现优异,与比其大100-1000倍的大型语言模型相媲美,某些任务甚至更优[19][20] AI分子设计原理 - 模仿人类化学家思维过程,通过分析一组标记为正面、中等和负面示例的分子来理解功能与结构关系[10][11] - 基于扩散模型技术,采用渐进式生成方式,从随机分子结构开始经过数百步骤逐步优化至目标结构[16][17] - 具备独特负面学习能力,仅通过效果不佳分子示例就能反向推理设计出高质量分子,在新药开发早期阶段特别有价值[21][22] 技术创新点 - 开发节点对编码方法,类似汉字偏旁部首概念,用分子基团组合描述复杂结构,大幅提升计算效率[12][13] - 采用图注意力机制处理分子三维空间结构,保持全局理解同时确保化学合理性[23] - 模型规模经过优化测试,在7.39亿参数时达到性价比平衡点,性能随参数增加稳步提升[24] 数据基础 - 构建包含超过100万个分子结构和155万种分子属性记录的综合性数据库,涵盖药物和材料领域[9][14] - 数据来源包括ChEMBL药物数据库和各种材料科学数据库,组织成164万个设计任务[14][15] - 分子属性分布遵循齐普夫定律,既保证学习常见设计模式又接触多样化特殊案例[15] 性能表现 - 在六大类33个设计任务测试中表现全面,包括药物重发现、多目标优化、材料设计等[19] - 生成分子多样性优秀,提供多种解决方案,传统方法需数万次试验而DemoDiff仅需少量示例[19][20] - 在属性驱动设计任务中表现突出,能根据期望分子性质而非简单模仿结构进行创新设计[20] 应用前景 - 有望将药物研发周期从10-15年大幅缩短,降低数十亿美元开发成本[25] - 推动材料科学领域突破,在相互制约性能指标间找到平衡,如高强度轻量化航空材料[25] - 可能催生分子设计民主化,让不同背景研究人员参与创新,类似个人电脑普及对软件开发的影响[26] 发展展望 - 当前模型在处理精确控制分子结构细节任务时仍有局限性,未来需开发专业化模型变种[27] - 计划通过增加模型规模、扩展训练数据和优化方法提升处理复杂挑战能力[27] - 正与多家制药公司和材料研发机构合作,在实际项目中验证技术价值[28]
端到端和VLA的岗位,薪资高的离谱......
自动驾驶之心· 2025-11-19 08:03
行业人才需求与市场状况 - 端到端和视觉语言动作模型技术人才需求旺盛,多家主机厂和供应商积极寻求引荐 [1] - 某招聘网站上3-5年经验的专家岗位月薪高达70k [1] 核心技术栈与趋势 - 技术发展路径从模块化量产算法演进至端到端,再到当前的视觉语言动作模型 [2] - 核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等前沿领域 [2] - 掌握端到端与视觉语言动作模型技术意味着掌握学术界和工业界最前沿的技术方向 [2] 自动驾驶VLA与大模型实战课程 - 课程聚焦视觉语言动作模型领域,涵盖从视觉语言模型作为解释器到模块化、一体化及推理增强视觉语言动作模型的三大方向 [2] - 配套理论基础包括视觉、语言、动作三大模块,以及强化学习、扩散模型等,并设有大作业章节指导学员从零搭建模型及数据集 [2] - 授课老师包括清华大学硕士生,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,拥有多模态感知、视觉语言动作模型、大模型Agent等前沿算法预研经验 [7] - 授课老师包括QS30高校博士在读,在EMNLP/IROS/ICCV等会议发表论文,研究方向涵盖多模态大模型与视觉语言动作模型,其GitHub开源项目总Star数超2k [7] - 授课老师包括清华大学硕士生,在RAL/IROS/EMNLP发表论文,从事在线建图感知、视觉语言动作模型、大模型Agent等算法预研 [10] 端到端与VLA自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解BEV感知、大语言模型、扩散模型和强化学习 [11] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [11] - 授课老师为C9本科+QS50博士,已发表CCF-A论文2篇,现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等算法的预研和量产,并完成多项产品量产交付 [13] 课程面向人群要求 - 学员需自备GPU,推荐算力在4090及以上 [14] - 需具备一定的自动驾驶领域基础,熟悉基本模块,了解transformer大模型、强化学习、BEV感知等技术概念 [15] - 需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [15]
做了一份端到端进阶路线图,面向落地求职......
自动驾驶之心· 2025-11-18 08:05
文章核心观点 - 市场对端到端和视觉语言动作模型技术人才需求旺盛,主机厂和供应商积极寻求相关专家,3-5年经验的专家岗位月薪高达70k [1] - 为满足行业学习需求,公司联合工业界和学术界专家推出两门实战课程,分别聚焦VLA大模型和端到端自动驾驶技术 [1][10] 课程内容与技术方向 - 自动驾驶VLA与大模型实战课程由学术界团队主导,课程体系覆盖从视觉语言模型作为解释器到模块化VLA、一体化VLA及推理增强VLA的全链路技术 [1] - 课程配套理论基础模块,包括Vision/Language/Action三大组件、强化学习、扩散模型等,并通过大作业指导学员从零搭建VLA模型及数据集 [1] - 端到端与VLA自动驾驶课程由工业界专家带队,重点讲解一段式/两段式端到端算法,核心技术点包括BEV感知、大语言模型、扩散模型和强化学习 [10] - 端到端课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法,紧密结合工业界量产实践 [10] 师资力量与团队背景 - 课程讲师团队由清华大学硕士、QS30高校博士等顶尖学术背景人才组成,在ICCV、IROS、EMNLP、Nature Communications等顶级会议和期刊发表多篇论文 [6][9] - 工业界讲师具备C9本科和QS50博士学历,现任国内顶级主机厂算法专家,拥有端到端算法和大模型预研及量产交付经验,已发表多篇CCF-A/B类论文 [12] - 讲师团队长期维护GitHub开源项目,总Star数超过2k,具备扎实的多模态大模型研发能力和丰富的自动驾驶实战经验 [6] 目标学员与技术要求 - 课程面向具备一定自动驾驶领域基础的学习者,要求熟悉自动驾驶基本模块和transformer大模型、强化学习、BEV感知等技术概念 [14] - 学员需具备概率论、线性代数基础和常用的数学运算能力,同时要求掌握一定的Python和PyTorch编程语言基础 [14] - 硬件方面要求学员自备GPU,推荐算力在4090及以上级别以满足课程实战需求 [13]
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取
机器之心· 2025-11-13 18:03
技术突破核心观点 - 近期研究提出利用冻结的预训练视觉模型特征直接构建潜空间,以提升扩散模型性能,代表技术为RAE和VFM-VAE [2] - VFM-VAE结合了VAE的概率建模机制,将高维预训练特征压缩为低维潜空间表示,系统性地研究了压缩条件下预训练视觉表征对LDM系统的影响 [2] - 该方法通过直接集成冻结的基础视觉模型作为Tokenizer,显著加速模型收敛并提升生成质量,展示了LDM Tokenizer从像素压缩迈向语义表征的演化方向 [2][5] 行业背景与技术挑战 - 扩散模型和多模态生成系统的性能上限日益受限于视觉分词器的表达能力 [6] - 传统蒸馏式方法(如VA-VAE)在有限数据集上训练,在语义保持扰动下容易失稳,导致潜空间表示偏移和系统稳健性下降 [6] - 研究团队提出SE-CKNNA指标,用于量化潜空间与基础视觉模型特征之间的一致性,并评估其对生成性能的影响 [7] VFM-VAE技术方案与架构 - 为解决基础视觉模型高层特征缺乏精确空间结构信息的问题,设计了两阶段解码框架,兼顾语义压缩与像素还原 [13] - 编码侧通过冻结基础视觉模型提取多层语义特征,并利用轻量投影模块映射到潜空间z [14] - 解码器采用多尺度潜特征融合结构,将z分为语义分支和空间分支,分别提供全局风格控制和布局确定 [14] - 使用调制式卷积块与层级式ToRGB输出,在8×8至256×256的金字塔结构中逐级恢复细节 [14] 性能表现与效率优势 - 在ImageNet 256×256上,VFM-VAE在相同训练阶段实现gFID 3.80(without CFG),优于蒸馏路线的5.14 [23] - 与显式对齐机制结合后,仅用80 epochs即可达到gFID 2.22(without CFG),训练效率较蒸馏式Tokenizer系统提升约10倍 [23] - 在文生图任务中,VFM-VAE + BLIP3-o在DPG-Bench上得分59.1,较VA-VAE提升明显;在MJHQ-30K上gFID降至16.98(蒸馏路线为23.00) [23] 行业比较与竞争定位 - 实验数据显示,VFM-VAE在仅使用44M图像训练时,其CKNNA指标相对变化为+1.6%,而VA-VAE(使用160M图像)为-33.2%,表明VFM-VAE在扰动下具有更好的稳健性 [11] - 在生成性能对比中,VFM-VAE结合不同生成模型(如REG、LightningDiT)在多个训练周期下均展现出竞争力的gFID和IST分数 [24] - VFM-VAE将VAE从传统的压缩与还原工具,转化为理解与生成的统一桥梁,使语义在潜空间中得到显式建模与传递 [28]
速递|斯坦福教授创业,Inception获5000万美元种子轮融资,用扩散模型解锁实时AI应用
Z Potentials· 2025-11-07 10:12
公司融资与背景 - AI初创公司Inception获得5000万美元种子轮融资 [2] - 本轮融资由Menlo Ventures领投,Mayfield、Innovation Endeavors、微软M12基金、Snowflake Ventures、Databricks Investment及英伟达NVentures参与,吴恩达和Andrej Karpathy提供天使投资 [2] - 公司项目领导者为斯坦福大学教授Stefano Ermon,其长期专注于扩散模型研究 [3] 核心技术优势 - Inception开发基于扩散的AI模型,该方法通过迭代优化产生输出,不同于主流的自回归模型 [3] - 扩散模型具备并行处理能力,基准测试显示每秒可处理超过1000个token,显著降低复杂任务中的延迟 [5] - 该技术路径在操作大型代码库或应对数据限制时可能更具优势,设计目标为追求极致速度和计算效率 [3][5] 产品进展与应用 - 公司发布专为软件开发设计的新版Mercury模型,并已集成到ProxyAI、Buildglare和Kilo Code等多款开发工具中 [3] - 扩散方法有助于模型优化两个关键指标:延迟(响应时间)和计算成本 [3] - 公司认为基于扩散的大语言模型比现有模型更快、更高效,且该领域仍有大量创新空间 [3]
上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型
机器之心· 2025-11-01 12:22
核心技术突破:SDAR范式 - 上海人工智能实验室提出全新范式SDAR,旨在解决大模型推理速度慢、成本高的核心瓶颈[2][3] - SDAR通过“训练-推理解耦”设计,无缝融合自回归模型的高性能与扩散模型的并行推理优势,能以极低成本将任意AR模型改造为并行解码模型[4] - 该方法可理解为先培养强大的AR模型,再用极短时间教会其块状并行生成技巧,在保留原有性能的同时实现推理效率的质的飞跃[12] 性能验证结果 - 在多个基准测试中,SDAR模型与原版AR模型性能持平甚至超越,例如在30B规模下,SDAR-Chat在18个基准中的11个上持平或超越了其AR版本[18] - 在科学推理任务上表现突出:SDAR-30B-A3B-Sci模型在ChemBench和GPQA-diamond基准上得分分别从60.5提升至72.8和从61.2提升至66.7,取得12.3和5.5个百分点的显著优势[6][27] - 通过简单的多轮采样+多数投票,SDAR性能可进一步飞跃,在AIME-2025上提升+19.3%,在LMB-hard上提升+15.7%[28] 效率与成本优势 - SDAR仅需50B token的开源数据进行继续预训练即可达到与AR基线相当的性能,远低于需要580B token从头训练的Dream等工作,实现了高效的“即插即用”式适配[19] - 在工业级推理引擎LMDeploy上的实测显示,SDAR-8B-chat在单张H200上实现了相较于AR版本2.3倍的实际加速,峰值吞吐量高达6599 token/s[23] - 模型越大,并行效率越高:更强的模型预测更自信,能一次性并行生成更多token,实现更高的“有效每步生成Token数”,形成“能力与速度”的良性循环[17][22] 行业影响与潜力 - SDAR不仅是一个“加速器”,更是一个“增强器”,为解决复杂推理任务提供了性能与效率俱佳的新范式[27][29] - 该范式的局部双向注意力机制对于精准理解化学式等结构化知识至关重要,在科学领域展现出巨大潜力[6][28] - 研究全面开源了从1.7B到30B的SDAR模型、推理引擎及迄今最强的开源扩散类推理模型,为行业提供了强大而灵活的新工具[31]
视觉生成的另一条路:Infinity 自回归架构的原理与实践
AI前线· 2025-10-31 13:42
视觉自回归模型的技术原理与优势 - 视觉自回归模型采用“由粗到细”的多尺度生成思路,从低分辨率开始逐级放大补全细节,更贴近图像物理属性和人类感知直觉 [12] - 模型通过金字塔式层级结构的改进版VQ-VAE将图像编码为一系列逐级放大的特征残差,残差设计使每级只需补全上级未刻画信息 [15] - 专用Transformer架构支持并行预测整片token,将迭代次数压缩至传统逐点方式的十分之一,显著提升效率 [15] Infinity框架的核心技术创新 - 放弃传统VQ码本改用符号量化技术,对特征激活按正负号压成±1形成1-bit表示,词表大小随通道数指数增长至2^32 [31] - 采用逐位预测机制将token拆分为逐通道二元分类,参数量从100B降至可接受范围,并对微小扰动具有天然鲁棒性 [33] - 引入位级自校正技术,在训练和推理阶段量化回传预测结果,使网络学会纠正前一步错误,显著抑制误差累积 [35] 性能表现与缩放定律验证 - 在ImageNet基准测试中VAR模型首次在生成质量上超越DiT,FID指标达到1.73(VAR-d30-re模型)[18][20] - 模型展现出清晰稳健的缩放曲线,性能随参数增加按幂律提升,2B参数Infinity在1024×1024分辨率下仅需0.8秒生成速度 [18][46] - 大模型在大词表配置下表现更优,当参数规模扩大时2^32词表性能反超2^16词表,验证缩放定律可靠性 [41] 与扩散模型的技术对比 - 扩散模型在单一分辨率上逐步去噪,训练推理步数开销大但误差可被后续步骤修正 [21][27] - 视觉自回归训练并行度高,所有尺度可一次输入网络,不像DiT需按时间步拆分多次前向计算 [27] - Infinity方案在1024×1024分辨率实现与DiT可比的FID指标,支持任意长宽比且推理速度比同量级DiT快3.7倍 [37][46] 行业应用前景 - 视觉自回归路线已从类别生成扩展至通用文本到图像生成,在高分辨率任务中具备与扩散模型正面竞争的能力 [49] - 后训练阶段采用DPO对齐技术可进一步提升画质和细节,表明对齐工作同样适用于VAR框架 [44] - 该技术路线在视频生成领域同样保持明显优势,为多模态AI应用提供新路径 [46]
近500页史上最全扩散模型修炼宝典,宋飏等人一书覆盖三大主流视角
机器之心· 2025-10-29 15:23
书籍核心价值与定位 - 书籍《The Principles of Diffusion Models》系统梳理了扩散模型的发展脉络与核心思想,深入解析了模型的工作原理、有效性及未来方向[5] - 该书以460多页的篇幅,通过严密的数学推导与公式展开,为具有深度学习基础的研究人员、研究生及从业者提供可靠的理论指南[1][8] - 书籍将变分、得分与流等多种视角在统一的数学框架下进行串联,既是研究者的系统参考资料,也是初学者的友好入门读物[5][6] 扩散模型基础原理 - 扩散模型将生成过程视为随时间逐步演化的变换,通过多阶段推理将粗略结构细化为精致细节,与传统生成模型直接学习噪声到数据的映射不同[11] - 领域研究者从三种主要视角发展扩散模型:变分方法、基于得分的方法和基于流的方法,这些视角提供了互补的框架[11][14] - 三种视角在数学上等价,共同构成了扩散建模的统一理论图景,并与变分自编码器、能量模型和归一化流等方法相联系[16][23] 扩散模型核心视角详解 - **变分视角**:源自变分自编码器,将扩散过程理解为通过变分目标学习去噪过程,形成去噪扩散概率模型[23] - **得分视角**:起源于能量模型,通过学习对数数据密度的梯度来指导逐步去噪,在连续时间设定下与随机微分方程和常微分方程理论紧密相连[23] - **流视角**:基于归一化流,将生成建模表述为连续的流动变换,通过ODE描述样本从简单先验分布逐步运输至数据分布的过程[23] - 第6章展示了三种视角之间的深层统一性,第7章进一步探讨其与最优传输理论及薛定谔桥之间的联系[24][25] 扩散采样控制与加速 - 扩散模型的生成过程呈现出由粗到细逐步精化的特征,但采样过程计算代价较高,需要改进采样方法和学习型加速技术[26][27] - **引导式生成**:通过分类器引导和无分类器引导等方法,使生成过程能够根据用户定义的目标或属性进行条件控制,实现偏好对齐[29] - **基于数值求解器的快速生成**:采用先进数值求解器,在更少的反向积分步骤中近似模拟扩散反过程,显著降低计算成本的同时保持生成质量[29] 快速生成模型的学习方法 - **基于蒸馏的方法**:训练学生模型模仿已训练好的教师扩散模型的行为,以显著更少的积分步数重现教师模型的采样轨迹或输出分布[30] - **从零开始的学习**:直接从零开始学习ODE的解映射(流映射),无需依赖教师模型,实现端到端的快速生成,消除多步采样的时间瓶颈[30][31][32] - 这些方法旨在通过模型学习获得对扩散动态的直接近似,从根本上提升生成速度与可扩展性[30] 书籍涵盖范围与理论体系 - 全书围绕统一核心原理展开:构建连续时间动力系统,将简单先验分布逐渐传输至数据分布,并确保任意时刻的边缘分布与预设正向过程诱导的边缘分布一致[33] - 书籍系统推导了扩散模型的基本机制,包括构建支持采样的随机流与确定性流、通过引导机制控制生成轨迹、利用数值求解器加速采样过程[34][36] - 本书旨在建立具有持久价值的理论体系,帮助读者在统一框架下定位新研究、理解方法原理、并具备设计与改进新一代生成模型的能力[36]
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 08:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]