Workflow
扩散模型
icon
搜索文档
ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana
量子位· 2025-12-29 12:32
模型核心能力与市场定位 - 通义千问发布的开源模型Qwen-Image-Layered,其核心能力在于实现图像元素的精细化修改与图层分解,被描述为“PS级别的拆图自由”[2][3] - 该模型解决了传统AI生图工具“一图定生死”的痛点,即生成图片后难以仅修改局部细节,而需整张重新生成的问题[6] - 模型可将一张普通RGB图片分解成多个包含透明度信息的RGBA分离图层,实现图片素材的真正可编辑性[6] - 其能力被行业专家(如Meta的Lucas Beyer)高度评价,认为其“完爆ChatGPT和Nano Banana”,并代表了图像生成的正确方向[1][5] 具体功能与应用场景 - 模型支持对分解后的图层进行多种二次编辑修改,包括:更改背景而不动主体[8]、替换主体(如将长发女孩换成短发女孩)[12][13]、局部修改图片中的文字[15][16] - 除替换编辑外,模型还支持调整元素大小、删除不想要的元素,且调整过程不拉伸、不失真,类似于PS的自由缩放功能[19][21] - 模型支持可变层分解,可根据图像复杂度和编辑需求,将图像分解为不同数量的图层(如3层或8层),并支持在已分解图层上进一步分解,实现“无限分解”[23] - 该能力非常适合海报制作等细节较多的图片编辑场景,能够将背景、人物、装饰等元素分离成互不干扰的独立图层[6][7] 核心技术原理 - Qwen-Image-Layered模型的核心技术是一套端到端的“扩散模型”,但它并非用于生成图片,而是专门为“拆图片”设计[29][30] - 模型直接输入完整的RGB照片,通过扩散过程预测出多个带透明度信息(Alpha通道)的RGBA图层[31] - 模型设计了一套四通道的RGBA-VAE,将RGB输入和RGBA输出统一压缩到同一个隐藏空间中,并在初始化阶段将Alpha通道补为1(完全不透明),复用预训练参数以避免透明度建模出错[33][35] - 其核心Transformer结构(VLD-MMDiT)会根据图片复杂度自动决定需要拆分的层数,并采用Layer3D RoPE(三维位置编码)为不同图层打上层级标签,解决图层相互遮盖的问题[37] - 训练策略分为三个阶段:第一阶段学习用文本生成单RGBA图层;第二阶段扩展到多图层合成;第三阶段学习从图片反向拆解多图层,每阶段训练几百K步[38][39] 技术优势与对比 - 相较于传统方法(如LayerD需要递归抠前景再补背景,容易积累错误;或分割+修复方法在遮挡区域处理不佳),该模型能端到端生成完整的RGBA图层,避免了这些问题,尤其擅长处理复杂遮挡、半透明和文字[41] - 与Nano Banana等侧重于“生图”的模型相比,Qwen-Image-Layered的核心优势在于“拆图”,提供了更精细、可迭代的编辑能力[5][42] - 模型已正式开源,可供开发者与研究者使用[42]
市场正在惩罚只懂理论的端到端算法工程师......
自动驾驶之心· 2025-12-29 09:07
行业人才供需现状 - 中游车企和Tier1供应商正积极投入人力和资源跟进端到端自动驾驶技术,表明行业需求旺盛[1] - 市场面临算法人才短缺,面试候选人往往只懂部分技术或停留在论文层面,缺乏量产经验和优化能力[1] - 端到端岗位薪资很高,但缺乏能力相匹配的算法人才,凸显了高端技术人才市场的供需失衡[1] 核心技术栈 - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当下端到端自动驾驶落地最重要的技术栈[1] - 行业主流趋势是感知任务的合并与规控算法的学习化,如何高效合并感知任务和设计学习化规控模块成为各大公司核心技能[6] 课程核心内容与结构 - 课程为期三个月,包含七个实战项目,聚焦量产应用,从实战到落地层层展开[1] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等[1] - 课程大纲共八章,系统性地从概述、两段式/一段式框架、导航应用、强化学习、轨迹优化、兜底方案到量产经验分享[4][6][7][8][9][10][11][12][13] 技术方案详解 - 两段式端到端框架涉及感知与规划控制的信息传递,其优缺点将被详细分析,并通过经典的PLUTO算法进行实战[7] - 一段式端到端框架可实现信息无损传递,性能上优于两段式方案,课程将学习基于VLA、Diffusion等多种方案,并深入VAD系列[8] - 导航信息在自动驾驶中起引导、选路、选道作用,课程将介绍主流导航地图格式、内容及其在端到端模型中的编码与嵌入方式[9] - 纯模仿学习存在局限,需结合强化学习以学习因果关系并实现泛化,课程将重点介绍强化学习算法及其训练策略[10] - 轨迹输出优化项目将实战基于模仿学习的算法,重点介绍扩散模型和自回归算法,并在监督微调后结合强化学习[11] - 量产兜底方案采用时空联合规划,通过轨迹平滑优化算法保证输出轨迹的稳定可靠,涵盖多模态轨迹打分搜索与平滑算法[12] 课程实施与要求 - 课程采用离线视频教学,配合VIP群答疑及三次线上答疑,答疑服务截止2026年11月30日[14] - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端算法、强化学习与扩散模型理论基础,以及Python、PyTorch和MMDet3D框架使用能力[16] - 学员需自备GPU,推荐算力在RTX 4090及以上[16] - 课程计划于11月30日开课,按周或双周解锁新章节,预计三个月结课[14][15][17]
刚做了一份世界模型的学习路线图,面向初学者......
自动驾驶之心· 2025-12-25 11:24
世界模型与端到端自动驾驶的关系 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 行业将自动驾驶世界模型的研究收敛于生成和重建两大领域[2] - 目前主流应用是利用世界模型进行闭环仿真,以应对Corner Case成本过高的问题[2] 世界模型课程核心内容架构 - 课程第一章概述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 课程第二章涵盖世界模型的基础知识,包括场景表征、Transformer、BEV感知等,是求职面试的高频技术点[5][6] - 课程第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 课程第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等算法,并以OpenDWM进行实战[7] - 课程第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划[8] - 课程第六章分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备经验[9] 世界模型涉及的关键技术栈 - 基础技术包括Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础[11] - 涉及BEV感知基础知识及占用网络[11] - 涵盖扩散模型理论,该模型是输出多模轨迹的热点技术[11] - 包括闭环仿真相关的NeRF和3DGS技术[11] - 也涉及其他生成式模型,如VAE、GAN以及Next Token Prediction[11] 世界模型相关的重要研究 - 国内重要研究包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World[12] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,助力从业者深入理解端到端技术[10] - 学员需自备GPU,推荐算力在4090及以上[13] - 学员需具备自动驾驶领域基础,熟悉其基本模块[13] - 学员需了解transformer大模型、扩散模型、BEV感知等基本概念[13] - 学员需具备一定的概率论、线性代数及Python、PyTorch基础[13] - 课程期望使学员达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展及BEV感知等关键技术,并能复现主流算法框架[13] 课程进度安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 各章节解锁时间:第一章12月10日,第二章1月1日,第三章1月20日,第四章2月4日,第五章2月24日,第六章3月1日[15]
下周开课!我们设计了一份自动驾驶世界模型学习路线图....
自动驾驶之心· 2025-12-24 17:22
自动驾驶世界模型技术趋势与课程核心内容 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 当前行业将自动驾驶世界模型的研究收敛于生成和重建两大领域,并主要用于闭环仿真[2] - 行业正经历风格转换,因处理Corner Case成本过高,需寻求更有效的手段[2] - 近期世界模型相关研究呈现爆发式增长[2] 课程结构与核心知识点 - 课程共分六章,从概述、背景知识到专题应用,系统讲解世界模型[5][6][7][8][9] - 第一章阐述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 第二章涵盖世界模型所需基础技术栈,包括场景表征、Transformer、BEV感知等[5] - 第三章聚焦通用世界模型,解析Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 第四章专注视频生成类世界模型,涵盖GAIA-1、GAIA-2、UniScene、OpenDWM、InstaDrive等,并以OpenDWM进行实战[7] - 第五章讲解基于OCC生成的世界模型,涉及OccWorld、OccLLaMA、HERMES、II-World等三大论文及一个项目实战[8][12] - 第六章为工业界应用与岗位专题,分享行业痛点、应用现状及面试准备经验[9] 课程技术深度与目标人群 - 课程深度覆盖BEV感知、多模态大模型、3DGS、扩散模型、NeRF、VAE、GAN等关键技术[11] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV感知基本概念、有Python/PyTorch基础的学习者[13] - 学习目标为使学员达到约1年经验的自动驾驶世界模型算法工程师水平,能够复现主流算法并应用于实际项目[13] - 课程为离线视频教学,配备VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 课程自1月1日开课,预计两个半月结课,各章节按计划在12月10日至次年3月1日期间逐步解锁[14][15]
现场围观腾讯广告算法大赛,我都想入职了
量子位· 2025-12-24 13:14
腾讯广告算法大赛概况 - 大赛为腾讯广告主办的标杆级技术赛事,冠军奖金200万元,亚军季军奖励为六位数,所有决赛选手均获得一台iPad [1] - 比赛吸引了全球8400余名学生、2800多支队伍参与,覆盖近30个国家 [34] - 大赛总奖金池为380万元,其中包含因方案亮眼而临时增设的20万元创新奖 [32] 赛题技术前沿性与挑战 - 赛题为“全模态生成式推荐”,旨在处理图像、视频、音频等多模态信息,是当前广告推荐系统最前沿且接近真实业务的技术方向 [5][7][8] - 该技术涉及大模型、生成对抗网络、扩散模型等AI方法,真正进入工业实践仅近两年,是腾讯广告目前最重视的技术 [9][11] - 赛题挑战具体,包括多模态数据噪声大、模态对齐难、数据分布不均、冷启动问题突出,以及长序列带来的显存占用、训练效率和推理时延等工程约束 [12][13] 优胜团队解决方案亮点 - 冠军队Echoch方案核心在于大规模序列建模与工程可落地性,通过对高维ID特征压缩来降低开销,支持更长序列和更大批次的训练,并优化用户长期兴趣演化与多目标约束 [19] - 亚军队leejt方案重点在于数据质量与结构建模,对多模态特征进行筛选聚合,并引入图结构来缓解样本稀疏和冷启动问题,提升了稳定性和泛化能力 [19][20] - 季军队也许明天方案对曝光、点击和转化进行显式区分建模,采用条件生成预测用户行为,并在推理阶段过滤低价值曝光,使输出更贴近实际业务决策逻辑 [21][22] 大赛作为人才选拔与培养通道 - 大赛为参赛学生提供了实战级赛题演练、获得实习或直通offer的机会,以及大厂提供的算力和平台资源 [3][4] - 比赛过程本身完成了接近真实业务环境的能力验证,通过从初赛到复赛的数据规模(从1M扩展到10M)和目标复杂度升级,筛选出方案扎实的团队 [40][41][42] - 腾讯公司副总裁蒋杰评价学生方案不比工业界差,且对大模型的理解能跟上潮流甚至更有创新性 [23][24] - 大赛是公司“揽人”策略的一部分,旨在集中观察和交流,高效筛选硬核技术人才,避免传统招聘的局限 [28][37][39][42] 公司人才战略与投入 - 腾讯在2025年启动了史上最大的就业支持计划,面向全国吸纳了10000名校招实习生,其中六成岗位面向技术人才开放 [45][46][47] - 公司通过高额奖金、算力支持及学生关怀活动(如午餐会、交流晚宴)吸引年轻人才,释放强烈的人才需求信号 [32][49][50][52] - 公司人事变动显示出对年轻人才的青睐,例如将28岁的年轻人放在AI重要位置上 [54] - 研究人员队伍壮大表明公司对研发的投入在不断加大 [48]
布局控制+身份一致:浙大提出ContextGen,实现布局锚定多实例生成新SOTA
机器之心· 2025-12-20 12:45
多实例图像生成(MIG)领域的技术瓶颈 - 当前多实例图像生成领域面临核心挑战:难以同时实现对多个对象的**空间布局控制**和**身份特征的良好保持**[2] - 主流方法存在明显缺陷:依赖文本和布局引导的模型难以实现高度实例定制化,且存在实例遗漏、属性泄露问题;而主体驱动方法在主体数量增加时,会出现严重的身份混淆和细节丢失[2] ContextGen框架的核心创新 - 浙江大学ReLER团队发布**ContextGen**,这是一个基于Diffusion Transformer的新型框架,旨在通过上下文学习可靠完成图像引导的多实例生成任务[5] - 该框架提出全新**上下文生成范式**,通过整合布局图像和多张参考图像,将布局控制与身份保持的挑战转化为统一的上下文建模问题[6] - 框架采用**双重核心机制**:上下文布局锚定聚焦全局上下文引导以提供精确布局控制;实例上下文对齐聚焦细粒度身份注入以保障多个实例的身份一致性[7][8][10][12] - 框架采用**层次化的双重注意力策略**,让模型兼具宏观布局控制和精细实例级身份保持,并采用增强的位置索引策略系统区分多图像关系[12] 配套数据集与训练优化 - 团队推出**IMIG-100K数据集**,这是首个为图像引导多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集[14] - 在训练中引入**基于偏好优化的强化学习阶段**,以解决监督微调导致的模型过度参考布局图像、缺乏多样性和灵活性的问题[17] 性能表现与基准测试 - 在LAMICBench++基准测试中,ContextGen超越所有开源模型,**平均得分提升+1.3%**,在身份一致性上比肩闭源商业巨头[21] - 具体数据:在Fewer Subjects场景下,模型平均得分66.78;在More Subjects场景下,平均得分63.21;总体平均得分64.66,与GPT-4o的63.71和Nano Banana的64.11相当[22] - 在COCO-MIG基准上,ContextGen在**实例级成功率提升+3.3%**,**空间准确性提升+5.9%**[25] - 具体数据:在COCO-MIG上,实例级成功率65.12,空间准确性69.72;在LayoutSAM-Eval中,颜色正确率87.44,材质正确率89.26,形状正确率88.36[26] 应用与未来展望 - 团队提供了简单易用的**前端交互界面**,支持用户上传参考图像、以文本添加素材、通过拖拽设计布局来生成多实例图像[32] - 未来计划进一步优化模型架构以提升生成效率,并探索更多样化的用户交互方式以满足更广泛的应用需求[36]
端到端落地中可以参考的七个Project
自动驾驶之心· 2025-12-19 08:05
行业技术趋势与人才需求 - 自动驾驶行业端到端技术路线已被头部玩家验证可行 其他车企正跟进投入人力和资源 [2] - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当前端到端量产落地最重要的技术栈 [2] - 行业面临人才挑战 候选人往往只懂部分技术 在导航信息引入、强化学习调优、轨迹建模优化等具体量产经验上存在痛点 [2] 课程核心内容与结构 - 课程为期三个月 包含七个实战项目 聚焦量产应用 [2] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 课程最终章节将分享从数据、模型、场景、规则等多视角的量产经验 [14] 技术模块详解 - **第一章:端到端任务概述** 介绍感知任务合并与规控算法learning化的主流趋势 讲解感知模型一体化架构和规控learning化方案 并介绍开源数据集与评测方式 [7] - **第二章:两段式端到端算法** 讲解两段式框架建模及感知与PNC信息传递方式 分析其优缺点 并通过PLUTO算法进行实战 [8] - **第三章:一段式端到端算法** 介绍一段式框架 其可实现信息无损传递 性能优于两段式 涵盖基于VLA和基于Diffusion等方法 并通过VAD系列进行深入学习 [9] - **第四章:导航信息量产应用** 讲解导航地图的格式与内容 及其在端到端模型中的编码与嵌入方式 以更有效发挥导航能力 [10] - **第五章:自动驾驶中的RL算法** 在模仿学习基础上引入强化学习以解决人类驾驶风格差异和corner-case场景数据稀缺问题 实现模型泛化 重点介绍强化学习算法及训练策略 [11] - **第六章:端到端轨迹输出优化** 进行nn planner项目实战 包括基于模仿学习的扩散模型与自回归算法 以及后续的强化学习算法 [12] - **第七章:时空联合规划兜底方案** 介绍量产中用于轨迹平滑优化的后处理兜底逻辑 包括多模态轨迹打分搜索算法和轨迹平滑算法 以保证输出轨迹稳定可靠 [13] 课程安排与学员要求 - 课程采用离线视频教学 配合VIP群答疑及三次线上答疑 答疑服务截止2026年11月30日 [15] - 课程从11月30日开始 按周或双周解锁新章节 至次年2月24日完成全部八章内容 [16][18] - 课程面向进阶学员 建议自备算力在4090及以上的GPU 并熟悉BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型理论 具备Python、PyTorch及mmdet3d框架基础 [17]
全网破防,AI“手指难题”翻车逼疯人类,6根手指,暴露Transformer致命缺陷
36氪· 2025-12-15 20:39
文章核心观点 - 当前以Transformer和扩散模型为代表的AI模型在理解和生成精确的离散结构(如手指数目)上存在根本性缺陷,这暴露了其在视觉推理和几何理解方面的重大瓶颈 [32][36][50] AI模型在“手指难题”中的表现 - 当被要求对一张有六根手指的图片进行数字标注时,Nano Banana Pro模型只标出了1至5,直接略过了一根手指 [2] - 即使提示中明确说明图里有六根手指,GPT-5.2依然斩钉截铁地回答“五根”,其理由是“人类有五根手指,所以图里没有五根手指就是错的” [6] - 无论网友将手指画得多么奇形怪状,AI模型(如Nano Banana Pro)始终无法数出6根手指,坚持回答“5根” [8][9] - 通过一些变通指令(如将手绘数字改为电子版,或明确指示从小指到大拇指依次放数字),网友最终能让模型成功标注 [15][18] 技术缺陷的根本原因 - AI视觉系统的工作本质是将复杂场景简化为一组可识别模式,当遇到六指手这种包含罕见特征的图像时,系统倾向于将其强行纳入已知的“五指”模式 [32][34] - 模型从海量训练数据中学到了“人手=五指”的强关联,当情况偏离时,模型会视为异常并自动“纠错”,而非理解新事实 [32] - 扩散模型擅长捕捉整体分布和纹理风格,但在精确控制局部、离散、高对称性的结构(如正确的手指)时显得力不从心 [43] - 现有“端到端”的模型架构直接从文本提示映射到像素,中间缺乏明确的符号化结构表示层,导致“长什么样”和“结构是什么”冲突时系统失效 [45] Transformer架构的局限性 - Transformer架构的并行计算设计存在代价,其单次前向传递难以有效追踪状态信息,系统不擅长执行需要多步骤逻辑推理的任务 [37] - 对于手部这种数量固定、结构复杂、局部高度相关的对象,其多局部一致性、跨区域约束等特性恰是Transformer最不擅长的领域 [39] - Transformer将世界打平为token序列,缺乏对象概念和显式结构约束,这是其强大Token-to-token预测能力带来的致命短板 [46][47] 潜在的解决方向与行业启示 - 解决瓶颈可能需要采用混合建模,例如将擅长纹理的扩散模型与显式结构模型(如3D网格)相结合 [45] - 另一种思路是在模型架构中强化对特定区域(如手部)的局部注意力机制,或在训练/推理过程中引入几何约束损失函数 [45] - 视觉数据的复杂性远超文本,可能需要数十个数量级更多的计算资源才能真正处理视觉世界的全部细微差别 [47] - 当前AI在语言、知识、编码等领域已远超常人,但在视觉推理、长期学习、因果关系理解上仍然不足 [48] - “手指难题”提醒行业,即使是最先进的AI,也仍在学习如何看待世界的基本细节,对其能力需有更清醒的认识 [50]
时隔一年DiffusionDrive升级到v2,创下了新纪录!
自动驾驶之心· 2025-12-11 11:35
核心观点 - 华科王兴刚教授团队提出DiffusionDriveV2,通过引入强化学习解决了其前代模型DiffusionDrive在端到端自动驾驶轨迹规划中面临的“多样性与持续高质量”两难困境 [1][3] - 该方法创新性地结合了锚点内GRPO、锚点间截断GRPO与尺度自适应乘法探索噪声,在保留多模态生成能力的同时,显著提升了轨迹的整体输出质量与安全性 [4][12] - 在NAVSIM v1和v2数据集的闭环评估中,DiffusionDriveV2结合ResNet-34主干网络取得了当前最优性能,PDMS分别达到91.2和85.5,创下新纪录 [4][33] 技术背景与问题 - 端到端自动驾驶(E2E-AD)直接从原始传感器输入学习驾驶策略,是当前发展浪潮 [5] - 传统单模态规划器仅回归单一轨迹,无法提供备选方案;基于选择的方法使用静态候选轨迹库,灵活性有限 [5] - 原始扩散模型应用于轨迹生成时面临模式崩溃(mode collapse)问题,倾向于生成保守且单一的轨迹,无法捕捉未来多样性 [5][13] - DiffusionDrive通过预定义轨迹锚点构建高斯混合模型先验,将生成空间划分为对应不同驾驶意图的子空间,从而促进多样化行为生成 [5][13] - 但DiffusionDrive依赖模仿学习,其训练目标仅优化与专家轨迹最接近的“正模式”,对占样本绝大多数的“负模式”缺乏约束,导致生成大量低质量甚至碰撞的轨迹,无法保证持续高质量 [8][17][18] DiffusionDriveV2核心方法 - **整体架构**:采用DiffusionDrive作为预训练的轨迹生成器进行冷启动,引入强化学习目标对所有生成模式施加约束并推动探索 [19][21] - **尺度自适应乘法探索噪声**:为解决轨迹近端与远端尺度不一致问题,采用纵向与横向乘法高斯噪声替代加法噪声,生成的探索路径更平滑,保留了轨迹连贯性 [24] - **锚点内GRPO**:为避免不同驾驶意图(如直行与转弯)间不当的优势比较导致模式崩溃,仅在每个锚点内部生成的轨迹变体组内执行GRPO策略更新 [9][24] - **锚点间截断GRPO**:为解决锚点内GRPO优势估计丧失全局可比性的问题,修改优势估计,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,原则是“奖励相对改进,仅惩罚绝对失败” [27][28] - **模式选择器**:采用两阶段“粗到细”评分器,结合二元交叉熵损失和Margin-Rank损失,从多模态预测中选择最优轨迹 [29] 实验结果与性能 - **基准测试成绩**:在NAVSIM v1测试集上,PDMS达到91.2,相比DiffusionDrive提升3.1;在NAVSIM v2测试集上,EPDMS达到85.5 [4][33] - **模型效率**:仅使用2180万参数的ResNet-34主干网络,性能优于基于9690万参数V2-99主干网络的对比方法(如GoalFlow和Hydra-MDP) [33] - **多样性与质量权衡**: - 原始扩散方法(如TransfuserTD)多样性得分仅0.1,质量稳定但缺乏多样性 [37] - DiffusionDrive多样性得分高达42.3,但质量无法保证(PDMS@10为75.3) [37] - DiffusionDriveV2多样性得分30.3,在多样性与质量间实现最优权衡,其PDMS@1为94.9(提高上限),PDMS@10为84.4(提高下限) [37][38] - **消融实验验证**: - 乘法探索噪声优于加法噪声,PDMS从89.7提升至90.1 [40] - 使用锚点内GRPO使PDMS从89.2提升至90.1 [41] - 使用锚点间截断GRPO使PDMS从89.5提升至90.1 [42] 研究意义与贡献 - 据研究者所知,DiffusionDriveV2是首个直接面对并解决截断扩散模型在轨迹生成中“多样性与持续高质量”两难困境的工作 [12] - 是首个成功将GRPO方法迁移到基于锚点的截断扩散模型的工作 [12] - 该方法证明了强化学习的“探索-约束”范式能有效提高模型性能下限与上限,为端到端自动驾驶规划提供了新思路 [8][38]
随到随学!端到端与VLA自动驾驶小班课正式结课
自动驾驶之心· 2025-12-10 03:00
行业技术发展趋势 - 2023年是端到端自动驾驶量产的元年,2024年将是其量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要技术范式:一段式(如UniAD,从传感器输入直接建模自车轨迹)和二段式(基于感知结果进一步输出自车及他车轨迹) [1] - 自2023年以来,一段式端到端技术发展迅速,衍生出基于感知、世界模型、扩散模型及视觉语言模型(VLA)等多种方法 [3] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研与量产 [3] - 基于视觉语言模型(VLA)的端到端方法被认为是目前该领域的皇冠,上限高且难度大,因此业内招聘需求也最为旺盛 [12] 课程核心内容与结构 - 课程旨在系统讲解端到端与VLA自动驾驶,内容涵盖BEV感知、视觉语言模型、扩散模型、强化学习等前沿技术栈 [5] - 第一章介绍端到端算法的发展历史、概念起源、从模块化到端到端的演进,以及一段式、二段式和VLA范式的优缺点与适用场景 [8] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,这些被认为是未来两年求职面试的高频技术关键词 [8][9] - 第三章聚焦二段式端到端,解析其定义、出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新的Plan-R1等工作 [9] - 第四章作为课程精华,深入讲解一段式端到端的各个子领域:基于感知的UniAD、基于世界模型、基于扩散模型以及基于VLA的方法 [10] - 第五章设置RLHF微调大作业,进行实战演练,内容包括预训练与强化学习模块搭建,该技能可迁移至VLA相关算法 [11][13] 关键技术详解与实战案例 - 基于感知的一段式方法将讲解奠基之作UniAD、地平线VAD以及CVPR'24的PARA-Drive [12] - 基于世界模型的方法将讲解AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,世界模型技术方向热门,应用广泛,包括场景生成、端到端驾驶和闭环仿真 [12] - 基于扩散模型的方法将讲解业内应用广泛的DiffusionDrive、Diffusion Planner和吉大的DiffE2E,并配有Diffusion Planner实战,扩散模型用于多模轨迹预测以更好适应环境不确定性 [12] - 基于VLA的方法将讲解小米的ORION、慕尼黑工大的OpenDriveVLA以及最新的ReCogDrive,并以小米ORION(截至2025年7月已开源推理和评测模块)作为实战案例 [12] - 课程第二章将详细拆解多项基础技术:从Transformer扩展到视觉Transformer,讲解CLIP和LLaVA;详解BEV感知在3D检测、车道线、OCC、轨迹预测与规划中的应用;讲解扩散模型理论;以及VLM相关的强化学习技术如RLHF和GRPO [11] 课程目标与受众要求 - 该课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地 [14] - 期望学员学完后能达到具备1年左右经验的端到端自动驾驶算法工程师水平 [16] - 学员需自备GPU,推荐算力在RTX 4090及以上;需具备一定的自动驾驶领域基础,熟悉基本模块;了解transformer大模型、强化学习、BEV感知等基本概念;具备概率论、线性代数基础及Python和PyTorch编程能力 [16] - 课程收获包括:掌握涵盖一段式、两段式、世界模型、扩散模型等的端到端技术框架;对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻理解;可复现扩散模型、VLA等主流算法框架;能够将所学应用于实际项目设计 [16]