扩散模型
搜索文档
扩散语言模型深度思考
机器之心· 2026-02-08 18:37
文章核心观点 - 文章认为扩散语言模型在算法基础层面具有巨大潜力,可能对当前主流的自回归模型范式带来冲击,并系统性地阐述了当前扩散语言模型面临的十大关键挑战及初步解决思路[4][5] 扩散语言模型当前面临的挑战与潜在研究方向 - **推理高效架构**:当前扩散模型沿用自回归模型的注意力机制,但由于掩码位置的随机性,导致提升自回归模型推理效率的关键值缓存复用机制失效,这是阻碍其广泛应用的主要问题之一,需要探索更适合扩散模型的注意力结构或更有结构性的掩码方式[6] - **更适配的词表**:理想的扩散模型不应遵循自回归模型的现有范式,其分词器应具有结构性,例如不同粒度的分词器分别负责段落联系、细节修改和快速填充空缺,形成类似金字塔的词表结构,以模仿人类多尺度的思考与写作方式[9] - **更好的优化范式**:扩散模型在优化上面临梯度计算低效的问题,例如在128k长序列中仅掩码一个词元时,需为单个词元进行大量计算,导致训练开销下的模型精度不如自回归模型,同时预训练与有监督微调阶段的掩码策略不一致也带来了挑战[9] - **更优的掩码方式**:当前主流扩散模型通常只使用一个掩码词元,功能单一且缺乏多样性,同时所有位置被掩码的概率相等,缺乏结构化机制,无法根据内容重要性进行差异化处理[9] - **动态长度输出**:扩散模型虽具有并行解码优势,但通常需要预先给定输出长度,对于需要自适应推断最优输出长度的任务存在局限,例如回答“9.11和9.8哪个大”可能不必要地生成100k词元[9][10] - **适配模型的数据工程**:当前扩散模型大多复用自回归模型的数据集,虽然通用知识可被学习,但若要激发扩散模型在结构化知识和推理上的潜力,需对数据进行优化,如在预训练数据中增加掩码位置信息或对重要词元进行标注[10] - **资源高效的模型优化**:在基础模型结构尚未收敛时,提升整体推理效率是关键,尤其是在加大批次规模后,全局扩散推理在部分场景劣于自回归模型,潜在优化方向包括扩散多步蒸馏、投机推理、低比特量化及与自回归模型的高效组合使用[10] - **慢思考及隐式思考**:扩散模型在有监督微调中,通过去噪过程在预定长度空间生成答案,传统的顺序思维链方法对其可能低效,未能充分利用其潜能,扩散模型特有的重新掩码能力为深度思考和隐式思考提供了更大可能性[10] - **结构化的提示词工程和记忆**:扩散模型可同时向前和向后查看词元的特性,要求探索更适合其模式的提示格式与方法,例如将自回归的问答式提示变为完形填空式,或仅提供几个全局关键词元以辅助快速解码,这对代码、深度研究和智能体场景有益[10][11] - **未来的统一架构**:面向多模态未来,探索更统一的模型结构和训练范式至关重要,当前理解类任务多用自回归模型,生成类任务多用扩散模型,例如在视觉语言动作模型中,能否用离散扩散模型将视觉、语言和动作三部分融合是一个极具潜力的研究方向[11]
何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出
量子位· 2026-02-02 13:58
文章核心观点 - 何恺明团队提出了一种名为Pixel Mean Flow (pMF)的全新生成模型架构,该架构同时实现了单步采样和在原始像素空间操作,从而大幅简化了图像生成流程并提升了效率 [1][2][3] - pMF方法在ImageNet基准测试上取得了当前单步、无潜空间扩散模型的最佳成绩之一,其性能与生成对抗网络(GAN)相当,但计算开销显著降低 [4][27][29] - 该研究标志着生成式人工智能技术正从依赖多步采样和潜空间编码的复杂范式,向更直接、高效的端到端建模范式演进 [36] 技术突破与核心设计 - **架构简化**:pMF成功移除了传统扩散模型/流模型的两大核心组件——多步采样和潜空间编码,实现了从噪声到图像的一步生成 [3][5] - **核心设计思路**:网络直接输出像素级别的去噪图像,但在训练时通过一个从平均速度场变换得到的新场来计算损失,这基于“流形假设”,即预测低维流形上的量比预测高维噪声更容易 [13][14][17] - **关键验证**:在2D玩具模型和高维真实图像(如256×256分辨率,patch维度768)实验中,传统的u-prediction方法完全失效(FID飙升至164.89),而pMF采用的x-prediction方法表现稳定(FID保持在个位数) [20][21][23][24] - **独特优势**:由于直接在像素空间生成,pMF能够自然地引入感知损失进行训练,这在以往是潜空间方法的专属技巧,实验显示加入感知损失后FID从9.56降至3.53,提升约6个点 [25][26] 性能表现与对比 - **ImageNet 256×256分辨率**:pMF-H/16模型取得了2.22的FID分数,大幅超越了此前唯一的同类单步像素空间方法EPG(8.82 FID) [4][27] - **与GAN对比**:pMF-H/16的FID(2.22)与StyleGAN-XL(2.30)相当,但每次前向传播的计算量仅为271 Gflops,是StyleGAN-XL(1574 Gflops)的约17.2%,效率优势明显 [27][29] - **ImageNet 512×512分辨率**:pMF-H/32模型取得了2.48的FID分数,通过采用32×32的大patch尺寸,在保持与低分辨率模型相近计算开销的同时实现了高性能生成 [29][30] - **潜在成本揭示**:文章指出,潜空间方法中VAE解码器的计算开销常被忽略,标准SD-VAE解码器在256分辨率下需310 Gflops,在512分辨率下需1230 Gflops,这一开销已超过pMF整个生成器的计算量 [31] 实验细节与消融研究 - **优化器选择**:实验表明,使用Muon优化器比Adam收敛更快且效果更好 [32] - **时间采样策略**:MeanFlow的全平面采样策略(0 < r < t)至关重要,仅在单线(r=t或r=0)上采样会导致模型失败(FID分别高达194.53和389.28) [33][34] - **预条件器设计**:在高维像素空间场景下,传统的EDM和sCM风格的预条件器设计不如直接的x-prediction方法有效 [33] 行业意义与团队背景 - **技术演进方向**:研究证明了单步无潜空间生成已从“是否可行”进入“如何做得更好”的阶段,鼓励未来对更直接、端到端的生成建模进行探索 [36] - **团队构成**:论文共同一作为四名MIT本科生,其中包括多名国际奥林匹克竞赛(数学、物理)金牌得主,显示了顶尖年轻研究人才在该领域的活跃度 [37][38]
拒绝Reward Hacking!港科联合快手可灵提出高效强化学习后训练扩散模型新范式
机器之心· 2026-01-25 10:35
文章核心观点 - 强化学习微调扩散模型时面临“两难困境”:追求高奖励会导致图像质量崩坏,而引入KL正则化又会阻碍模型探索和收敛 [2] - 研究团队提出全新框架GARDO,通过门控自适应正则化和多样性感知优化,成功在防止奖励黑客攻击的同时,实现了高效的样本探索和多样性生成 [2] - GARDO框架基于三个核心洞察:正则化不需要“雨露均沾”、静态参考模型会限制优化上限、以及需要鼓励多样性生成以防止模式坍塌 [14][17][18] - 实验表明,GARDO在多个基底模型和任务上实现了全方位的性能提升,包括拒绝黑客攻击、提升样本效率和泛化性,甚至激发了模型的涌现能力 [20][22][24] 背景与动机:RL后训练中的陷阱 - 在视觉任务中,定义一个完美的奖励函数极其困难,通常使用代理奖励,这导致了典型的奖励黑客攻击问题 [5] - 当模型过度优化代理奖励时,会找到奖励模型的漏洞,导致代理分数极高但生成的图像质量崩坏,充满噪点、伪影并失去真实感 [5] - 传统的KL正则化方法会带来两个主要问题:样本效率低,以及阻碍模型探索参考模型未发现的高奖励区域 [9][10] GARDO框架的核心方法 - **门控KL机制**:仅对高不确定性样本施加惩罚,实验发现仅惩罚约10%的高不确定性样本即可有效防止奖励黑客攻击,让其余90%的样本自由探索 [14][21] - **自适应正则化目标**:定期更新参考模型,将其重置为当前策略,这为模型设立了动态更新的“锚点”,既保证训练稳定性,又允许模型持续进化 [17][21] - **多样性感知优势重塑**:利用DINOv3提取特征计算样本在特征空间中的稀疏度作为“多样性分数”,并将此分数以乘法形式作用于正向优势函数,以鼓励多样性生成并防止模式坍塌 [18] 实验结果:定量评估 - 在OCR任务上,GARDO在保持高识别率的同时,图像质量指标没有下降甚至有所提升 [22] - 学习曲线显示,GARDO能够以更少的步数达到更高的奖励水平,样本效率更高 [22] - 在未见过的测试指标上,GARDO表现出极强的鲁棒性 [22] - 具体数据:在SD3.5-M基底模型上进行OCR任务训练600步后,GARDO方法在Aesthetic Score上达到0.65,OCR识别率达到0.92,PickScore达到5.07,ImgRwd达到22.41,ClipScore达到0.92 [23] - 在GenEval任务训练2000步后,GARDO在Aesthetic Score上达到0.95,GenEval Score达到0.68,PickScore达到5.09,ImgRwd达到22.34,ClipScore达到0.95,HPSv3达到9.27,Diversity达到24.95 [23] 涌现能力 - 在极具挑战性的“数数任务”中,基底模型和传统RL方法很难生成超过9个物体 [25] - GARDO成功学会了生成10个甚至11个物体 [25] - 具体数据:在Counting 10任务上,GARDO的成功率达到0.38,显著高于GRPO方法的0.28;在Counting 11任务上,GARDO成功率为0.18,也高于GRPO的0.15 [26] 总结与意义 - 这项工作证明,在视觉生成的强化学习中,精准的控制比强力的约束更重要 [27] - GARDO为希望利用RL进一步释放扩散模型潜力的研究者和开发者提供了一个极具价值的通用框架 [27] - 框架的核心可总结为:拒绝盲目正则化、拒绝静态锚点、拒绝模式坍塌 [29]
AI芯片格局
傅里叶的猫· 2026-01-24 23:52
一、TPU的崛起与挑战 - Google TPU凭借对LLM的原生优化优势,正成为OpenAI、苹果等科技巨头的重要选择,逐渐打破英伟达GPU的垄断格局[3] - 从GPU生态迁移至TPU面临显著的技术适配挑战,包括数值表示和精度体系差异,模型转换过程复杂,根据参数量差异,复杂模型的转换周期可能长达一周[4] - 全球AI算力需求爆发式增长,TPU出现约50%的供给缺口,导致算力排队和项目延期,并将生产压力传导至核心代工方台积电[5] - TPU基于Google自研的JAX开源框架,与主流的CUDA生态不兼容,熟悉JAX的开发者占比极低,抬高了使用门槛[5][6] 二、TPU与AWS Trainium的对比 - Google TPU将矩阵和张量运算嵌入芯片硬件层面,在LLM规模化运行中具备显著效率优势,是OpenAI选择其作为推理核心的关键原因[7] - AWS Trainium未将矩阵运算模块集成于芯片本身,需依赖外部库和内存调用,导致单芯片效率受限,在大规模集群中累计效率损耗显著[7] - 在网络架构上,谷歌通过GKE在垂直扩展能力上突出;AWS凭借Elastic Fabric Adapter在水平扩展上有优势;英伟达在InfiniBand等技术上实现了横竖扩展的较好平衡[8] - AI芯片竞争已延伸至软件生态、网络架构等全栈协同,Google TPU的“芯片+框架+网络”闭环生态构成了核心壁垒[8] 三、Oracle的逆袭策略与风险 - Oracle凭借绑定美国政府政策和联合产业链伙伴囤积高端芯片,实现了“弯道超车”[9] - 根据美国临时规定,截至10月底,部分硬件厂商需优先供应政府机构,Oracle借此成为政府芯片采购核心伙伴,并联合CoreWeave、Nebius等近乎垄断了H200、B200等高端芯片的市场供给[10] - Oracle与OpenAI签订了未来4-5年价值3000亿美元的计算资源合作协议,通过算力转售赚取20%-25%的抽成[10] - Oracle缺乏自研LLM和成熟的数据中心运营经验,其AI业务与核心数据库业务脱节,商业逻辑高度依赖与Palantir的“数据+算力”互补合作[11] - 未来面临谷歌、微软等巨头的算力竞争加剧,以及若芯片产能缓解、政策红利消退,其资源垄断优势将快速弱化的挑战[12] 四、OpenAI的资金与商业困境 - OpenAI陷入“高投入、低产出”的资金困境,年营收约120亿美元,乐观估算年现金流仅60亿美元,但其总投入规模达3000亿美元级别,现金流无法覆盖需求[14] - 全球多地(欧洲、日本、澳大利亚、印度等)存在算力供给缺口,制约其全球化扩张[14] - LLM推理业务是其核心收入,但该业务毛利率乐观估计仅30%左右,净利率约25%,当前20美元/月的个人订阅价难以可持续盈利,需提价至40-50美元/月[15] - 相比谷歌拥有30亿日活用户的产品生态,OpenAI在企业级应用和云服务上布局薄弱,缺乏稳定落地场景,议价能力较弱[15] - OpenAI计划与博通合作研发专属TPU/NPU芯片,目标在12个月内启动部署,达成10GW级AI加速器容量,涉及百亿级美元订单,但该计划被行业认为不切实际,缺乏经验、资金和供应链资源[16] 五、大模型的未来发展方向 - 当前自回归式大模型出现性能增益边际递减问题,参数量扩大带来的性能提升收窄,而算力成本指数级增长[17] - “用AI生成的数据训练AI”的闭环模式可能导致数据质量劣化[17] - 电力供应不足已成为制约算力集群扩张的现实物理瓶颈,对英伟达的过度依赖导致全供应链承压[17] - 未来发展方向包括:1) 混合专家模型(MoE),通过任务分工降低算力成本并提升效率;2) 扩散模型,一次性生成整体语境以提升推理效率;3) 多模态与实体数据融合,拓展应用场景[18][19] - AGI短期内难以实现,大模型将回归工具属性,行业竞争焦点从“做出更强的模型”转向“更好地落地模型价值”[19]
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2026-01-16 10:58
行业趋势与市场现状 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播 [1] - 行业前沿技术发展放缓,业内量产方案趋同,整体呈现技术下沉趋势 [2] - 端到端等前沿技术的大规模量产起点预计在2026年 [2] - 二十万以上的乘用车年销量约700万辆,但头部新势力销量占比不足三分之一,搭载端到端技术的量产车型占比更低 [2] - 随着L3级自动驾驶法规推进,中游厂商面临紧迫的技术升级压力 [2] 技术发展路径与需求 - 端到端技术的成熟被视为开启更大规模量产的关键 [2] - 近期众多公司算法负责人迫切希望了解端到端所需的技术能力 [2] - 在端到端时代,感知任务合并与规控算法学习化已成为绝对主流 [7] - 如何高效合并感知任务、设计学习化的规控模块成为各大公司的核心必备技能 [7] 端到端技术架构与方案 - 主流技术架构分为两段式与一段式端到端算法 [8][9] - 两段式框架涉及感知与规划控制(PNC)间的信息传递建模,存在信息损失 [8] - 一段式框架可实现信息无损传递,性能通常优于两段式方案,代表方法包括基于VLA和基于Diffusion的方法 [9] - 量产落地需包含后处理的兜底逻辑,例如时空联合规划等轨迹平滑优化算法,以保证输出轨迹的稳定可靠 [13] 关键赋能技术与应用 - 导航信息在自动驾驶中起引导、选路、选道的关键作用,其地图格式、编码与嵌入方式是技术重点 [10] - 仅靠模仿学习存在局限,需结合强化学习(RL)使机器学习因果关系,实现更好的泛化能力 [11] - 轨迹输出优化涉及模仿学习与强化学习的结合使用,具体算法包括基于扩散模型和基于自回归的算法 [12] 量产实践与经验 - 真正的量产落地需从数据、模型、场景、规则等多视角综合施策,以快速提升系统能力边界 [14] - 课程内容聚焦量产实践,涵盖从架构概述、具体算法、导航应用、RL训练到轨迹优化及兜底方案的完整链条 [7][8][9][10][11][12][13][14]
西湖大学提出RDPO强化学习框架,实现扩散模型并行推理加速
量子位· 2026-01-13 15:21
行业技术趋势 - 扩散模型顺序去噪的特性导致采样延迟高,成为速度提升的瓶颈 [2] - 世界模型实时生成高清视频的浪潮正在冲击传统逐张生成高分辨率图像的时代 [1] 技术问题与现有方案局限 - 扩散模型因顺序去噪面临高采样延迟问题 [5] - 现有基于求解器的加速方法在低延迟预算下常导致严重的图像质量退化,主要原因是无法捕获高曲率轨迹段导致的累积截断误差 [5] 西湖大学AGI Lab提出的解决方案:EPD-Solver与RDPO框架 - 提出集成并行方向求解器,通过整合多个并行梯度评估来减少截断误差 [5] - EPD-Solver利用采样轨迹受限于低维流形的几何洞察,通过向量值函数均值定理更准确地逼近积分解 [5] - 额外的梯度计算相互独立,可完全并行化,从而保持低延迟采样特性 [6] - 引入两阶段优化框架:先通过蒸馏方法优化可学习参数,再通过RDPO框架进行强化学习微调 [6] - RDPO框架将求解器重构为随机的狄利克雷策略,优化严格在低维求解器空间内运行 [6] - 该方法可作为插件改进现有的ODE采样器 [6] RDPO框架的核心设计原理 - 设计精髓是先找准基准线,再做残差微调 [12] - 将任务转化为低维空间的策略优化问题,不暴力拆解模型本体,而是锁定求解器的参数空间 [11][13] - 第一阶段利用轨迹蒸馏技术,让EPD-Solver学习高精度教师求解器的采样路径,确保基本盘正确 [13] - 第二阶段进行残差策略优化,RL并非从零开始,而是以第一阶段参数为起点,只学习极小的残差项 [14][15] - 优化空间被严格限制在求解器参数层面,采样轨迹被约束在数学上的单纯形空间内,有效缓解了奖励作弊现象 [6][17][19] 技术性能与实验结果 - 在相同步数下,该方法在CIFAR-10、FFHQ、ImageNet等多个基准测试中取得领先的图像生成效果 [6] - 在Text-to-Image任务中,经过RDPO优化的EPD-Solver显著提升了Stable Diffusion v1.5和SD3-Medium的生成能力,在更少的步数下达到更优的质量 [7] - 定量测试显示,在NFE=20的设置下,EPD-Solver在10步时HPSv2.1得分为0.2823,优于DDIM(20步,0.2769)、Heun(10步,0.2707)、DPM-Solver-2(10步,0.2759)和iPNDM(20步,0.2805) [23] 技术影响与潜力 - 该方法证明了高质量的生成不一定要靠堆算力硬磕大模型参数,巧妙的优化策略能以极小代价换取极大增益 [23] - 不仅解决了加速问题,更提供了一种极其稳健的RLHF对齐新范式 [23] - 展示出在低延迟高质量生成任务中的巨大潜力 [6]
最近会开放一批端到端&VLA的岗位需求
自动驾驶之心· 2026-01-12 11:15
行业技术趋势与共识 - 行业共识认为2026年将是自动驾驶领域“结硬寨,打呆仗”的一年,算法层面短期内看不到重大变革,技术重点转向对端到端、视觉语言动作模型等前沿技术的量产优化[1] - 技术发展方向明确,当前阶段需要攻克工程化应用的“硬骨头”,因此行业人力招聘重点倾向于有经验的算法工程师,并开放了大量职位[1] - 端到端和视觉语言动作模型技术方向的关键词包括:BEV感知、大模型、扩散模型、强化学习[1] 核心课程内容与结构 - 课程第一章概述端到端自动驾驶,涵盖其发展历史、从模块化到端到端的演进原因,并分析一段式、二段式及视觉语言动作模型范式的优缺点与适用场景[6] - 课程第二章重点讲解端到端技术涉及的背景知识,包括视觉语言动作模型所需的大语言模型、扩散模型及强化学习,以及一段式端到端涉及的BEV感知,这些内容被认为是未来两年求职面试的高频技术关键词[6][7] - 课程第三章聚焦二段式端到端,解析其定义与出现原因,并讲解领域内的经典算法与前沿进展[7] - 课程第四章为核心精华部分,深入讲解一段式端到端的多个子领域,包括基于感知、世界模型、扩散模型以及当前最热的基于视觉语言动作模型的方法[8] - 课程第五章设置大作业,以基于人类反馈的强化学习微调进行实战,该技术可迁移至视觉语言动作模型相关算法中,具有良好延展性[9] 关键技术模块详解 - 课程详细讲解Transformer基础及其在视觉领域的应用,并涵盖为多模态大模型奠定基础的CLIP和LLaVA模型[11] - 深入介绍BEV感知基础知识,解释其如何应用于自动驾驶核心感知任务[11] - 讲解扩散模型理论及其在输出多模轨迹预测中的应用,这是当前学术界与工业界尝试落地的热点[11] - 介绍视觉大语言模型相关的强化学习技术,包括基于人类反馈的强化学习及其在视觉大语言模型训练中的作用[11] - 基于世界模型的方法被重点介绍,因其应用广泛,不仅可用于场景生成、端到端驾驶,还可用于闭环仿真,是近两年的热门技术方向[12] - 基于扩散模型的端到端方法自2023年下半年兴起,其与基于模型的方法或视觉语言动作模型结合,可更好地适应环境不确定性,课程配套相关实战讲解[12] - 基于视觉语言动作模型的端到端方法被视为当前该领域的“皇冠”,上限高、难度大,行业招聘需求旺盛,课程选取了业界代表性工作并设置实战环节[12] 课程目标与受众要求 - 课程旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端自动驾驶[10] - 期望学员学完后能达到具备约1年经验的端到端自动驾驶算法工程师水平,掌握涵盖多种方法的技术框架,并对关键技术有深刻理解[15] - 学员需自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、相关技术概念知识以及编程与数学基础[13]
小模型层数好玄学:12/32/64层效果好,16/24/48/层效果糟
量子位· 2026-01-11 12:02
研究背景与作者 - 研究由知名开源项目OpenEvolve的作者Asankhaya Sharma及其团队进行,该作者在AI/ML领域有显著成就,包括率先关注大语言模型的“推理时计算”并发表论文,以及开源了OptiLLM、OpenEvolve、Adaptive Classifier等知名项目 [7][8] 核心发现:模型“形状”比架构更重要 - 对于约70M参数的小模型,架构的重要性远低于普遍想象,相比之下,模型的“形状”(即深度与宽度的比例)更为关键 [1] - 在70M参数模型范围内,测试了包括LLaMA3、Qwen3、Gemma3在内的12种不同现代架构,发现它们的平均性能差异不到2%,表现惊人地相似 [26] - 现代架构的改进(如RMSNorm、RoPE、GQA)是为70亿以上参数的模型设计的,在70M参数规模下无法带来可衡量的优势 [27] - 这意味着对于小模型,精心调整的“深度-宽度配比”比选择具体的架构变体更重要 [27] 层数“玄学”与隐藏维度的关键作用 - 研究发现模型层数存在“玄学”:12层、32层、64层效果良好,而16层、24层、48层效果糟糕,其中最佳层数为32层 [2][15] - 效果“好”的层级(12L、32L、64L)平均得分约38%,效果“糟”的层级(16L、24L、48L)平均得分约32%,两个层级阵营之间的平均差距超过6个百分点 [15][16] - 这一现象背后的关键因素是“隐藏维度”,模型的隐藏维度必须大于或等于512,这是一个基础门槛 [3][18] - 当隐藏维度小于512时,模型性能会显著下降,除非其深度处于特定的“补偿”位置 [20] - 32层是“黄金补偿点”,在隐藏维度为384的情况下,32层配置取得了所有测试配置中的最高平均得分38.50%,甚至略胜于标准的12层设计(隐藏维度512,得分38.15%) [16][20][23] - 64层则属于“暴力补偿”,通过极深的层数来弥补宽度(隐藏维度256)的不足,从而也取得了约38.21%的高分 [20][16] 扩散模型的竞争优势 - 在测试的架构中,扩散模型(如dLLM, Dhara)的平均准确率(约31%-32%)略低于自回归模型(约32%-33%) [28][29] - 但扩散模型在推理速度和事实准确性(幻觉率低)方面具有显著优势 [30] - 扩散模型的推理速度比传统自回归模型快3.8倍,非常适合批量任务处理 [31] - 在所有测试架构中,扩散模型在衡量真实性的TruthfulQA基准上得分最高,dLLM-Canon模型达到了49.27% [33][34] - 通过一种称为“Canon层”(一种精心设计的卷积层)的特殊结构,可以进一步提升模型的事实准确性,为普通模型提升约1%,为扩散模型提升超过2%,而参数开销仅增加0.13% [35][36] 高效模型转换方法与新模型发布 - 利用LLaDA 2.0论文中的Warmup-Stable-Decay方法,可以将现有的自回归模型高效转换为扩散模型,所需数据量、成本和训练时间仅为从头训练的十分之一 [38][39] - 这种转换方法不仅结果与从头训练相当,而且在多项基准测试上超越了后者 [39] - 基于所有研究发现,团队推出了集大成的Dhara-70M模型,该模型参数为71.34M,采用32层(黄金深度)和384隐藏维度的最佳形状配置 [41][44] - Dhara-70M的构建方法是:首先采用最佳的自回归架构,然后使用WSD方法将其转换为扩散模型,从而兼具自回归模型的知识储备和扩散模型的吞吐量与事实性优势 [42][43] 对小模型构建者的实践启示 - 对于资源有限的小语言模型构建者,不应盲目追求最新的架构改进,而应首先关注基础的“深度-宽度配比”,确保模型不落入性能低下的“死亡区域” [45] - 如果应用场景需要高速处理且对事实准确性要求高,那么扩散模型是一个极具竞争力的选择 [45]
随到随学!端到端与VLA自动驾驶小班课(视频+答疑)
自动驾驶之心· 2026-01-08 13:58
课程核心定位与目标 - 课程为端到端与VLA自动驾驶进阶实战教程,旨在推动端到端技术在工业界落地,助力学员理解端到端自动驾驶 [8] - 课程联合工业界专家开设,内容涵盖学术界与工业界最前沿的技术栈,包括BEV感知、视觉语言模型、扩散模型、强化学习等 [1] - 课程目标是使学员学完后能达到约1年经验的端到端自动驾驶算法工程师水平,掌握技术框架并能够复现主流算法 [13] 课程内容架构 - **第一章:端到端算法介绍** 概述端到端自动驾驶发展历史、概念起源、从模块化到端到端的演进,并分析一段式、二段式及VLA范式的优缺点与适用场景 [4] - **第二章:端到端的背景知识** 作为课程重点,详细讲解VLA涉及的大语言模型、扩散模型及强化学习,以及一段式端到端涉及的BEV感知,为后续学习奠定基础 [4][9] - **第三章:二段式端到端** 聚焦二段式端到端,解析其定义与出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,对比其与一段式端到端的优缺点 [5] - **第四章:一段式端到端与VLA** 作为课程精华部分,涵盖基于感知、世界模型、扩散模型及VLA的一段式端到端子领域,探讨各方法如何解决端到端终极目标 [6] - **第五章:课程大作业 - RLHF微调** 提供RLHF微调实战,涉及预训练与强化学习模块搭建及实验,该技术可迁移至VLA相关算法,具有良好延展性 [7] 关键技术深度解析 - **BEV感知** 讲解其基础知识,以及如何基于BEV实现自动驾驶核心感知任务,如3D检测、车道线识别、OCC及轨迹预测与规划 [9] - **扩散模型** 讲解其理论知识,并指出基于扩散模型输出多模轨迹是当前学术界与工业界热点,多家公司正尝试落地 [9] - **视觉大语言模型与强化学习** 讲解VLM相关的强化学习技术,包括RLHF及其在VLM训练中的作用,以及上半年热门技术GRPO [9] - **一段式端到端细分领域** 详细讲解基于感知的方法(如UniAD、地平线VAD、CVPR'24的PARA-Drive)、基于世界模型的方法(如AAAI'25的Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(如DiffusionDrive、Diffusion Planner、DiffE2E)以及基于VLA的方法(如小米ORION、慕尼黑工大OpenDriveVLA、ReCogDrive) [10] 课程实战与前沿应用 - 课程包含配套实战,例如在扩散模型小节配套讲解Diffusion Planner实战,在VLA小节选择小米ORION作为实战,该开源项目截至2025年7月已开放推理与评测模块 [10] - 世界模型被强调为近两年非常热的技术方向,因其应用广泛,可用于场景生成、端到端驾驶及闭环仿真 [10] - VLA被视为目前端到端自动驾驶的皇冠,上限高且难度大,因此行业招聘需求旺盛,代表了新一代自动驾驶量产方案的预研方向 [10] 讲师资质与课程特色 - 讲师Jason拥有C9本科与QS50博士学历,已发表2篇CCF-A论文及若干CCF-B论文,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研与量产,并主持完成多项自动驾驶感知与端到端算法的产品量产交付 [2] - 课程内容基本为工业界和学术界的Baseline,兼顾经典工作与最新前沿进展 [1] - 课程为小班课,随到随学,提供视频与答疑服务 [1] 学员收获与面向人群 - 学员将掌握端到端技术框架,涵盖一段式、两段式、世界模型、扩散模型等方法 [13] - 学员将对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻了解,并可复现扩散模型、VLA等主流算法框架 [13] - 学员能够将所学应用到项目中,真正搞懂如何设计自己的端到端模型,并可在实习、校招、社招中受益 [13] - 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并具备概率论、线性代数及Python、PyTorch语言基础的学员,学习需自备GPU,推荐算力在4090及以上 [11] 行业趋势与技能需求 - 端到端自动驾驶是学术界与工业界的前沿方向,VLA范式是目前发展的焦点 [1][10] - 第二章所涉及的背景知识被总结为未来两年求职面试频率最高的技术关键词 [5] - 基于扩散模型输出多模轨迹能更好地适应自动驾驶不确定的环境,是当前热点 [10]
ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana
量子位· 2025-12-29 12:32
模型核心能力与市场定位 - 通义千问发布的开源模型Qwen-Image-Layered,其核心能力在于实现图像元素的精细化修改与图层分解,被描述为“PS级别的拆图自由”[2][3] - 该模型解决了传统AI生图工具“一图定生死”的痛点,即生成图片后难以仅修改局部细节,而需整张重新生成的问题[6] - 模型可将一张普通RGB图片分解成多个包含透明度信息的RGBA分离图层,实现图片素材的真正可编辑性[6] - 其能力被行业专家(如Meta的Lucas Beyer)高度评价,认为其“完爆ChatGPT和Nano Banana”,并代表了图像生成的正确方向[1][5] 具体功能与应用场景 - 模型支持对分解后的图层进行多种二次编辑修改,包括:更改背景而不动主体[8]、替换主体(如将长发女孩换成短发女孩)[12][13]、局部修改图片中的文字[15][16] - 除替换编辑外,模型还支持调整元素大小、删除不想要的元素,且调整过程不拉伸、不失真,类似于PS的自由缩放功能[19][21] - 模型支持可变层分解,可根据图像复杂度和编辑需求,将图像分解为不同数量的图层(如3层或8层),并支持在已分解图层上进一步分解,实现“无限分解”[23] - 该能力非常适合海报制作等细节较多的图片编辑场景,能够将背景、人物、装饰等元素分离成互不干扰的独立图层[6][7] 核心技术原理 - Qwen-Image-Layered模型的核心技术是一套端到端的“扩散模型”,但它并非用于生成图片,而是专门为“拆图片”设计[29][30] - 模型直接输入完整的RGB照片,通过扩散过程预测出多个带透明度信息(Alpha通道)的RGBA图层[31] - 模型设计了一套四通道的RGBA-VAE,将RGB输入和RGBA输出统一压缩到同一个隐藏空间中,并在初始化阶段将Alpha通道补为1(完全不透明),复用预训练参数以避免透明度建模出错[33][35] - 其核心Transformer结构(VLD-MMDiT)会根据图片复杂度自动决定需要拆分的层数,并采用Layer3D RoPE(三维位置编码)为不同图层打上层级标签,解决图层相互遮盖的问题[37] - 训练策略分为三个阶段:第一阶段学习用文本生成单RGBA图层;第二阶段扩展到多图层合成;第三阶段学习从图片反向拆解多图层,每阶段训练几百K步[38][39] 技术优势与对比 - 相较于传统方法(如LayerD需要递归抠前景再补背景,容易积累错误;或分割+修复方法在遮挡区域处理不佳),该模型能端到端生成完整的RGBA图层,避免了这些问题,尤其擅长处理复杂遮挡、半透明和文字[41] - 与Nano Banana等侧重于“生图”的模型相比,Qwen-Image-Layered的核心优势在于“拆图”,提供了更精细、可迭代的编辑能力[5][42] - 模型已正式开源,可供开发者与研究者使用[42]