生成模型

搜索文档
简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
机器之心· 2025-08-16 13:02
本文作者杨磊,目前在大模型初创公司阶跃星辰担任后训练算法工程师,其研究领域包括生成模型和语言模型后训练。在这之前,他曾在旷视科技担任了六 年的计算机视觉算法工程师,从事三维视觉、数据合成等方向。他于 2018 年本科毕业于北京化工大学。 当前,主流的基础生成模型大概有五大类,分别是 :Energy-Based Models (Diffusion)、GAN、Autoregressive、VAE 和 Flow-Based Models。 本项工作提出了一种全新的生成模型:离散分布网络(Discrete Distribution Networks),简称 DDN。相关论文已发表于 ICLR 2025。 DDN 采用一种简洁且独特的机制来建模目标分布: 1.在单次前向传播中,DDN 会同时生成 K 个输出(而非单一输出)。 2.这些输出共同构成一个包含 K 个等权重(概率均为 1/K)样本点的离散分布,这也是「离散分布网络」名称的由来。 3.训练目标是通过优化样本点的位置,使网络输出的离散分布尽可能逼近训练数据的真实分布。 每一类生成模型都有其独特的性质,DDN 也不例外。本文将重点介绍 DDN 的三个特性: 零样本 ...
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-30 08:02
具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据(图像/机器人/导航数据)实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练(零样本迁移至现实)[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性,推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练(DAgger-DPO算法)[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码(无需真实数据)[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型(支持40+动作生成)[22] - 在Household领域成功求解48项复杂规划任务 [23]
上海期智&清华!BEV-VAE:首个自监督BEV视角的VAE,从图像到场景生成跃迁~
自动驾驶之心· 2025-07-08 20:45
核心观点 - BEV-VAE通过结构化BEV隐变量空间实现多视角图像生成与操控,显著提升自动驾驶场景生成的空间一致性与可控性 [2][4][5] - 该方法突破传统以图像为单位的生成范式,直接以三维场景为单位建模,支持任意相机配置下的新视角合成与对象编辑 [5][6][13] - 在nuScenes和AV2数据集上验证显示,隐变量维度提升至32时PSNR达26.32/26.68,SSIM达0.7455/0.8004,优于SD-VAE基准 [22][23] 技术架构 双阶段设计 - **重建阶段**:通过Transformer编码器将多视角图像压缩为BEV隐变量,解码器重建时保持空间一致性,隐变量维度从4到32逐步提升信息容量 [7][10][12] - **生成阶段**:采用Diffusion Transformer在BEV空间去噪,通过Classifier-Free Guidance实现可控生成,支持15°视角旋转调整 [8][11][13] 关键组件 - 编码器包含图像/场景/状态三模块,解码器通过对抗损失优化生成质量,联合训练KL散度/重建/对抗损失 [7][8] - 判别器采用StyleGAN结构,确保生成图像真实度,消融实验显示隐变量维度32时FID降至13.72/3.02 [22][25] 性能表现 数据集对比 - **nuScenes**:155K×6视图训练,隐变量32维时MVSC+指标达0.9291,接近SD-VAE水平但训练数据量仅0.1% [22][23] - **AV2**:224K×7视图训练,同参数下PSNR提升3.19,验证数据规模规律(Scale Law)的有效性 [22][28] 基准测试 - 在零额外先验条件下,BEV-VAE w/DiT的FID为21.14,显著缩小与基于Stable Diffusion微调方法的差距(DriveWM为12.99) [25] - 对象编辑实验中,移除特定车辆后生成图像无空洞,证明三维结构建模能力 [18][19][20] 应用优势 - **跨平台兼容**:解耦空间建模与生成过程,适配不同相机数量/位姿配置,实现零成本算法迁移 [5][28] - **效率提升**:相比传统数据采集,可低成本生成场景变体(如车辆增减),加速端到端模型训练 [4][18] - **扩展性**:BEV隐变量天然支持NeRF、Occupancy等三维任务,降低世界模型构建门槛 [28][31]
何恺明CVPR 2025报告深度解读:生成模型如何迈向端到端?
自动驾驶之心· 2025-06-28 21:34
生成模型技术演进 - 何恺明在CVPR 2025提出《Towards End-to-End Generative Modeling》,揭示生成模型可能面临类似识别模型"前AlexNet时代"的困境,并提出MeanFlow方法将ImageNet生成从250步迭代压缩到1步完成,FID指标逼近传统多步模型天花板 [1][7][24] - 识别模型经历从逐层训练(如DBN、DAE)到端到端训练(AlexNet)的范式革命,当前生成模型(扩散模型、自回归模型)的多步推理模式与识别模型的逐层训练存在相似性 [2][3][7] - MeanFlow核心创新在于用平均速度替代复杂积分运算,采样公式简化为一步生成,ImageNet 256x256任务中MeanFlow-XL/2在1-NFE设置下FID达3.43,显著优于iCT-XL/2的34.24和Shortcut-XL/2的10.60 [27][31][32] 识别与生成的对偶关系 - 识别是数据到语义的抽象流(具体→抽象),生成是噪声到实例的具象流(抽象→具体),两者构成数据流动的双向过程 [13][15][16] - 本质区别在于识别具有确定映射(如猫图片对应固定标签),而生成需从简单噪声映射到无限可能的数据分布,存在高度非线性 [18][20] 流匹配技术突破 - 流匹配通过构建数据分布的流场实现生成,核心公式建立数据与噪声的连续映射关系,涉及条件速度与边缘速度两个关键概念 [22] - MeanFlow推导出MeanFlow恒等式,直接参数化平均速度并定义损失函数,避免复杂积分运算,训练效率显著提升 [27][29] 前沿研究方向 - 当前研究包括Consistency Models系列(iCT/ECT/sCM)、Two-time-variable Models(CTM/Shortcut Models)、Revisiting Normalizing Flows(TarFlow)等方向 [34] - 开放性问题聚焦如何构建真正适用于端到端生成的公式,MeanFlow虽突破但仍受限于迭代框架,需探索更本质的生成建模方法 [34][35] 生成模型应用进展 - CVPR 2025涌现多模态生成突破:DiffSensei桥接多模态LLM与扩散模型实现定制漫画生成,EX-4D通过深度水密网格合成极端视角4D视频 [36][43] - 视频生成领域出现测试时训练实现的1分钟视频生成(One-Minute Video Generation)、VideoMAR基于连续token的自回归视频生成等技术 [39][48]
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
机器之心· 2025-06-28 10:54
研究背景 - 能量引导技术通过在生成模型的向量场中加入引导向量场,使生成的样本分布从训练集分布改变为被某个能量函数加权后的分布,从而实现可控生成 [7] - 现有能量引导算法主要针对扩散模型,而流匹配模型与扩散模型有本质区别,导致现有算法无法直接通用 [7] - 流匹配模型比扩散模型更一般化,允许从几乎任意源分布和耦合分布中生成样本,这使得能量引导的实现更加复杂 [1][9] 方法创新 - 首次提出流匹配能量引导理论框架,填补了该领域空白 [3] - 提出三大类无需训练的实用流匹配能量引导算法,包括蒙特卡洛估计、梯度近似和高斯近似方法 [3][13][14][17] - 该框架可将经典扩散模型能量引导算法包含为特例,具有更广泛的适用性 [3] 技术细节 - 推导出一般流匹配能量引导向量场公式,通过重要性采样技术实现精确计算 [11][13] - 梯度近似方法通过泰勒展开简化计算,在特定条件下可简化为经典的DPS算法 [15] - 高斯近似方法针对特定任务形式(如含高斯噪声的线性逆问题)可得到解析表达式 [18] 实验结果 - 在合成数据实验中,蒙特卡洛采样引导算法取得最接近真实分布的结果,验证了框架正确性 [21] - 离线强化学习任务中蒙特卡洛采样引导表现最佳,因其能产生稳定的引导采样样本 [23] - 图片逆问题中,针对问题特性设计的高斯近似引导和GDM方法表现最优 [25] 应用价值 - 为流匹配引导采样提供了理论基础,推动了生成模型的进一步应用 [27] - 通过理论分析和实验比较,为不同任务场景下的算法选择提供了实用指导 [3][27] - 代码已开源,有助于促进相关技术在实际应用中的推广 [5]
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
机器之心· 2025-06-19 17:30
CVPR 2024视觉生成建模前沿进展 核心观点 - 生成模型可能重现识别模型从逐层训练到端到端训练的历史演进路径,当前主流方法(如扩散模型)仍处于"AlexNet前时代"的多步迭代阶段[36][81] - 何恺明团队提出的MeanFlow框架在单步生成任务上实现突破,1-NFE生成FID达3.43,较之前最佳方法提升50%-70%[101][107][108] - 视觉生成建模正朝着端到端、前馈式方向演进,流匹配(Flow Matching)技术成为关键突破口[59][81] 技术演进路径 历史对照 - 识别模型在AlexNet后全面转向端到端训练,取代了DBN/DAE等逐层训练方法[10][15] - 当前生成模型(扩散/自回归)仍依赖多步推理,类似识别模型的"前AlexNet时代"[36] 方法论创新 - 提出平均速度场(Average Velocity)概念替代瞬时速度场,建立MeanFlow Identity理论框架[83][90] - 通过Jacobian-vector product计算时间导数,避免直接积分带来的计算复杂度[92] - 训练损失函数设计包含停止梯度(stopgrad)机制,防止高阶梯度干扰[93][96] 性能突破 ImageNet 256x256实验结果 - MeanFlow-XL/2模型: - 1-NFE生成FID 3.43,较Shortcut-XL/2的10.60提升67%[107] - 2-NFE生成FID 2.20,较iMM-XL/2的7.77提升71%[108] - 参数量与性能呈正相关: - 131M参数版本FID 6.17 → 676M参数版本FID 3.43[103][107] 横向对比 - 显著超越GANs(BigGAN FID 6.43)和自回归模型(MaskGIT FID 6.18)[109] - 接近多步扩散模型性能(DiT-XL/2 250步FID 2.10),但推理步数减少两个数量级[109] 行业研究方向 前沿技术路线 - 一致性模型(Consistency Models)系列:iCT/ECT/sCM等改进版本[110] - 双时间变量模型:CTM/Flow Map Matching/Shortcut Models[111] - 归一化流重构:TarFlow等新型架构[113] 开放性问题 - 如何构建不依赖迭代框架的真正端到端生成公式[113] - 神经网络在捕捉隐式轨迹与简化生成过程间的平衡优化[113] - 生成模型的"AlexNet时刻"尚未到来,存在范式创新空间[81][113]