扩散模型

搜索文档
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 12:16
模型技术 - LaViDa是一种基于扩散模型的视觉-语言模型(VLM),能够联合处理视觉和文本信息,继承了扩散语言模型高速且可控的优点[1] - 不同于流行的自回归VLM,LaViDa将文本生成视为在离散token上的扩散过程,通过前向过程将文本token序列退化为掩码token序列,再通过反向过程转换为有意义的文本[3] - 扩散模型相比自回归模型具有多项优势:可通过调整扩散步骤数量灵活控制速度与质量平衡,能够建模双向上下文,更适合文本填空等任务[4] 模型架构 - LaViDa由视觉编码器和扩散语言模型组成,通过MLP投射网络连接[10] - 视觉编码器使用SigLIP-400M,将输入图像调整为多个视图并独立编码,产生3645个嵌入,通过平均池化减少到980个以提高训练效率[12][13] - 扩散语言模型采用多层Transformer架构,注意力掩码为非因果式,使用扩散语言建模目标而非下一个token预测[13] 训练方法 - 采用两阶段训练流程:预训练阶段仅更新投射算子使视觉嵌入与DLM隐空间对齐,微调阶段对所有组件进行端到端联合训练以实现指令遵循[19] - 通过第三阶段训练得到专用模型:使用1.92万个CoT样本蒸馏得到推理模型LaViDa-Reason,在MathVision等基准上相对提升达18%[25][27] - 使用阶段2数据20%子集进行额外训练得到LaViDa-FIM,支持长度可变的文本填空,在约束诗歌生成任务中实现100%约束满足率[30][32] 性能表现 - 在一般视觉-语言理解任务中,LaViDa-L在MMMU上取得43.3分,优于所有同类模型[22] - 在科学任务中,LaViDa在ScienceQA上取得81.4和80.2分,在AI2D上与Open-Llava-Next表现相当[23] - 在OCR任务中表现尚可但落后于最新自回归模型,主要因平均池化导致细粒度空间信息丢失[23] - 通过控制离散化步数K实现速度与质量权衡:NFE=75%和50%时速度比自回归基线更快且质量更好,NFE=25%时速度明显更快但性能略逊[35]
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 11:23
核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V,这是首个纯扩散多模态大语言模型(MLLM),挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态,采用视觉编码器(SigLIP 2)和MLP连接器实现多模态对齐,全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V,并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA,显著缩小与顶尖自回归模型Qwen2-VL的差距(MMStar基准60.1 vs 60.7) [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构,视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制,消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码,损失函数聚焦掩码区域;推理采用反向去噪过程,结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构(如MetaMorph、Show-o)和纯扩散模型,达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B,但LLaDA-V在多模态任务中反超,证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上,数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解,如精准描述阿尔卑斯山景的层次感与空间关系(绿色小路、行人、教堂、薄雾群山等细节) [13] - 支持多轮多模态对话,通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文(arXiv:2505.16933)和代码仓库(GitHub/ML-GSAI/LLaDA-V) [6]
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 18:39
技术突破 - Google DeepMind推出Gemini Diffusion,将图像生成常用的"扩散技术"引入语言模型,通过逐步优化噪声来学习生成输出,不同于传统自回归模型[4][9] - Gemini Diffusion生成速度达2000token/秒,12秒可生成1万tokens,比Gemini 2.0 Flash-Lite更快[1][7][11] - 演示过程中需要放慢视频速度才能看清生成过程,显示其极快的生成速度[3] 性能优势 - 基准测试显示Gemini Diffusion表现可与更大的Gemini 2.0 Flash-Lite相媲美,在多项测试中表现接近或更好[7][8] - Code测试:30.9% vs 28.5%[8] - BigCodeBench:56.8% vs 56.0%[8] - HumanEval:76.0% vs 75.8%[8] - 能够一次生成整个标记块,比自回归模型做出更连贯的响应[14] - 在迭代细化中能够纠正生成过程中的错误,获得更一致的输出[10][15] 技术特点 - 采用并行或迭代式去噪实现数据生成,可以进行非因果推理[16][17] - 解决了自回归模型难以处理的数学问题,如"(√(81) * (2/3))^2 + (15 - 3) / (2^2))"等于多少的问题[17] - 在代码生成任务中表现良好,包括token化、预填充、安全过滤器等开销情况下仍保持高速生成[11] 行业影响 - 表明自回归不是LLM的唯一路径,人大高瓴人工智能研究院、蚂蚁也提出了类似研究LLaDA[19] - 语言模型逐步引入扩散技术,未来可能出现更多混合模型[20]
何恺明等新作大道至简,瞬时速度改为平均速度,一步生成表现提升70%
量子位· 2025-05-21 14:31
研究团队与背景 - 研究团队由CMU博士生耿正阳作为第一作者,何恺明的学生邓明扬、白行健参与[2] - 团队来自MIT和CMU,耿正阳导师是Zico Kolter,曾在Meta Reality Labs实习[21][22] - 邓明扬本科就读MIT数学和计算机科学,研究方向为生成式基础模型[23] - 白行健拥有牛津大学数学与计算机科学学位,研究方向为物理启发式生成模型[23] 技术创新与模型框架 - 提出MeanFlow单步生成框架,引入平均速度概念替代传统瞬时速度[5][7] - 平均速度定义为位移与时间间隔的比率,与瞬时速度存在明确数学联系[7][9] - 模型完全从头训练,无需预训练、蒸馏或课程学习[3][10] - 通过jvp计算实现单次后向传递,训练开销低于总时间20%[11] 性能表现与实验结果 - 在256×256 ImageNet上实现3.43的FID值,相对优势达50%-70%[3][13] - 1-NFE生成时FID显著优于流匹配方法(328.91→61.06)[15] - 模型规模扩展性良好,XL版本参数676M时FID达3.43[16][19] - 2-NFE生成时FID进一步降至2.20,缩小与多步模型的差距[19] 行业对比与定位 - 1-NFE性能超越BigGAN(6.95)、接近GigaGAN(3.45)[19] - 优于多数扩散模型如ADM(10.94)、LDM-4-G(3.60)[19] - 与当前SOTA模型DiT-XL/2(2.27)、SiT-XL/2(2.06)仍存差距[19] - 在自回归模型对比中优于MaskGIT(6.18)[19] 理论意义与应用前景 - 研究涉及物理领域多尺度模拟问题,可应用于空间/时间尺度建模[20] - 方法为生成建模、动力系统研究搭建桥梁[20] - 技术路线可能启发计算机图形学、科学计算等领域[20]
TransDiffuser: 理想VLA diffusion出轨迹的架构
理想TOP2· 2025-05-18 21:08
文章核心观点 - 文章详细解释了Diffusion模型在自动驾驶轨迹生成中的应用,特别是理想汽车VLA(Vision-Language-Action)系统的技术架构和创新点 [1][4][6] - 理想汽车的VLA系统通过Diffusion模型生成驾驶轨迹,相比VLM(Vision-Language-Model)系统具有更强的拟人感和决策能力 [1][2][4] - TransDiffuser模型通过多模态感知信息融合和去相关优化机制,显著提升了轨迹生成的多样性和质量 [6][11][12] 什么是Diffusion - Diffusion是一种通过加噪和去噪过程学习数据分布的生成模型,核心思想类似于逆向拼图 [4] - 相比GAN和VAE等其他生成模型,Diffusion在生成质量和稳定性上具有优势 [4] - 理想汽车采用ODE采样器将Diffusion生成步骤从几十步减少到2-3步,大幅提升效率 [5] 理想VLA系统的技术特点 - VLA是一个具备快慢思考能力的单一系统,直接输出action token并通过Diffusion解码为轨迹 [4] - 系统能同时生成自车轨迹和预测其他交通参与者轨迹,提升复杂环境博弈能力 [5] - 当前系统输出轨迹而非直接控制信号,但未来可能演进到直接输出油门/方向盘信号 [3] TransDiffuser架构细节 - 模型采用编码器-解码器结构,融合图像/LiDAR/运动状态等多模态信息 [6][7] - 场景编码器处理前视图像(8视角)和LiDAR数据(5传感器),输出BEV/图像/点云特征 [7][10] - 去噪解码器基于DDPM算法,通过10步迭代生成覆盖4秒的8个waypoints轨迹 [9][11] - 在NAVSIM数据集上PDMS指标达到94.85,优于Hydra-MDP++等现有方法 [11] 关键创新点 - 无锚点轨迹生成:不依赖预设轨迹或词汇表,直接从感知数据生成轨迹 [11] - 多模态去相关优化:解决模式崩溃问题,提升轨迹多样性且计算开销低 [11][12] - 采用256批量大小分布在4个NVIDIA H20 GPU上进行训练 [10] 局限性与未来方向 - 模型微调存在困难,特别是感知编码器部分 [13] - 未来可能结合强化学习,并参考OpenVLA等先进模型架构 [13] - 直接输出控制信号(油门/方向盘)是更难的挑战,短期内难以实现 [3]
一键开关灯!谷歌用扩散模型,将电影级光影控制玩到极致
机器之心· 2025-05-16 12:39
LightLab 技术概述 - Google推出LightLab项目,实现从单张图像对光源的细粒度参数化控制,包括改变可见光源的强度和颜色、环境光的强度,以及插入虚拟光源[1][2] - 光线在图像或影视创作中至关重要,决定画面焦点、景深、色彩和情绪,电影中光线能塑造角色情绪、烘托氛围、引导观众目光和揭示人物内心世界[3][4] - 传统光照编辑技术存在局限性,要么需要多张照片,要么无法精确控制变化参数[6] 技术实现 - 研究团队通过特殊构建的数据集微调扩散模型,使其学会精确控制图像中的光照[7] - 训练数据集结合了600对真实照片和合成渲染图像,利用光的线性特性分离目标光源和环境光,最终数据集包含约36K张图像[10][22][27] - 模型架构与Stable Diffusion-XL相同,在1024×1024分辨率下训练45,000步,使用64个v4 TPU耗时约12小时[28] 功能特点 - 提供丰富的光照控制功能,通过移动滑块调整每个光源的强度和颜色[12] - 可实现光强度参数化控制,不同强度下光现象保持一致[38] - 支持根据用户输入创建彩色照明,使用彩色滑块调整光源颜色[41] - 能够插入虚拟点光源到场景中[44] - 分离目标光源与环境光,控制难以物理调节的光线(如通过窗户的光线)[45] 技术优势 - 在成对图像评估中,混合真实和合成数据的模型表现最佳,PSNR达23.2,SSIM达0.818[31] - 显著优于先前方法(RGB↔X、IC-Light等),在用户研究中获胜率最高达89.3%[33] - 能够生成物理上合理的光照效果,如自遮挡和阴影与光源位置角度匹配[46] 应用场景 - 主要应用于照片后捕获的光源控制[35] - 可实现复杂光照效果创作,包括间接照明、阴影和反射等[10] - 适用于需要精确控制光照的各种图像和影视创作场景[12]
DiffMoE:动态Token选择助力扩散模型性能飞跃,快手&清华团队打造视觉生成新标杆!
机器之心· 2025-05-16 10:42
在生成式 AI 领域,扩散模型(Diffusion Models)已成为图像生成任务的主流架构。然而,传统扩散模型在处理不同噪声水平和条件输入时采用统一处理方式,未 能充分利用扩散过程的异构特性,导致计算效率低下,近期,可灵团队推出 DiffMoE(Dynamic Token Selection for Scalable Diffusion Transformers), 通过创新的 动态token选择机制和全局token池设计,拓展了扩散模型的效率与性能边界。 本文由清华大学和快手可灵团队共同完成。第一作者是清华大学智能视觉实验室在读本科生史明磊。 核心突破:动态token选择与全局上下文感知 论文标题:DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers 项目主页: https://shiml20.github.io/DiffMoE/ 论文地址: https://arxiv.org/abs/2503.14487 代码: https://github.com/KwaiVGI/DiffMoE 性能提升:以少胜多的参数高效模型 在 ...
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法
机器之心· 2025-05-03 12:18
扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容 的生产方式。如今,只需一段文字,就能生成一张极具风格的个性化头像,已经不再稀奇。 但,如果我们想要的不只是 "一个人" 的照片呢? 在朋友缺席的聚会中,我们是否可以 "补全" 一张大家都在的合影?在广告场景中,我们是否可以自由组合多位虚拟角色,讲述一个多人物的故事?个性化的多人 图像生成正成为新的想象力疆域。但同时,它也带来了前所未有的技术挑战。 其中最棘手的,就是 身份特征泄露(ID leakage) —— 明明是两个人,却因为特征混淆,生成出面容 "融合" 的人脸,令人难以分辨谁是谁。更进一步,用户往往 还希望可以 精确指定每个人的位置和动作 ,实现更自然真实的构图和创意有趣的互动。可一旦位置错乱,原本的故事就变了味儿。 从单人走向多人,挑战也随之升级 如今,个性化单人照片生成已能达到令人惊艳的视觉效果。但当我们尝试生成多人互动照片时,问题便不再简单。 本文第一作者为密歇根州立大学计算机系博士生张益萌,系 OPTML 实验室成员,指导老师为刘 ...
阶跃星辰开源图像编辑模型Step1X-Edit;阿里巴巴AI旗舰应用夸克发布全新“AI相机”丨AIGC日报
创业邦· 2025-04-28 07:48
阶跃星辰开源图像编辑模型Step1X-Edit - 阶跃星辰宣布开源图像编辑大模型Step1X-Edit,性能达到开源SOTA水平 [2] - 模型总参数量为19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 支持11类高频图像编辑任务类型,包括文字替换、风格迁移、材质变换、人物修图等 [2] 阿里巴巴AI旗舰应用夸克发布全新"AI相机" - 阿里巴巴AI旗舰应用夸克AI超级框发布全新AI相机,新增"拍照问夸克"功能 [2] - 基于视觉理解和推理模型能力,AI相机能深入理解用户意图,实现视觉搜索、多轮问答、图像处理与创作 [2] Meta推出Token-Shuffle技术突破自回归模型瓶颈 - Meta AI创新推出Token-Shuffle,解决自回归模型在生成高分辨率图像方面的扩展难题 [3] - 自回归模型在语言生成方面表现优异,但在高分辨率图像生成中需要数千个token,计算成本高 [3] - 该技术使自回归模型能够生成2048×2048分辨率图像,突破原有局限 [3] Adobe发布Firefly Image Model 4模型 - Adobe推出Firefly Image Model 4和Firefly Image Model 4 Ultra两款文本生成图像AI模型 [4] - Firefly Image Model 4被Adobe称为"迄今最快、最可控、最逼真的图像模型",最高支持生成2K分辨率图像 [4] - 新模型在风格、尺寸和相机角度控制方面更加精准 [4] 其他AIGC行业动态 - 谷歌宣布在医疗保健领域推出人工智能计划 [4] - Stability AI发布3D视频生成工具SV3D,可根据单一输入图像创建和转换多视图3D网格 [4]
ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
机器之心· 2025-04-27 18:40
核心观点 - 扩散桥隐式模型(DBIM)是一种新型算法,能够显著加速扩散桥模型的推理过程,无需额外训练 [4] - DBIM通过引入非马尔科夫扩散桥和方差控制参数ρ,实现从随机到确定性采样的灵活切换 [7] - 该方法在图像翻译和图像修复任务中表现出色,仅需20步推理即可超越传统模型118步的效果 [12][13] 方法介绍 - DBIM核心思想是推广扩散桥模型,提出非马尔科夫扩散桥,保持相同边缘分布与训练目标 [7] - 引入方差控制参数ρ,使生成过程可在随机与确定性采样间自由切换 [7] - 导出扩散桥的新常微分方程表达形式,比DDBM更简洁有效 [7] - 提出高阶数值求解方法,提升推理精度与效率 [8] - 采用"启动噪声"机制解决初始奇异性问题,保证生成多样性 [9] 实验结果 - 在Edges→Handbags(64×64)任务中,DBIM 20步推理FID为1.74,优于DDBM 118步的1.83 [12][13] - 在DIODE-Outdoor(256×256)任务中,DBIM 100步推理FID为2.57,优于DDBM 200步的3.34 [12][13] - 在ImageNet 256×256图像修复任务中,DBIM 20步推理FID为4.07,显著优于DDBM 500步的4.27,实现25倍加速 [13][14] - 确定性采样模式在低步数时优势明显,适当增加随机性可提升高步数下的多样性 [16][17] - 高阶采样器能一致提升生成质量,增强图像细节 [18]