扩散模型 - 财报，业绩电话会，研报，新闻 - Reportify

扩散模型

搜索文档

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

机器之心· 2025-05-30 12:16

模型技术 - LaViDa是一种基于扩散模型的视觉-语言模型(VLM)，能够联合处理视觉和文本信息，继承了扩散语言模型高速且可控的优点[1] - 不同于流行的自回归VLM，LaViDa将文本生成视为在离散token上的扩散过程，通过前向过程将文本token序列退化为掩码token序列，再通过反向过程转换为有意义的文本[3] - 扩散模型相比自回归模型具有多项优势：可通过调整扩散步骤数量灵活控制速度与质量平衡，能够建模双向上下文，更适合文本填空等任务[4] 模型架构 - LaViDa由视觉编码器和扩散语言模型组成，通过MLP投射网络连接[10] - 视觉编码器使用SigLIP-400M，将输入图像调整为多个视图并独立编码，产生3645个嵌入，通过平均池化减少到980个以提高训练效率[12][13] - 扩散语言模型采用多层Transformer架构，注意力掩码为非因果式，使用扩散语言建模目标而非下一个token预测[13] 训练方法 - 采用两阶段训练流程：预训练阶段仅更新投射算子使视觉嵌入与DLM隐空间对齐，微调阶段对所有组件进行端到端联合训练以实现指令遵循[19] - 通过第三阶段训练得到专用模型：使用1.92万个CoT样本蒸馏得到推理模型LaViDa-Reason，在MathVision等基准上相对提升达18%[25][27] - 使用阶段2数据20%子集进行额外训练得到LaViDa-FIM，支持长度可变的文本填空，在约束诗歌生成任务中实现100%约束满足率[30][32] 性能表现 - 在一般视觉-语言理解任务中，LaViDa-L在MMMU上取得43.3分，优于所有同类模型[22] - 在科学任务中，LaViDa在ScienceQA上取得81.4和80.2分，在AI2D上与Open-Llava-Next表现相当[23] - 在OCR任务中表现尚可但落后于最新自回归模型，主要因平均池化导致细粒度空间信息丢失[23] - 通过控制离散化步数K实现速度与质量权衡：NFE=75%和50%时速度比自回归基线更快且质量更好，NFE=25%时速度明显更快但性能略逊[35]

自回归大语言模型

多模态扩散模型

自回归大语言模型

多模态扩散模型

舍弃自回归！国内团队打造纯扩散多模态大模型LLaDA-V，理解任务新SOTA

机器之心· 2025-05-27 11:23

核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V，这是首个纯扩散多模态大语言模型（MLLM），挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态，采用视觉编码器（SigLIP 2）和MLP连接器实现多模态对齐，全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V，并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA，显著缩小与顶尖自回归模型Qwen2-VL的差距（MMStar基准60.1 vs 60.7） [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构，视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制，消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码，损失函数聚焦掩码区域；推理采用反向去噪过程，结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构（如MetaMorph、Show-o）和纯扩散模型，达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B，但LLaDA-V在多模态任务中反超，证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上，数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解，如精准描述阿尔卑斯山景的层次感与空间关系（绿色小路、行人、教堂、薄雾群山等细节） [13] - 支持多轮多模态对话，通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文（arXiv:2505.16933）和代码仓库（GitHub/ML-GSAI/LLaDA-V） [6]

多模态大语言模型

自回归模型

Artificial Intelligence

多模态大语言模型

自回归模型

Artificial Intelligence

12秒生成1万token！谷歌推出文本「扩散模型」Gemini Diffusion，研究员：演示都得降速看

量子位· 2025-05-21 18:39

技术突破 - Google DeepMind推出Gemini Diffusion，将图像生成常用的"扩散技术"引入语言模型，通过逐步优化噪声来学习生成输出，不同于传统自回归模型[4][9] - Gemini Diffusion生成速度达2000token/秒，12秒可生成1万tokens，比Gemini 2.0 Flash-Lite更快[1][7][11] - 演示过程中需要放慢视频速度才能看清生成过程，显示其极快的生成速度[3] 性能优势 - 基准测试显示Gemini Diffusion表现可与更大的Gemini 2.0 Flash-Lite相媲美，在多项测试中表现接近或更好[7][8] - Code测试：30.9% vs 28.5%[8] - BigCodeBench：56.8% vs 56.0%[8] - HumanEval：76.0% vs 75.8%[8] - 能够一次生成整个标记块，比自回归模型做出更连贯的响应[14] - 在迭代细化中能够纠正生成过程中的错误，获得更一致的输出[10][15] 技术特点 - 采用并行或迭代式去噪实现数据生成，可以进行非因果推理[16][17] - 解决了自回归模型难以处理的数学问题，如"(√(81) * (2/3))^2 + (15 - 3) / (2^2))"等于多少的问题[17] - 在代码生成任务中表现良好，包括token化、预填充、安全过滤器等开销情况下仍保持高速生成[11] 行业影响 - 表明自回归不是LLM的唯一路径，人大高瓴人工智能研究院、蚂蚁也提出了类似研究LLaDA[19] - 语言模型逐步引入扩散技术，未来可能出现更多混合模型[20]

自回归模型

Gemini Diffusion

Gemini 2.0 Flash - Lite

自回归模型

Gemini Diffusion

Gemini 2.0 Flash - Lite

何恺明等新作大道至简，瞬时速度改为平均速度，一步生成表现提升70%

量子位· 2025-05-21 14:31

研究团队与背景 - 研究团队由CMU博士生耿正阳作为第一作者，何恺明的学生邓明扬、白行健参与[2] - 团队来自MIT和CMU，耿正阳导师是Zico Kolter，曾在Meta Reality Labs实习[21][22] - 邓明扬本科就读MIT数学和计算机科学，研究方向为生成式基础模型[23] - 白行健拥有牛津大学数学与计算机科学学位，研究方向为物理启发式生成模型[23] 技术创新与模型框架 - 提出MeanFlow单步生成框架，引入平均速度概念替代传统瞬时速度[5][7] - 平均速度定义为位移与时间间隔的比率，与瞬时速度存在明确数学联系[7][9] - 模型完全从头训练，无需预训练、蒸馏或课程学习[3][10] - 通过jvp计算实现单次后向传递，训练开销低于总时间20%[11] 性能表现与实验结果 - 在256×256 ImageNet上实现3.43的FID值，相对优势达50%-70%[3][13] - 1-NFE生成时FID显著优于流匹配方法(328.91→61.06)[15] - 模型规模扩展性良好，XL版本参数676M时FID达3.43[16][19] - 2-NFE生成时FID进一步降至2.20，缩小与多步模型的差距[19] 行业对比与定位 - 1-NFE性能超越BigGAN(6.95)、接近GigaGAN(3.45)[19] - 优于多数扩散模型如ADM(10.94)、LDM-4-G(3.60)[19] - 与当前SOTA模型DiT-XL/2(2.27)、SiT-XL/2(2.06)仍存差距[19] - 在自回归模型对比中优于MaskGIT(6.18)[19] 理论意义与应用前景 - 研究涉及物理领域多尺度模拟问题，可应用于空间/时间尺度建模[20] - 方法为生成建模、动力系统研究搭建桥梁[20] - 技术路线可能启发计算机图形学、科学计算等领域[20]

大型语言模型

生成式基础模型

大型语言模型

生成式基础模型

TransDiffuser: 理想VLA diffusion出轨迹的架构

理想TOP2· 2025-05-18 21:08

文章核心观点 - 文章详细解释了Diffusion模型在自动驾驶轨迹生成中的应用，特别是理想汽车VLA（Vision-Language-Action）系统的技术架构和创新点 [1][4][6] - 理想汽车的VLA系统通过Diffusion模型生成驾驶轨迹，相比VLM（Vision-Language-Model）系统具有更强的拟人感和决策能力 [1][2][4] - TransDiffuser模型通过多模态感知信息融合和去相关优化机制，显著提升了轨迹生成的多样性和质量 [6][11][12] 什么是Diffusion - Diffusion是一种通过加噪和去噪过程学习数据分布的生成模型，核心思想类似于逆向拼图 [4] - 相比GAN和VAE等其他生成模型，Diffusion在生成质量和稳定性上具有优势 [4] - 理想汽车采用ODE采样器将Diffusion生成步骤从几十步减少到2-3步，大幅提升效率 [5] 理想VLA系统的技术特点 - VLA是一个具备快慢思考能力的单一系统，直接输出action token并通过Diffusion解码为轨迹 [4] - 系统能同时生成自车轨迹和预测其他交通参与者轨迹，提升复杂环境博弈能力 [5] - 当前系统输出轨迹而非直接控制信号，但未来可能演进到直接输出油门/方向盘信号 [3] TransDiffuser架构细节 - 模型采用编码器-解码器结构，融合图像/LiDAR/运动状态等多模态信息 [6][7] - 场景编码器处理前视图像（8视角）和LiDAR数据（5传感器），输出BEV/图像/点云特征 [7][10] - 去噪解码器基于DDPM算法，通过10步迭代生成覆盖4秒的8个waypoints轨迹 [9][11] - 在NAVSIM数据集上PDMS指标达到94.85，优于Hydra-MDP++等现有方法 [11] 关键创新点 - 无锚点轨迹生成：不依赖预设轨迹或词汇表，直接从感知数据生成轨迹 [11] - 多模态去相关优化：解决模式崩溃问题，提升轨迹多样性且计算开销低 [11][12] - 采用256批量大小分布在4个NVIDIA H20 GPU上进行训练 [10] 局限性与未来方向 - 模型微调存在困难，特别是感知编码器部分 [13] - 未来可能结合强化学习，并参考OpenVLA等先进模型架构 [13] - 直接输出控制信号（油门/方向盘）是更难的挑战，短期内难以实现 [3]

理想汽车(US:LI)

生成对抗网络

变分自编码器

生成对抗网络

变分自编码器

一键开关灯！谷歌用扩散模型，将电影级光影控制玩到极致

机器之心· 2025-05-16 12:39

LightLab 技术概述 - Google推出LightLab项目，实现从单张图像对光源的细粒度参数化控制，包括改变可见光源的强度和颜色、环境光的强度，以及插入虚拟光源[1][2] - 光线在图像或影视创作中至关重要，决定画面焦点、景深、色彩和情绪，电影中光线能塑造角色情绪、烘托氛围、引导观众目光和揭示人物内心世界[3][4] - 传统光照编辑技术存在局限性，要么需要多张照片，要么无法精确控制变化参数[6] 技术实现 - 研究团队通过特殊构建的数据集微调扩散模型，使其学会精确控制图像中的光照[7] - 训练数据集结合了600对真实照片和合成渲染图像，利用光的线性特性分离目标光源和环境光，最终数据集包含约36K张图像[10][22][27] - 模型架构与Stable Diffusion-XL相同，在1024×1024分辨率下训练45,000步，使用64个v4 TPU耗时约12小时[28] 功能特点 - 提供丰富的光照控制功能，通过移动滑块调整每个光源的强度和颜色[12] - 可实现光强度参数化控制，不同强度下光现象保持一致[38] - 支持根据用户输入创建彩色照明，使用彩色滑块调整光源颜色[41] - 能够插入虚拟点光源到场景中[44] - 分离目标光源与环境光，控制难以物理调节的光线（如通过窗户的光线）[45] 技术优势 - 在成对图像评估中，混合真实和合成数据的模型表现最佳，PSNR达23.2，SSIM达0.818[31] - 显著优于先前方法（RGB↔X、IC-Light等），在用户研究中获胜率最高达89.3%[33] - 能够生成物理上合理的光照效果，如自遮挡和阴影与光源位置角度匹配[46] 应用场景 - 主要应用于照片后捕获的光源控制[35] - 可实现复杂光照效果创作，包括间接照明、阴影和反射等[10] - 适用于需要精确控制光照的各种图像和影视创作场景[12]

DiffMoE：动态Token选择助力扩散模型性能飞跃，快手&清华团队打造视觉生成新标杆！

机器之心· 2025-05-16 10:42

在生成式 AI 领域，扩散模型（Diffusion Models）已成为图像生成任务的主流架构。然而，传统扩散模型在处理不同噪声水平和条件输入时采用统一处理方式，未能充分利用扩散过程的异构特性，导致计算效率低下，近期，可灵团队推出 DiffMoE（Dynamic Token Selection for Scalable Diffusion Transformers），通过创新的动态token选择机制和全局token池设计，拓展了扩散模型的效率与性能边界。本文由清华大学和快手可灵团队共同完成。第一作者是清华大学智能视觉实验室在读本科生史明磊。核心突破：动态token选择与全局上下文感知论文标题：DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers 项目主页： https://shiml20.github.io/DiffMoE/ 论文地址： https://arxiv.org/abs/2503.14487 代码： https://github.com/KwaiVGI/DiffMoE 性能提升：以少胜多的参数高效模型在 ...

CVPR 2025 | 如何稳定且高效地生成个性化的多人图像？ID-Patch带来新解法

机器之心· 2025-05-03 12:18

扩散模型（Diffusion Models, DMs）如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力，它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。如今，只需一段文字，就能生成一张极具风格的个性化头像，已经不再稀奇。但，如果我们想要的不只是 "一个人" 的照片呢？在朋友缺席的聚会中，我们是否可以 "补全" 一张大家都在的合影？在广告场景中，我们是否可以自由组合多位虚拟角色，讲述一个多人物的故事？个性化的多人图像生成正成为新的想象力疆域。但同时，它也带来了前所未有的技术挑战。其中最棘手的，就是身份特征泄露（ID leakage） —— 明明是两个人，却因为特征混淆，生成出面容 "融合" 的人脸，令人难以分辨谁是谁。更进一步，用户往往还希望可以精确指定每个人的位置和动作，实现更自然真实的构图和创意有趣的互动。可一旦位置错乱，原本的故事就变了味儿。从单人走向多人，挑战也随之升级如今，个性化单人照片生成已能达到令人惊艳的视觉效果。但当我们尝试生成多人互动照片时，问题便不再简单。本文第一作者为密歇根州立大学计算机系博士生张益萌，系 OPTML 实验室成员，指导老师为刘 ...

身份特征泄露

身份特征泄露

阶跃星辰开源图像编辑模型Step1X-Edit；阿里巴巴AI旗舰应用夸克发布全新“AI相机”丨AIGC日报

创业邦· 2025-04-28 07:48

阶跃星辰开源图像编辑模型Step1X-Edit - 阶跃星辰宣布开源图像编辑大模型Step1X-Edit，性能达到开源SOTA水平 [2] - 模型总参数量为19B（7B MLLM + 12B DiT），具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 支持11类高频图像编辑任务类型，包括文字替换、风格迁移、材质变换、人物修图等 [2] 阿里巴巴AI旗舰应用夸克发布全新"AI相机" - 阿里巴巴AI旗舰应用夸克AI超级框发布全新AI相机，新增"拍照问夸克"功能 [2] - 基于视觉理解和推理模型能力，AI相机能深入理解用户意图，实现视觉搜索、多轮问答、图像处理与创作 [2] Meta推出Token-Shuffle技术突破自回归模型瓶颈 - Meta AI创新推出Token-Shuffle，解决自回归模型在生成高分辨率图像方面的扩展难题 [3] - 自回归模型在语言生成方面表现优异，但在高分辨率图像生成中需要数千个token，计算成本高 [3] - 该技术使自回归模型能够生成2048×2048分辨率图像，突破原有局限 [3] Adobe发布Firefly Image Model 4模型 - Adobe推出Firefly Image Model 4和Firefly Image Model 4 Ultra两款文本生成图像AI模型 [4] - Firefly Image Model 4被Adobe称为"迄今最快、最可控、最逼真的图像模型"，最高支持生成2K分辨率图像 [4] - 新模型在风格、尺寸和相机角度控制方面更加精准 [4] 其他AIGC行业动态 - 谷歌宣布在医疗保健领域推出人工智能计划 [4] - Stability AI发布3D视频生成工具SV3D，可根据单一输入图像创建和转换多视图3D网格 [4]

自回归模型

Artificial Intelligence

Firefly Image Model 4

Firefly Image Model 4 Ultra

自回归模型

Artificial Intelligence

Firefly Image Model 4

Firefly Image Model 4 Ultra

ICLR 2025 | 无需训练加速20倍，清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

机器之心· 2025-04-27 18:40

核心观点 - 扩散桥隐式模型（DBIM）是一种新型算法，能够显著加速扩散桥模型的推理过程，无需额外训练 [4] - DBIM通过引入非马尔科夫扩散桥和方差控制参数ρ，实现从随机到确定性采样的灵活切换 [7] - 该方法在图像翻译和图像修复任务中表现出色，仅需20步推理即可超越传统模型118步的效果 [12][13] 方法介绍 - DBIM核心思想是推广扩散桥模型，提出非马尔科夫扩散桥，保持相同边缘分布与训练目标 [7] - 引入方差控制参数ρ，使生成过程可在随机与确定性采样间自由切换 [7] - 导出扩散桥的新常微分方程表达形式，比DDBM更简洁有效 [7] - 提出高阶数值求解方法，提升推理精度与效率 [8] - 采用"启动噪声"机制解决初始奇异性问题，保证生成多样性 [9] 实验结果 - 在Edges→Handbags（64×64）任务中，DBIM 20步推理FID为1.74，优于DDBM 118步的1.83 [12][13] - 在DIODE-Outdoor（256×256）任务中，DBIM 100步推理FID为2.57，优于DDBM 200步的3.34 [12][13] - 在ImageNet 256×256图像修复任务中，DBIM 20步推理FID为4.07，显著优于DDBM 500步的4.27，实现25倍加速 [13][14] - 确定性采样模式在低步数时优势明显，适当增加随机性可提升高步数下的多样性 [16][17] - 高阶采样器能一致提升生成质量，增强图像细节 [18]

去噪扩散桥模型

扩散桥隐式模型

Artificial Intelligence

扩散桥隐式模型（DBIM）算法

去噪扩散桥模型

扩散桥隐式模型

Artificial Intelligence

扩散桥隐式模型（DBIM）算法