Workflow
扩散模型
icon
搜索文档
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 11:23
核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V,这是首个纯扩散多模态大语言模型(MLLM),挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态,采用视觉编码器(SigLIP 2)和MLP连接器实现多模态对齐,全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V,并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA,显著缩小与顶尖自回归模型Qwen2-VL的差距(MMStar基准60.1 vs 60.7) [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构,视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制,消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码,损失函数聚焦掩码区域;推理采用反向去噪过程,结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构(如MetaMorph、Show-o)和纯扩散模型,达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B,但LLaDA-V在多模态任务中反超,证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上,数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解,如精准描述阿尔卑斯山景的层次感与空间关系(绿色小路、行人、教堂、薄雾群山等细节) [13] - 支持多轮多模态对话,通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文(arXiv:2505.16933)和代码仓库(GitHub/ML-GSAI/LLaDA-V) [6]
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 18:39
技术突破 - Google DeepMind推出Gemini Diffusion,将图像生成常用的"扩散技术"引入语言模型,通过逐步优化噪声来学习生成输出,不同于传统自回归模型[4][9] - Gemini Diffusion生成速度达2000token/秒,12秒可生成1万tokens,比Gemini 2.0 Flash-Lite更快[1][7][11] - 演示过程中需要放慢视频速度才能看清生成过程,显示其极快的生成速度[3] 性能优势 - 基准测试显示Gemini Diffusion表现可与更大的Gemini 2.0 Flash-Lite相媲美,在多项测试中表现接近或更好[7][8] - Code测试:30.9% vs 28.5%[8] - BigCodeBench:56.8% vs 56.0%[8] - HumanEval:76.0% vs 75.8%[8] - 能够一次生成整个标记块,比自回归模型做出更连贯的响应[14] - 在迭代细化中能够纠正生成过程中的错误,获得更一致的输出[10][15] 技术特点 - 采用并行或迭代式去噪实现数据生成,可以进行非因果推理[16][17] - 解决了自回归模型难以处理的数学问题,如"(√(81) * (2/3))^2 + (15 - 3) / (2^2))"等于多少的问题[17] - 在代码生成任务中表现良好,包括token化、预填充、安全过滤器等开销情况下仍保持高速生成[11] 行业影响 - 表明自回归不是LLM的唯一路径,人大高瓴人工智能研究院、蚂蚁也提出了类似研究LLaDA[19] - 语言模型逐步引入扩散技术,未来可能出现更多混合模型[20]
何恺明等新作大道至简,瞬时速度改为平均速度,一步生成表现提升70%
量子位· 2025-05-21 14:31
研究团队与背景 - 研究团队由CMU博士生耿正阳作为第一作者,何恺明的学生邓明扬、白行健参与[2] - 团队来自MIT和CMU,耿正阳导师是Zico Kolter,曾在Meta Reality Labs实习[21][22] - 邓明扬本科就读MIT数学和计算机科学,研究方向为生成式基础模型[23] - 白行健拥有牛津大学数学与计算机科学学位,研究方向为物理启发式生成模型[23] 技术创新与模型框架 - 提出MeanFlow单步生成框架,引入平均速度概念替代传统瞬时速度[5][7] - 平均速度定义为位移与时间间隔的比率,与瞬时速度存在明确数学联系[7][9] - 模型完全从头训练,无需预训练、蒸馏或课程学习[3][10] - 通过jvp计算实现单次后向传递,训练开销低于总时间20%[11] 性能表现与实验结果 - 在256×256 ImageNet上实现3.43的FID值,相对优势达50%-70%[3][13] - 1-NFE生成时FID显著优于流匹配方法(328.91→61.06)[15] - 模型规模扩展性良好,XL版本参数676M时FID达3.43[16][19] - 2-NFE生成时FID进一步降至2.20,缩小与多步模型的差距[19] 行业对比与定位 - 1-NFE性能超越BigGAN(6.95)、接近GigaGAN(3.45)[19] - 优于多数扩散模型如ADM(10.94)、LDM-4-G(3.60)[19] - 与当前SOTA模型DiT-XL/2(2.27)、SiT-XL/2(2.06)仍存差距[19] - 在自回归模型对比中优于MaskGIT(6.18)[19] 理论意义与应用前景 - 研究涉及物理领域多尺度模拟问题,可应用于空间/时间尺度建模[20] - 方法为生成建模、动力系统研究搭建桥梁[20] - 技术路线可能启发计算机图形学、科学计算等领域[20]
TransDiffuser: 理想VLA diffusion出轨迹的架构
理想TOP2· 2025-05-18 21:08
文章核心观点 - 文章详细解释了Diffusion模型在自动驾驶轨迹生成中的应用,特别是理想汽车VLA(Vision-Language-Action)系统的技术架构和创新点 [1][4][6] - 理想汽车的VLA系统通过Diffusion模型生成驾驶轨迹,相比VLM(Vision-Language-Model)系统具有更强的拟人感和决策能力 [1][2][4] - TransDiffuser模型通过多模态感知信息融合和去相关优化机制,显著提升了轨迹生成的多样性和质量 [6][11][12] 什么是Diffusion - Diffusion是一种通过加噪和去噪过程学习数据分布的生成模型,核心思想类似于逆向拼图 [4] - 相比GAN和VAE等其他生成模型,Diffusion在生成质量和稳定性上具有优势 [4] - 理想汽车采用ODE采样器将Diffusion生成步骤从几十步减少到2-3步,大幅提升效率 [5] 理想VLA系统的技术特点 - VLA是一个具备快慢思考能力的单一系统,直接输出action token并通过Diffusion解码为轨迹 [4] - 系统能同时生成自车轨迹和预测其他交通参与者轨迹,提升复杂环境博弈能力 [5] - 当前系统输出轨迹而非直接控制信号,但未来可能演进到直接输出油门/方向盘信号 [3] TransDiffuser架构细节 - 模型采用编码器-解码器结构,融合图像/LiDAR/运动状态等多模态信息 [6][7] - 场景编码器处理前视图像(8视角)和LiDAR数据(5传感器),输出BEV/图像/点云特征 [7][10] - 去噪解码器基于DDPM算法,通过10步迭代生成覆盖4秒的8个waypoints轨迹 [9][11] - 在NAVSIM数据集上PDMS指标达到94.85,优于Hydra-MDP++等现有方法 [11] 关键创新点 - 无锚点轨迹生成:不依赖预设轨迹或词汇表,直接从感知数据生成轨迹 [11] - 多模态去相关优化:解决模式崩溃问题,提升轨迹多样性且计算开销低 [11][12] - 采用256批量大小分布在4个NVIDIA H20 GPU上进行训练 [10] 局限性与未来方向 - 模型微调存在困难,特别是感知编码器部分 [13] - 未来可能结合强化学习,并参考OpenVLA等先进模型架构 [13] - 直接输出控制信号(油门/方向盘)是更难的挑战,短期内难以实现 [3]
一键开关灯!谷歌用扩散模型,将电影级光影控制玩到极致
机器之心· 2025-05-16 12:39
LightLab 技术概述 - Google推出LightLab项目,实现从单张图像对光源的细粒度参数化控制,包括改变可见光源的强度和颜色、环境光的强度,以及插入虚拟光源[1][2] - 光线在图像或影视创作中至关重要,决定画面焦点、景深、色彩和情绪,电影中光线能塑造角色情绪、烘托氛围、引导观众目光和揭示人物内心世界[3][4] - 传统光照编辑技术存在局限性,要么需要多张照片,要么无法精确控制变化参数[6] 技术实现 - 研究团队通过特殊构建的数据集微调扩散模型,使其学会精确控制图像中的光照[7] - 训练数据集结合了600对真实照片和合成渲染图像,利用光的线性特性分离目标光源和环境光,最终数据集包含约36K张图像[10][22][27] - 模型架构与Stable Diffusion-XL相同,在1024×1024分辨率下训练45,000步,使用64个v4 TPU耗时约12小时[28] 功能特点 - 提供丰富的光照控制功能,通过移动滑块调整每个光源的强度和颜色[12] - 可实现光强度参数化控制,不同强度下光现象保持一致[38] - 支持根据用户输入创建彩色照明,使用彩色滑块调整光源颜色[41] - 能够插入虚拟点光源到场景中[44] - 分离目标光源与环境光,控制难以物理调节的光线(如通过窗户的光线)[45] 技术优势 - 在成对图像评估中,混合真实和合成数据的模型表现最佳,PSNR达23.2,SSIM达0.818[31] - 显著优于先前方法(RGB↔X、IC-Light等),在用户研究中获胜率最高达89.3%[33] - 能够生成物理上合理的光照效果,如自遮挡和阴影与光源位置角度匹配[46] 应用场景 - 主要应用于照片后捕获的光源控制[35] - 可实现复杂光照效果创作,包括间接照明、阴影和反射等[10] - 适用于需要精确控制光照的各种图像和影视创作场景[12]
DiffMoE:动态Token选择助力扩散模型性能飞跃,快手&清华团队打造视觉生成新标杆!
机器之心· 2025-05-16 10:42
技术核心突破 - 引入批级全局token池,使专家网络能够跨样本访问全局token分布,模拟完整数据集token分布,提升对复杂噪声模式的学习能力 [5] - 提出动态容量预测器,通过轻量级MLP网络实时调整专家网络计算负载,实现基于噪声水平和样本复杂度的智能资源分配,做到按需计算 [5] - 在训练损失收敛速度上超越同等参数量的密集模型,为多任务处理提供更强上下文感知能力 [5] 性能表现 - 在ImageNet 256×256分类条件图像生成基准测试中,DiffMoE-L-E8模型仅用4.58亿参数(FID50K 2.13),超越了拥有6.75亿参数的Dense-DiT-XL模型(FID 2.19)[8] - 实现仅用1倍激活参数就达到3倍于密集模型的性能,在文本到图像生成任务中同样展现出卓越泛化能力 [8] - 在Flow-ODE配置下,DiffMoE-L-E8模型(458M参数)FID为2.13,优于Dense-DiT-XL模型(675M参数)的2.19 [9] - 在3000K训练步数下,DiffMoE-L-E8模型(458M参数)FID为2.40,接近Dense-DiT-XXL模型(951M参数)的2.41 [9] 模型验证与扩展性 - 模型能够根据样本难度自动分配计算量,在平均激活参数量较低情况下实现性能指标显著提升 [11] - 从小型(32M)到大型(458M)配置,DiffMoE均保持性能正向增长,专家数量从2扩展到16时FID持续下降 [15] - 在文本到图像生成任务中,DiffMoE模型在对象生成、空间定位等关键指标上全面超越Dense基线模型 [16] - 大量实验结果表明,DiffMoE在性能上超越现有TC-MoE和EC-MoE方法,以及激活参数量是其3倍的密集型模型 [17]
为什么现在做AI的产品经理,都是在亏钱?
36氪· 2025-05-06 09:50
AI产品经理现状与挑战 - AI产品经理主要专注于现有AI产品的功能迭代而非从零开始的新产品开发[1] - 行业存在两种主要产品框架:用户主动寻找AI功能或AI主动服务用户[1] - 当前所有AI产品都处于亏损状态 工作稳定性存在较强波动性[1] 技术架构演进 - Transformer架构并非AI领域唯一解决方案 其源自谷歌2017年《Attention Is All You Need》论文[2] - Transformer采用自注意力机制处理序列数据 能有效捕捉长距离依赖关系[2] - 扩散模型在图像生成领域表现突出 如Stable Diffusion 但在文字生成方面仍有局限[3] - 国内出现非Transformer架构的YAN模型 资源需求较低适合移动端部署[3] - 大模型存在幻觉问题 强化学习反馈未能100%解决该问题[5] - 技术架构可能发生根本性变革 从注意力机制转向其他机制[5] 开发与运营成本 - 仅使用API的产品经理与具备全栈能力的AI产品经理存在本质差异[6] - 真正的AI产品需要自主部署模型 配套Agent、知识库和RAG系统[8] - 开发团队需要配备价值20万元以上的服务器设备[8] - 通过算法优化可将服务器成本降低至10万元左右[8] - 非Transformer架构仍需H100等高端GPU 成本达数十万元[8] - 综合电费、人员工资等 总成本可达数十万至上百万元[9] - 盈利周期需要经历用户获取和运营推广阶段 至少需要数月时间[9] 市场竞争与商业模式 - 模型厂商可能直接进入应用层竞争 如OpenAI推出应用商城导致套壳产品团队倒闭[9] - AI产品获客遵循互联网海盗模型(AARRR) 包括获客、激活、留存、传播和变现环节[10][11] - AI产品主要通过网页端形式呈现 客户端应用较少但付费率更高[12] - 海外产品依赖新媒体传播 国内产品依托小红书、微信公众号等平台[12] - 考核指标包括注册率、登录频率、会话数等非直接盈利指标[12] - 微调工作还涉及AI能力基准测试 如数学和推理能力提升[12] 产品实用性与用户需求 - AI从娱乐性工具向生产力工具转变尚未完成 未能成为刚性需求[15] - 生成内容与专业需求存在差距 如图片只能生成HTML格式而非可编辑的PSD文件[15] - 视频生成存在时间与精度问题 仅能作为素材需要人工合成[16] - 内容审核工作量增加 总体时间成本不一定节约[17] - 需要人工调整内容风格并核查信息准确性[18] - 即使最高端的ChatGPT模型(月费200美元)仍存在错误问题[19] - 目前AI仅能处理碎片化任务 持续生产力价值尚未实现[20] - 用户付费意愿较低 多数用户选择免费替代方案而非付费服务[21]
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法
机器之心· 2025-05-03 12:18
扩散模型技术进展 - 扩散模型已成为文本生成图像的核心引擎,正改变艺术创作、广告设计和社交媒体内容的生产方式 [1] - 个性化单人图像生成已达到惊艳效果,但多人图像生成面临身份特征泄露(ID leakage)和位置控制等技术挑战 [2][3] 现有技术局限性 - OMG方法采用两阶段策略导致风格割裂,生成速度随人数增加显著下降(8人需近2分钟) [4] - InstantFamily通过注意力掩码提升效率,但ID泄露问题未解决,特征重叠风险达32% [4] ID-Patch技术创新 - 首创身份-位置绑定机制,身份还原度达0.751,位置匹配准确率0.958 [12] - 将身份特征转化为RGB图像块嵌入ControlNet,支持与姿态图/深度图等多条件融合 [9][10] - 生成8人合影仅需10秒,比OMG快12倍,比InstantFamily效率提升15% [17] 性能表现 - 在3人以上场景中表现稳健,ID泄露率比传统方法降低63% [14] - 支持同时控制人物位置和动作,文本对齐效果与主流方法相当 [12][16] 应用前景 - 可应用于虚拟合影、广告多角色叙事等场景,支持6种空间条件组合 [21] - 未来可通过多角度图像训练提升面部还原度,实现表情+位置双重控制 [22] 技术实现细节 - 采用ID Patch(位置标记)与ID Embedding(身份细节)双模块设计 [11] - 模型开源发布于Hugging Face平台,支持SDXL框架集成 [11]
阶跃星辰开源图像编辑模型Step1X-Edit;阿里巴巴AI旗舰应用夸克发布全新“AI相机”丨AIGC日报
创业邦· 2025-04-28 07:48
阶跃星辰开源图像编辑模型Step1X-Edit - 阶跃星辰宣布开源图像编辑大模型Step1X-Edit,性能达到开源SOTA水平 [2] - 模型总参数量为19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 支持11类高频图像编辑任务类型,包括文字替换、风格迁移、材质变换、人物修图等 [2] 阿里巴巴AI旗舰应用夸克发布全新"AI相机" - 阿里巴巴AI旗舰应用夸克AI超级框发布全新AI相机,新增"拍照问夸克"功能 [2] - 基于视觉理解和推理模型能力,AI相机能深入理解用户意图,实现视觉搜索、多轮问答、图像处理与创作 [2] Meta推出Token-Shuffle技术突破自回归模型瓶颈 - Meta AI创新推出Token-Shuffle,解决自回归模型在生成高分辨率图像方面的扩展难题 [3] - 自回归模型在语言生成方面表现优异,但在高分辨率图像生成中需要数千个token,计算成本高 [3] - 该技术使自回归模型能够生成2048×2048分辨率图像,突破原有局限 [3] Adobe发布Firefly Image Model 4模型 - Adobe推出Firefly Image Model 4和Firefly Image Model 4 Ultra两款文本生成图像AI模型 [4] - Firefly Image Model 4被Adobe称为"迄今最快、最可控、最逼真的图像模型",最高支持生成2K分辨率图像 [4] - 新模型在风格、尺寸和相机角度控制方面更加精准 [4] 其他AIGC行业动态 - 谷歌宣布在医疗保健领域推出人工智能计划 [4] - Stability AI发布3D视频生成工具SV3D,可根据单一输入图像创建和转换多视图3D网格 [4]
ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
机器之心· 2025-04-27 18:40
核心观点 - 扩散桥隐式模型(DBIM)是一种新型算法,能够显著加速扩散桥模型的推理过程,无需额外训练 [4] - DBIM通过引入非马尔科夫扩散桥和方差控制参数ρ,实现从随机到确定性采样的灵活切换 [7] - 该方法在图像翻译和图像修复任务中表现出色,仅需20步推理即可超越传统模型118步的效果 [12][13] 方法介绍 - DBIM核心思想是推广扩散桥模型,提出非马尔科夫扩散桥,保持相同边缘分布与训练目标 [7] - 引入方差控制参数ρ,使生成过程可在随机与确定性采样间自由切换 [7] - 导出扩散桥的新常微分方程表达形式,比DDBM更简洁有效 [7] - 提出高阶数值求解方法,提升推理精度与效率 [8] - 采用"启动噪声"机制解决初始奇异性问题,保证生成多样性 [9] 实验结果 - 在Edges→Handbags(64×64)任务中,DBIM 20步推理FID为1.74,优于DDBM 118步的1.83 [12][13] - 在DIODE-Outdoor(256×256)任务中,DBIM 100步推理FID为2.57,优于DDBM 200步的3.34 [12][13] - 在ImageNet 256×256图像修复任务中,DBIM 20步推理FID为4.07,显著优于DDBM 500步的4.27,实现25倍加速 [13][14] - 确定性采样模式在低步数时优势明显,适当增加随机性可提升高步数下的多样性 [16][17] - 高阶采样器能一致提升生成质量,增强图像细节 [18]