Workflow
图像生成
icon
搜索文档
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑
机器之心· 2025-11-02 16:01
核心观点 - UniLIP模型通过创新的两阶段重建训练与自蒸馏损失,解决了统一多模态模型中语义理解与像素重建能力的内在权衡矛盾,在保持甚至提升理解性能的同时实现了卓越的图像重建、生成和编辑能力 [4][5][32] 方法创新 - 提出两阶段训练方案:第一阶段冻结CLIP,仅训练像素解码器和投影层进行解码器对齐;第二阶段通过自蒸馏方法共同训练CLIP,在注入像素细节的同时保留原始语义特征 [9][11] - 训练目标函数结合了MSE损失、LPIPS损失和自蒸馏约束,确保特征不偏离原始分布 [9][11] - 设计双条件架构,在查询嵌入之外引入MLLM的多模态隐藏状态作为第二个条件,共同引导DiT的交叉注意力模块,有效补充像素级信息 [17][18] 技术优势 - 实现32倍高保真图像压缩,并能通过轻量级解码器高质量恢复 [12] - 继承CLIP的强文本对齐能力,确保对文本指令的精准响应 [12] - 特征表示同时编码高级语义与像素细节,为高保真编辑提供完整信息 [13] - 在256x256分辨率下取得rFID 0.79、PSNR 22.99、SSIM 0.747;在448x448分辨率下取得rFID 0.31、PSNR 24.62、SSIM 0.788,超越此前量化方法 [22] 模型性能 多模态理解 - UniLIP-1B在MME-P基准得分1499,MMBench得分72.6,MMVP得分68.7,AI2D得分70.7,TextVOA得分74.7 [14][24] - UniLIP-3B在MME-P基准得分1636,MMBench得分80.7,MMVP得分73.0,实现同规模最好理解性能,超越Tar(7B)和VILA-U(7B)等更大模型 [24] 图像生成 - UniLIP-1B在GenEval基准Overall得分0.88,Counting得分0.83,Position得分0.83;WISE基准Overall得分0.56,Cultural得分0.54,Biology得分0.50 [25] - UniLIP-3B在GenEval基准Overall得分0.90,Counting得分0.84,Position得分0.86;WISE基准Overall得分0.63,Cultural得分0.66,Biology得分0.60,达到与BAGEL等更大模型相当水平 [25][26] 图像编辑 - UniLIP-1B在ImgEdit-Bench总体得分3.81,在Add、Adjust、Replace、Remove等子任务表现优异 [27] - UniLIP-3B总体得分3.94,超越OmniGen2(3.44)等先进模型,归功于特征的丰富细节与精准语义对齐能力 [27] 模型架构与训练 - 包括1B和3B两个参数变体,分别由InternVL3与SANA集成而来 [20] - 采用InternVL3的InternViT作为CLIP编码器,结合DC-AE像素解码器,连接器设计为6层 [20] - 生成训练数据来自BLIP3-o的38M预训练数据和60k指令微调数据;编辑预训练数据来自GPT-Image-Edit-1.5M,指令微调数据来自46K的ShareGPT-4o-Image [21] 行业意义 - 为下一代统一多模态模型提供了新的技术范式,成功解决了理解与生成任务间的固有矛盾 [32] - 仅用较小参数规模即实现超越更大模型的性能,在计算效率和应用部署方面具有显著优势 [5][24]
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
量子位· 2025-10-28 13:12
技术趋势:无VAE潜在扩散模型的兴起 - 图像生成领域出现技术范式转变,VAE(变分自编码器)正被无VAE潜在扩散模型替代 [1] - 清华与快手可灵团队联合提出名为SVG的无VAE潜在扩散模型,标志着技术路线的演进 [1] SVG模型的核心技术创新 - 采用“语义+细节双分支+分布对齐”的架构,从根本上解决VAE的语义纠缠缺陷 [4] - 语义纠缠指传统VAE将不同语义特征置于同一潜空间,导致调整单一数值(如猫的颜色)会引发连锁反应(如体型、表情改变) [4] - 以DINOv3预训练模型作为语义提取器,确保不同类别(如猫、狗)的特征边界清晰可辨 [14] - 专门设计轻量级残差编码器补充DINOv3忽略的颜色、纹理等高频细节信息 [14] - 通过分布对齐机制调整细节特征,使其数值分布与DINOv3语义特征匹配,避免细节扰乱语义结构 [15][16] - 消融实验证明分布对齐机制至关重要,移除后生成图像的FID值从6.12升至9.03,生成质量大幅下滑 [16] SVG模型的性能优势 - 在训练效率上实现62倍提升,在生成速度上实现35倍提升 [3] - 在ImageNet 256×256数据集上,SVG-XL模型仅训练80个epoch,无分类器引导时FID达6.57,远超同规模基于VAE的SiT-XL(FID 22.58) [18] - 当训练延长至1400个epoch,SVG-XL的FID可低至1.92,接近当前顶级生成模型水平 [18][19] - 在推理效率上,5步采样时SVG-XL的gFID为12.26,显著优于SiT-XL(SD-VAE)的69.38和SiT-XL(VA-VAE)的74.46,表明其在较少采样步数下即可达到较好生成质量 [19][20] - 10步采样时,SVG-XL的gFID为9.39(无CFG)和6.49(有CFG),优于对比模型 [20] SVG模型的多任务通用性 - 模型构建的特征空间具备多任务通用能力,不仅用于图像生成,还可直接用于图像分类、语义分割、深度估计等视觉任务,且无需微调编码器 [22] - 在ImageNet-1K图像分类任务中Top-1精度达到81.8%,与原始DINOv3(81.71%)几乎一致 [22][23] - 在ADE20K语义分割任务中mIoU达46.51%,接近专门的分割模型 [22][23] 技术路线对比:SVG与RAE - SVG技术路线旨在兼顾生成与多任务通用,而谢赛宁团队的RAE技术路线则极致聚焦于图像生成性能 [4][11] - RAE直接复用DINOv2、MAE等预训练编码器,不修改编码器结构,仅优化解码器来还原图像细节,并针对性改造扩散模型架构 [9][10] - SVG则主动构建语义与细节融合的特征空间,而非直接复用预训练特征 [12]
谢赛宁新作:VAE退役,RAE当立
量子位· 2025-10-14 16:16
文章核心观点 - 谢赛宁团队提出表征自编码器RAE将取代变分自动编码器VAE,标志着VAE时代的结束[1][4] - RAE采用预训练表征编码器与轻量级解码器配对,在扩散Transformer模型中实现更高质量重建和更快收敛速度[3][9][19] - 该方法在ImageNet图像生成任务中取得FID 1.51(无引导)和1.13(有引导)的优异表现[6] RAE技术原理与优势 - RAE核心设计是用预训练表征编码器(DINO、SigLIP、MAE等)与训练后的轻量级解码器配对[3] - 无需额外表示对齐损失或辅助损失函数,架构简洁但重建质量超越SD-VAE[9][10] - 提供语义丰富的潜空间,支持可扩展的基于变换器的架构[4] 传统VAE的局限性 - SD-VAE需要约450 GFLOPs运算量,而简易ViT-B编码器仅需22 GFLOPs,架构过于复杂[7] - VAE潜空间过度压缩(只有4个通道),信息容量严重受限[7] - VAE表征能力薄弱,线性探测精度约8%,特征质量低下拖慢收敛速度并损害生成质量[7][11] RAE性能表现 - 在重建质量指标rFID上:DINOv2-B为0.49,SigLIP2-B为0.53,MAE-B为0.16,均优于SD-VAE的0.62[11] - 在表征质量指标Top-1准确率上:DINOv2-B达84.5%,SigLIP2-B达79.1%,MAE-B达68.0%,远高于SD-VAE的8.0%[11] - 收敛速度比基于SD-VAE的REPA快达16倍[19] DiT架构适配与优化 - 采用宽DiT设计,要求变换器宽度至少等于潜表征维度[14] - 调整噪声调度使扩散模型适应增加的输入通道维度[17] - 在解码器训练中注入微量噪声,提升对潜空间扩散误差的鲁棒性[17] - 引入极宽但极浅的扩散头部设计,提升DiT在RAE框架内的可扩展性[21][22]
字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持
量子位· 2025-09-04 12:41
技术突破 - 字节UXO团队设计并开源统一框架USO 解决图像生成中多指标一致性问题 实现风格迁移和主体保持单任务和组合任务的SOTA [1] - USO通过单一框架统一主体保持 身份保持和风格化编辑等看似孤立的任务 包括参考图风格迁移和多风格迁移等复杂场景 [1] - 该框架采用跨任务自解耦新范式 让模型根据不同任务类型学习特征 从根本上增强模型学习能力 [21] 性能表现 - 在主体驱动生成任务中 USO的CLIP-I得分0.623 DINO得分0.793 CLIP-T得分0.288 均领先对比模型 [18] - 在风格驱动生成任务中 USO的CSD得分0.557 CLIP-T得分0.282 表现最优 [18] - 在主体风格混合驱动生成任务中 USO的CSD得分0.495 CLIP-T得分0.283 超越StyleID和OmniStyle等模型 [18] - 用户研究显示USO在主体一致性 风格一致性和画面质量等所有评估维度都获得较高评价 [19] 技术架构 - 以开源模型FLUX 1 dev为基础 设计风格对齐训练以及内容-风格解耦训练 [22] - 首次提出风格奖励学习SRL算法 这是为Flow Matching设计的带参考图强化学习算法 [24] - 奖励函数来自衡量风格一致性的奖励模型数学映射 配合预训练损失监督模型训练 促进内容和风格解耦 [25] - 强化学习的加入让模型在其他任务上也获得性能提升 验证跨任务对齐有效性 [26] 数据处理 - 团队构建跨任务数据合成框架 创新性提出同时构建布局改变和布局保留的三元组数据 [30] - 通过训练UNO模型得到风格化和去风格化专家模型 利用这两个专家模型生成大批量三元组数据 [30] - 最后通过VLM过滤出用于训练USO的数据集 [30] 应用场景 - 通过单一模型且仅通过一张参考图 就能处理人物 主体或风格保持需求 [7] - 可处理卡通人物驾驶小车 积木风格场景 吉卜力风格 抽象材质参考等多种应用场景 [8][10][12][14] - 能同时参考人物ID和风格图片 在保留ID基础上完美还原扁平风格 [17] - 画面质量不输商业大模型 弥补难以同时做好主体保持和风格迁移的短板 [3][17]
Nano Banana官方提示词来了,附完整代码示例
量子位· 2025-09-03 13:49
Nano Banana技术功能概述 - 谷歌推出Nano Banana官方提示词指南 旨在优化AI图像生成效果[1][8] - 工具支持多模态生成能力 包括图像编辑、风格转换及高保真文本渲染[15] - 可生成动画视频及无缝换脸效果 展示技术突破性应用场景[5][6] 核心生成功能分类 - 文本转图像:通过详细场景描述生成高质量图像 如猫猫在星空餐厅的精细化场景[13][14][17] - 图像+文本编辑:通过文本提示添加/删除元素或调整风格色彩[15] - 多图像合成:将多张输入图像组合为新场景或进行风格转换[15] - 迭代细化:通过多次对话微调图像直至达到理想效果[15] - 文本渲染:精准生成带文字图像 适用于logo和海报等商业场景[15] 逼真场景生成方法论 - 采用摄影师思维模式 需指定相机角度、镜头类型及光线细节[19] - 标准提示模板包含镜头类型、主体动作、环境光照及画幅比例等要素[20] - 实际案例生成日本陶艺家特写 使用85mm人像镜头营造柔焦背景效果[21][23] 风格化内容创作应用 - 插画与贴纸生成需明确艺术风格并指定白色背景[24][25] - 文本渲染需描述具体内容、字体风格及整体设计规范[30] - 案例包括卡哇伊风格小熊贴纸和极简咖啡店logo设计[29][32][34] 商业摄影与产品建模 - 支持高分辨率产品摄影 适用电子商务与广告场景[35] - 标准模板包含灯光设置、拍摄角度及产品细节特写[35] - 案例展示哑光黑陶瓷杯在混凝土表面的工作室级拍摄效果[37] 极简设计与叙事创作 - 极简构图擅长创造负空间 适合作为文本覆盖的背景模板[38][39] - 案例呈现右下角红枫叶与灰白背景的简约设计[41] - 连环画生成功能可创建故事板 需定义艺术风格、角色动作及对话文本[44][45][47]
光学AI图像生成器能耗降至毫焦级
科技日报· 2025-08-29 08:32
技术突破 - 美国加州大学洛杉矶分校团队开发新型光学图像生成器 利用光束替代传统计算硬件生成图像[1] - 新设备生成单幅图像能耗仅几毫焦耳 较标准AI工具降低至十万分之一[1] - 系统通过空间光调制器将编码印刻在激光束中 实现瞬间成像 无需传统数字扩散模型的多次迭代计算[2] 性能表现 - 在测试中生成黑白数字 基础服装等简单图像及梵高风格全彩画作 效果与传统图像生成器大致相当[2] - 绘制梵高风格图像时新系统每幅耗能约几毫焦耳 传统扩散模型需耗费数百至数千焦耳[2] - 传统数字扩散模型需数百至数千次迭代生成图像 新系统除初始编码外无需额外计算[2] 行业影响 - 当前AI图像生成器能耗巨大 OpenAI新型图像生成器首周生成超7亿张图像 消耗大量能源和水用于供电冷却[1] - 光学AI图像生成器有望缓解AI行业高能耗难题[1] - 低功耗特性特别适合可穿戴设备应用场景 如AI眼镜[2]
腾讯申请图像生成相关专利,可对图像生成的逐步引导和稳健控制
金融界· 2025-08-16 17:19
腾讯科技新专利技术 - 公司申请图像生成方法专利 公开号CN120495475A 申请日期为2025年05月 [1] - 专利技术包括通过文本提示生成图像构图 并基于增强文本补充细节完成目标图像生成 [1] - 技术流程涉及文本输入、噪声去噪、构图生成及细节增强四个核心环节 [1] 公司基础信息 - 腾讯科技成立于2000年 注册地位于深圳市 注册资本200万美元 [1] - 公司主营业务为软件和信息技术服务业 对外投资企业达15家 [1] - 参与招投标项目264次 拥有商标及专利信息各5000条 行政许可534个 [1]
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
机器之心· 2025-08-12 08:15
核心技术与架构 - 采用完全独立的纯解码器Transformer架构 从参数初始化开始完全独立训练 提供20亿和70亿参数两个版本[4] - 规避预训练模型的授权限制和固有偏差 架构设计不受限制[4] - 选择SBER-MoVQGAN作为图像分词器 在MS-COCO数据集上实现最优重建质量[7] 多任务处理能力 - 创新采用统一图像分词方案 通过上下拼接将图生图任务视为单张图像 实现多任务训练与文生图的一致性[9] - 单一模型支持文生图、主体驱动生成、图像编辑、可控生成和密集预测五大任务[9] - 在Graph200K多任务基准测试中表现优异 证明纯自回归模型在单一框架下完成多模态生成任务的可行性[17] 推理优化策略 - 采用模型量化技术 将权重量化为4位整数同时保持激活张量为bfloat16 通过PyTorch 2.0原生编译工具实现优化[13] - 运用推测式Jacobi采样 通过静态KV缓存和静态因果注意掩码方案兼容静态编译框架 实现加速采样[13] - 优化后减少60% GPU显存消耗 通过并行解码显著提升生成效率[13] 性能表现对比 - 文生图任务中GenEval分数达0.80 与顶级生成模型相当 在"两个物体"测试中达0.92分 "颜色属性"测试中达0.72分[14][15] - 70亿参数版本在DPG综合评分达84.30分 超越Janus-Pro-7B的84.19分和Infinity的83.46分[15] - 在可控生成任务中Canny条件F1分数达0.49 深度条件RMSE为17.42 显著优于ControlNet等对比模型[19] 未来发展计划 - 重点优化采样时间长的问题 提升用户体验[21] - 计划从多模态生成扩展至多模态理解 增强整体功能性和性能[21]
Qwen新开源,把AI生图里的文字SOTA拉爆了
量子位· 2025-08-05 09:40
通义千问开源图像生成模型Qwen-Image - 通义千问开源200亿参数图像生成基础模型Qwen-Image,采用MMDiT架构,是系列中首个图像生成基础模型[3][4] - 模型主打复杂文本渲染能力,能准确生成包含复杂图文混合布局的图像,文字准确度和契合度高[5][6] - 支持生成海报、PPT、商品宣传图等多种应用场景,文字渲染能力突出[8][16][22] Qwen-Image核心能力 - 具备复杂文本渲染能力,支持多行布局、段落级文本生成和细粒度细节呈现,中英文均能高保真输出[28] - 拥有一致性图像编辑能力,支持风格迁移、增删改、细节增强、文字编辑等多种操作[27] - 采用渐进式训练策略,从非文字到文字渲染逐步过渡,增强原生文字渲染能力[34] 性能表现 - 在多个公开基准测试中实现SOTA,包括通用图像生成的GenEval、DPG和OneIG-Bench等[29][30] - 在文本渲染基准LongText-Bench、ChineseWord和TextCraft上表现尤为出色,中文文本渲染大幅领先现有最先进模型[32][33] 实测效果 - 情境插画生成效果优秀,文字与画面融合度高,细节氛围感强[11][13][14] - 能准确理解提示词生成PPT和海报,主体文字和图中图符合要求[16][18][20] - 商品宣传图生成中能准确对应文字与画面元素[22][24]
开源!通义千问推出系列中首个图像生成基础模型Qwen-Image
华尔街见闻· 2025-08-05 05:09
通义千问Qwen开源Qwen-Image模型 - 公司推出20B参数的MMDiT模型Qwen-Image,这是通义千问系列中首个图像生成基础模型 [1] - 该模型在复杂文本渲染和精确图像编辑方面取得显著进展 [1]