图像生成

搜索文档
字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持
量子位· 2025-09-04 12:41
技术突破 - 字节UXO团队设计并开源统一框架USO 解决图像生成中多指标一致性问题 实现风格迁移和主体保持单任务和组合任务的SOTA [1] - USO通过单一框架统一主体保持 身份保持和风格化编辑等看似孤立的任务 包括参考图风格迁移和多风格迁移等复杂场景 [1] - 该框架采用跨任务自解耦新范式 让模型根据不同任务类型学习特征 从根本上增强模型学习能力 [21] 性能表现 - 在主体驱动生成任务中 USO的CLIP-I得分0.623 DINO得分0.793 CLIP-T得分0.288 均领先对比模型 [18] - 在风格驱动生成任务中 USO的CSD得分0.557 CLIP-T得分0.282 表现最优 [18] - 在主体风格混合驱动生成任务中 USO的CSD得分0.495 CLIP-T得分0.283 超越StyleID和OmniStyle等模型 [18] - 用户研究显示USO在主体一致性 风格一致性和画面质量等所有评估维度都获得较高评价 [19] 技术架构 - 以开源模型FLUX 1 dev为基础 设计风格对齐训练以及内容-风格解耦训练 [22] - 首次提出风格奖励学习SRL算法 这是为Flow Matching设计的带参考图强化学习算法 [24] - 奖励函数来自衡量风格一致性的奖励模型数学映射 配合预训练损失监督模型训练 促进内容和风格解耦 [25] - 强化学习的加入让模型在其他任务上也获得性能提升 验证跨任务对齐有效性 [26] 数据处理 - 团队构建跨任务数据合成框架 创新性提出同时构建布局改变和布局保留的三元组数据 [30] - 通过训练UNO模型得到风格化和去风格化专家模型 利用这两个专家模型生成大批量三元组数据 [30] - 最后通过VLM过滤出用于训练USO的数据集 [30] 应用场景 - 通过单一模型且仅通过一张参考图 就能处理人物 主体或风格保持需求 [7] - 可处理卡通人物驾驶小车 积木风格场景 吉卜力风格 抽象材质参考等多种应用场景 [8][10][12][14] - 能同时参考人物ID和风格图片 在保留ID基础上完美还原扁平风格 [17] - 画面质量不输商业大模型 弥补难以同时做好主体保持和风格迁移的短板 [3][17]
Nano Banana官方提示词来了,附完整代码示例
量子位· 2025-09-03 13:49
Nano Banana技术功能概述 - 谷歌推出Nano Banana官方提示词指南 旨在优化AI图像生成效果[1][8] - 工具支持多模态生成能力 包括图像编辑、风格转换及高保真文本渲染[15] - 可生成动画视频及无缝换脸效果 展示技术突破性应用场景[5][6] 核心生成功能分类 - 文本转图像:通过详细场景描述生成高质量图像 如猫猫在星空餐厅的精细化场景[13][14][17] - 图像+文本编辑:通过文本提示添加/删除元素或调整风格色彩[15] - 多图像合成:将多张输入图像组合为新场景或进行风格转换[15] - 迭代细化:通过多次对话微调图像直至达到理想效果[15] - 文本渲染:精准生成带文字图像 适用于logo和海报等商业场景[15] 逼真场景生成方法论 - 采用摄影师思维模式 需指定相机角度、镜头类型及光线细节[19] - 标准提示模板包含镜头类型、主体动作、环境光照及画幅比例等要素[20] - 实际案例生成日本陶艺家特写 使用85mm人像镜头营造柔焦背景效果[21][23] 风格化内容创作应用 - 插画与贴纸生成需明确艺术风格并指定白色背景[24][25] - 文本渲染需描述具体内容、字体风格及整体设计规范[30] - 案例包括卡哇伊风格小熊贴纸和极简咖啡店logo设计[29][32][34] 商业摄影与产品建模 - 支持高分辨率产品摄影 适用电子商务与广告场景[35] - 标准模板包含灯光设置、拍摄角度及产品细节特写[35] - 案例展示哑光黑陶瓷杯在混凝土表面的工作室级拍摄效果[37] 极简设计与叙事创作 - 极简构图擅长创造负空间 适合作为文本覆盖的背景模板[38][39] - 案例呈现右下角红枫叶与灰白背景的简约设计[41] - 连环画生成功能可创建故事板 需定义艺术风格、角色动作及对话文本[44][45][47]
光学AI图像生成器能耗降至毫焦级
科技日报· 2025-08-29 08:32
技术突破 - 美国加州大学洛杉矶分校团队开发新型光学图像生成器 利用光束替代传统计算硬件生成图像[1] - 新设备生成单幅图像能耗仅几毫焦耳 较标准AI工具降低至十万分之一[1] - 系统通过空间光调制器将编码印刻在激光束中 实现瞬间成像 无需传统数字扩散模型的多次迭代计算[2] 性能表现 - 在测试中生成黑白数字 基础服装等简单图像及梵高风格全彩画作 效果与传统图像生成器大致相当[2] - 绘制梵高风格图像时新系统每幅耗能约几毫焦耳 传统扩散模型需耗费数百至数千焦耳[2] - 传统数字扩散模型需数百至数千次迭代生成图像 新系统除初始编码外无需额外计算[2] 行业影响 - 当前AI图像生成器能耗巨大 OpenAI新型图像生成器首周生成超7亿张图像 消耗大量能源和水用于供电冷却[1] - 光学AI图像生成器有望缓解AI行业高能耗难题[1] - 低功耗特性特别适合可穿戴设备应用场景 如AI眼镜[2]
腾讯申请图像生成相关专利,可对图像生成的逐步引导和稳健控制
金融界· 2025-08-16 17:19
腾讯科技新专利技术 - 公司申请图像生成方法专利 公开号CN120495475A 申请日期为2025年05月 [1] - 专利技术包括通过文本提示生成图像构图 并基于增强文本补充细节完成目标图像生成 [1] - 技术流程涉及文本输入、噪声去噪、构图生成及细节增强四个核心环节 [1] 公司基础信息 - 腾讯科技成立于2000年 注册地位于深圳市 注册资本200万美元 [1] - 公司主营业务为软件和信息技术服务业 对外投资企业达15家 [1] - 参与招投标项目264次 拥有商标及专利信息各5000条 行政许可534个 [1]
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
机器之心· 2025-08-12 08:15
核心技术与架构 - 采用完全独立的纯解码器Transformer架构 从参数初始化开始完全独立训练 提供20亿和70亿参数两个版本[4] - 规避预训练模型的授权限制和固有偏差 架构设计不受限制[4] - 选择SBER-MoVQGAN作为图像分词器 在MS-COCO数据集上实现最优重建质量[7] 多任务处理能力 - 创新采用统一图像分词方案 通过上下拼接将图生图任务视为单张图像 实现多任务训练与文生图的一致性[9] - 单一模型支持文生图、主体驱动生成、图像编辑、可控生成和密集预测五大任务[9] - 在Graph200K多任务基准测试中表现优异 证明纯自回归模型在单一框架下完成多模态生成任务的可行性[17] 推理优化策略 - 采用模型量化技术 将权重量化为4位整数同时保持激活张量为bfloat16 通过PyTorch 2.0原生编译工具实现优化[13] - 运用推测式Jacobi采样 通过静态KV缓存和静态因果注意掩码方案兼容静态编译框架 实现加速采样[13] - 优化后减少60% GPU显存消耗 通过并行解码显著提升生成效率[13] 性能表现对比 - 文生图任务中GenEval分数达0.80 与顶级生成模型相当 在"两个物体"测试中达0.92分 "颜色属性"测试中达0.72分[14][15] - 70亿参数版本在DPG综合评分达84.30分 超越Janus-Pro-7B的84.19分和Infinity的83.46分[15] - 在可控生成任务中Canny条件F1分数达0.49 深度条件RMSE为17.42 显著优于ControlNet等对比模型[19] 未来发展计划 - 重点优化采样时间长的问题 提升用户体验[21] - 计划从多模态生成扩展至多模态理解 增强整体功能性和性能[21]
Qwen新开源,把AI生图里的文字SOTA拉爆了
量子位· 2025-08-05 09:40
通义千问开源图像生成模型Qwen-Image - 通义千问开源200亿参数图像生成基础模型Qwen-Image,采用MMDiT架构,是系列中首个图像生成基础模型[3][4] - 模型主打复杂文本渲染能力,能准确生成包含复杂图文混合布局的图像,文字准确度和契合度高[5][6] - 支持生成海报、PPT、商品宣传图等多种应用场景,文字渲染能力突出[8][16][22] Qwen-Image核心能力 - 具备复杂文本渲染能力,支持多行布局、段落级文本生成和细粒度细节呈现,中英文均能高保真输出[28] - 拥有一致性图像编辑能力,支持风格迁移、增删改、细节增强、文字编辑等多种操作[27] - 采用渐进式训练策略,从非文字到文字渲染逐步过渡,增强原生文字渲染能力[34] 性能表现 - 在多个公开基准测试中实现SOTA,包括通用图像生成的GenEval、DPG和OneIG-Bench等[29][30] - 在文本渲染基准LongText-Bench、ChineseWord和TextCraft上表现尤为出色,中文文本渲染大幅领先现有最先进模型[32][33] 实测效果 - 情境插画生成效果优秀,文字与画面融合度高,细节氛围感强[11][13][14] - 能准确理解提示词生成PPT和海报,主体文字和图中图符合要求[16][18][20] - 商品宣传图生成中能准确对应文字与画面元素[22][24]
开源!通义千问推出系列中首个图像生成基础模型Qwen-Image
华尔街见闻· 2025-08-05 05:09
通义千问Qwen开源Qwen-Image模型 - 公司推出20B参数的MMDiT模型Qwen-Image,这是通义千问系列中首个图像生成基础模型 [1] - 该模型在复杂文本渲染和精确图像编辑方面取得显著进展 [1]
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
量子位· 2025-08-02 16:33
图像生成技术框架MixGRPO - 提出结合随机微分方程(SDE)和常微分方程(ODE)的混合采样框架MixGRPO,通过优化马尔可夫决策过程(MDP)提升训练效率[1][6][12] - 开发变体MixGRPO-Flash,在保持性能前提下将训练时间降低71%,相比基准方法DanceGRPO减少50%训练时间[2][47] - 采用滑动窗口策略动态调整SDE采样区间,窗口大小25、移动间隔25、步长2时达到最优性能[34][71][74][75] 技术性能指标 - 在HPS-v2.1、Pick Score、ImageReward和Unified Reward四项人类偏好评估中,MixGRPO分别取得0.367、0.237、1.629和3.418分,全面超越基准模型[3][60] - 单次迭代时间从DanceGRPO的291秒降至MixGRPO-Flash的83秒,函数调用次数从14次降至4次[3][60] - 使用二阶DPM-Solver++高阶求解器实现加速,图像生成质量与人类偏好保持高度一致[45][76] 训练优化方法 - 将去噪过程划分为SDE和ODE混合采样阶段,仅对SDE采样区间进行强化学习优化[16][20] - 采用指数衰减策略动态调整滑动窗口位置,初始移动间隔25,衰减因子0.95[36][37] - 通过3步梯度累积和混合精度训练(bf16/fp32)提升训练效率,批量大小1,学习率1e-5[56] 应用场景与数据集 - 基于HPDv2数据集103,700条提示词训练,测试集包含动画、概念艺术等四种风格的400条提示词[49][50] - 采用FLUX.1 Dev文本生成图像模型作为基础,在9,600条提示词上训练1个epoch即显现效果[51][50] - 生成图像在语义表达、美学效果及图文对齐度方面表现突出,可视化对比显示质量优势[64][65]
Manus突发上新文生图!告别“抽卡”,Agent+深度思考联合创作
量子位· 2025-05-16 13:36
产品功能更新 - Manus新增图像生成功能 区别于传统AI绘图工具的"抽卡"模式 能够理解用户意图并规划生成方案后再执行[1] - 演示案例显示 输入房间照片后 可自动从宜家官网匹配家具并生成可视化装修效果图 同时附带所选家具链接[2][3] - 图像生成流程包含智能分析环节 如根据地板墙壁等元素分析房间风格并形成报告[5] 结合智能体工作流进行互联网检索与数据筛选[7] 应用场景案例 - 饮料包装设计案例 基于市场流行元素分析为"TeaVive"茶饮设计瓶身 并延伸完成海报与推广策略[11] - 二手商品营销案例 完成宣传图修图(保留本体更换背景)及Web展示页面设计 成果简洁美观[12][14][15] 市场竞争动态 - 行业出现设计智能体平台lovart 主打海报品牌VI和Storyboard设计 近期因邀请码制度引发抢购热潮[19] - 市场观点认为Manus此次更新可能受竞品刺激 但竞争有利于行业发展[18][20] 商业化进展 - 开放注册并采用点数制 新用户赠送1000点 每日赠送300点[22] - 推出三档订阅计划 月费19/39/199美元 年付享83折优惠[23] - 用户实测显示任务消耗较高 如每日新闻获取需704点 39美元套餐仅支持4次类似操作[26][27] - 部分用户反馈定价偏高 评论区存在价格争议[28][30]
Manus推出图像生成功能
快讯· 2025-05-16 13:21
Manus推出图像生成功能 - 公司宣布推出图像生成功能,该功能不仅能生成图像,还能理解用户意图并规划解决方案 [1] - 新功能整合了图像生成和其他工具,旨在更高效地完成用户任务 [1]