图像生成 - 财报，业绩电话会，研报，新闻 - Reportify

图像生成

搜索文档

字节开源图像生成“六边形战士”，一个模型搞定人物/主体/风格保持

量子位· 2025-09-04 12:41

技术突破 - 字节UXO团队设计并开源统一框架USO 解决图像生成中多指标一致性问题实现风格迁移和主体保持单任务和组合任务的SOTA [1] - USO通过单一框架统一主体保持身份保持和风格化编辑等看似孤立的任务包括参考图风格迁移和多风格迁移等复杂场景 [1] - 该框架采用跨任务自解耦新范式让模型根据不同任务类型学习特征从根本上增强模型学习能力 [21] 性能表现 - 在主体驱动生成任务中 USO的CLIP-I得分0.623 DINO得分0.793 CLIP-T得分0.288 均领先对比模型 [18] - 在风格驱动生成任务中 USO的CSD得分0.557 CLIP-T得分0.282 表现最优 [18] - 在主体风格混合驱动生成任务中 USO的CSD得分0.495 CLIP-T得分0.283 超越StyleID和OmniStyle等模型 [18] - 用户研究显示USO在主体一致性风格一致性和画面质量等所有评估维度都获得较高评价 [19] 技术架构 - 以开源模型FLUX 1 dev为基础设计风格对齐训练以及内容-风格解耦训练 [22] - 首次提出风格奖励学习SRL算法这是为Flow Matching设计的带参考图强化学习算法 [24] - 奖励函数来自衡量风格一致性的奖励模型数学映射配合预训练损失监督模型训练促进内容和风格解耦 [25] - 强化学习的加入让模型在其他任务上也获得性能提升验证跨任务对齐有效性 [26] 数据处理 - 团队构建跨任务数据合成框架创新性提出同时构建布局改变和布局保留的三元组数据 [30] - 通过训练UNO模型得到风格化和去风格化专家模型利用这两个专家模型生成大批量三元组数据 [30] - 最后通过VLM过滤出用于训练USO的数据集 [30] 应用场景 - 通过单一模型且仅通过一张参考图就能处理人物主体或风格保持需求 [7] - 可处理卡通人物驾驶小车积木风格场景吉卜力风格抽象材质参考等多种应用场景 [8][10][12][14] - 能同时参考人物ID和风格图片在保留ID基础上完美还原扁平风格 [17] - 画面质量不输商业大模型弥补难以同时做好主体保持和风格迁移的短板 [3][17]

跨任务自解耦

风格奖励学习

跨任务自解耦

风格奖励学习

Nano Banana官方提示词来了，附完整代码示例

量子位· 2025-09-03 13:49

Nano Banana技术功能概述 - 谷歌推出Nano Banana官方提示词指南旨在优化AI图像生成效果[1][8] - 工具支持多模态生成能力包括图像编辑、风格转换及高保真文本渲染[15] - 可生成动画视频及无缝换脸效果展示技术突破性应用场景[5][6] 核心生成功能分类 - 文本转图像：通过详细场景描述生成高质量图像如猫猫在星空餐厅的精细化场景[13][14][17] - 图像+文本编辑：通过文本提示添加/删除元素或调整风格色彩[15] - 多图像合成：将多张输入图像组合为新场景或进行风格转换[15] - 迭代细化：通过多次对话微调图像直至达到理想效果[15] - 文本渲染：精准生成带文字图像适用于logo和海报等商业场景[15] 逼真场景生成方法论 - 采用摄影师思维模式需指定相机角度、镜头类型及光线细节[19] - 标准提示模板包含镜头类型、主体动作、环境光照及画幅比例等要素[20] - 实际案例生成日本陶艺家特写使用85mm人像镜头营造柔焦背景效果[21][23] 风格化内容创作应用 - 插画与贴纸生成需明确艺术风格并指定白色背景[24][25] - 文本渲染需描述具体内容、字体风格及整体设计规范[30] - 案例包括卡哇伊风格小熊贴纸和极简咖啡店logo设计[29][32][34] 商业摄影与产品建模 - 支持高分辨率产品摄影适用电子商务与广告场景[35] - 标准模板包含灯光设置、拍摄角度及产品细节特写[35] - 案例展示哑光黑陶瓷杯在混凝土表面的工作室级拍摄效果[37] 极简设计与叙事创作 - 极简构图擅长创造负空间适合作为文本覆盖的背景模板[38][39] - 案例呈现右下角红枫叶与灰白背景的简约设计[41] - 连环画生成功能可创建故事板需定义艺术风格、角色动作及对话文本[44][45][47]

Gemini-2.5-flash-image-preview

Gemini-2.5-flash-image-preview

光学AI图像生成器能耗降至毫焦级

科技日报· 2025-08-29 08:32

技术突破 - 美国加州大学洛杉矶分校团队开发新型光学图像生成器利用光束替代传统计算硬件生成图像[1] - 新设备生成单幅图像能耗仅几毫焦耳较标准AI工具降低至十万分之一[1] - 系统通过空间光调制器将编码印刻在激光束中实现瞬间成像无需传统数字扩散模型的多次迭代计算[2] 性能表现 - 在测试中生成黑白数字基础服装等简单图像及梵高风格全彩画作效果与传统图像生成器大致相当[2] - 绘制梵高风格图像时新系统每幅耗能约几毫焦耳传统扩散模型需耗费数百至数千焦耳[2] - 传统数字扩散模型需数百至数千次迭代生成图像新系统除初始编码外无需额外计算[2] 行业影响 - 当前AI图像生成器能耗巨大 OpenAI新型图像生成器首周生成超7亿张图像消耗大量能源和水用于供电冷却[1] - 光学AI图像生成器有望缓解AI行业高能耗难题[1] - 低功耗特性特别适合可穿戴设备应用场景如AI眼镜[2]

Artificial Intelligence

新型光学AI图像生成器

Artificial Intelligence

新型光学AI图像生成器

腾讯申请图像生成相关专利，可对图像生成的逐步引导和稳健控制

金融界· 2025-08-16 17:19

腾讯科技新专利技术 - 公司申请图像生成方法专利公开号CN120495475A 申请日期为2025年05月 [1] - 专利技术包括通过文本提示生成图像构图并基于增强文本补充细节完成目标图像生成 [1] - 技术流程涉及文本输入、噪声去噪、构图生成及细节增强四个核心环节 [1] 公司基础信息 - 腾讯科技成立于2000年注册地位于深圳市注册资本200万美元 [1] - 公司主营业务为软件和信息技术服务业对外投资企业达15家 [1] - 参与招投标项目264次拥有商标及专利信息各5000条行政许可534个 [1]

腾讯控股(HK:00700)

软件和信息技术服务

图像生成方法

介质及产品

软件和信息技术服务

图像生成方法

介质及产品

Lumina-mGPT 2.0：自回归模型华丽复兴，媲美顶尖扩散模型

机器之心· 2025-08-12 08:15

核心技术与架构 - 采用完全独立的纯解码器Transformer架构从参数初始化开始完全独立训练提供20亿和70亿参数两个版本[4] - 规避预训练模型的授权限制和固有偏差架构设计不受限制[4] - 选择SBER-MoVQGAN作为图像分词器在MS-COCO数据集上实现最优重建质量[7] 多任务处理能力 - 创新采用统一图像分词方案通过上下拼接将图生图任务视为单张图像实现多任务训练与文生图的一致性[9] - 单一模型支持文生图、主体驱动生成、图像编辑、可控生成和密集预测五大任务[9] - 在Graph200K多任务基准测试中表现优异证明纯自回归模型在单一框架下完成多模态生成任务的可行性[17] 推理优化策略 - 采用模型量化技术将权重量化为4位整数同时保持激活张量为bfloat16 通过PyTorch 2.0原生编译工具实现优化[13] - 运用推测式Jacobi采样通过静态KV缓存和静态因果注意掩码方案兼容静态编译框架实现加速采样[13] - 优化后减少60% GPU显存消耗通过并行解码显著提升生成效率[13] 性能表现对比 - 文生图任务中GenEval分数达0.80 与顶级生成模型相当在"两个物体"测试中达0.92分 "颜色属性"测试中达0.72分[14][15] - 70亿参数版本在DPG综合评分达84.30分超越Janus-Pro-7B的84.19分和Infinity的83.46分[15] - 在可控生成任务中Canny条件F1分数达0.49 深度条件RMSE为17.42 显著优于ControlNet等对比模型[19] 未来发展计划 - 重点优化采样时间长的问题提升用户体验[21] - 计划从多模态生成扩展至多模态理解增强整体功能性和性能[21]

自回归模型

Lumina-mGPT 2.0

自回归模型

Lumina-mGPT 2.0

Qwen新开源，把AI生图里的文字SOTA拉爆了

量子位· 2025-08-05 09:40

通义千问开源图像生成模型Qwen-Image - 通义千问开源200亿参数图像生成基础模型Qwen-Image，采用MMDiT架构，是系列中首个图像生成基础模型[3][4] - 模型主打复杂文本渲染能力，能准确生成包含复杂图文混合布局的图像，文字准确度和契合度高[5][6] - 支持生成海报、PPT、商品宣传图等多种应用场景，文字渲染能力突出[8][16][22] Qwen-Image核心能力 - 具备复杂文本渲染能力，支持多行布局、段落级文本生成和细粒度细节呈现，中英文均能高保真输出[28] - 拥有一致性图像编辑能力，支持风格迁移、增删改、细节增强、文字编辑等多种操作[27] - 采用渐进式训练策略，从非文字到文字渲染逐步过渡，增强原生文字渲染能力[34] 性能表现 - 在多个公开基准测试中实现SOTA，包括通用图像生成的GenEval、DPG和OneIG-Bench等[29][30] - 在文本渲染基准LongText-Bench、ChineseWord和TextCraft上表现尤为出色，中文文本渲染大幅领先现有最先进模型[32][33] 实测效果 - 情境插画生成效果优秀，文字与画面融合度高，细节氛围感强[11][13][14] - 能准确理解提示词生成PPT和海报，主体文字和图中图符合要求[16][18][20] - 商品宣传图生成中能准确对应文字与画面元素[22][24]

开源！通义千问推出系列中首个图像生成基础模型Qwen-Image

华尔街见闻· 2025-08-05 05:09

通义千问Qwen开源Qwen-Image模型 - 公司推出20B参数的MMDiT模型Qwen-Image，这是通义千问系列中首个图像生成基础模型 [1] - 该模型在复杂文本渲染和精确图像编辑方面取得显著进展 [1]

Artificial Intelligence

通义千问Qwen

Artificial Intelligence

通义千问Qwen

训练时间减半，性能不降反升！腾讯混元开源图像生成高效强化方案MixGRPO

量子位· 2025-08-02 16:33

图像生成技术框架MixGRPO - 提出结合随机微分方程(SDE)和常微分方程(ODE)的混合采样框架MixGRPO，通过优化马尔可夫决策过程(MDP)提升训练效率[1][6][12] - 开发变体MixGRPO-Flash，在保持性能前提下将训练时间降低71%，相比基准方法DanceGRPO减少50%训练时间[2][47] - 采用滑动窗口策略动态调整SDE采样区间，窗口大小25、移动间隔25、步长2时达到最优性能[34][71][74][75] 技术性能指标 - 在HPS-v2.1、Pick Score、ImageReward和Unified Reward四项人类偏好评估中，MixGRPO分别取得0.367、0.237、1.629和3.418分，全面超越基准模型[3][60] - 单次迭代时间从DanceGRPO的291秒降至MixGRPO-Flash的83秒，函数调用次数从14次降至4次[3][60] - 使用二阶DPM-Solver++高阶求解器实现加速，图像生成质量与人类偏好保持高度一致[45][76] 训练优化方法 - 将去噪过程划分为SDE和ODE混合采样阶段，仅对SDE采样区间进行强化学习优化[16][20] - 采用指数衰减策略动态调整滑动窗口位置，初始移动间隔25，衰减因子0.95[36][37] - 通过3步梯度累积和混合精度训练(bf16/fp32)提升训练效率，批量大小1，学习率1e-5[56] 应用场景与数据集 - 基于HPDv2数据集103,700条提示词训练，测试集包含动画、概念艺术等四种风格的400条提示词[49][50] - 采用FLUX.1 Dev文本生成图像模型作为基础，在9,600条提示词上训练1个epoch即显现效果[51][50] - 生成图像在语义表达、美学效果及图文对齐度方面表现突出，可视化对比显示质量优势[64][65]

腾讯控股(HK:00700)

基于人类反馈的强化学习（RLHF）

Software and Information Technology Services

基于人类反馈的强化学习（RLHF）

Software and Information Technology Services

Manus突发上新文生图！告别“抽卡”，Agent+深度思考联合创作

量子位· 2025-05-16 13:36

产品功能更新 - Manus新增图像生成功能区别于传统AI绘图工具的"抽卡"模式能够理解用户意图并规划生成方案后再执行[1] - 演示案例显示输入房间照片后可自动从宜家官网匹配家具并生成可视化装修效果图同时附带所选家具链接[2][3] - 图像生成流程包含智能分析环节如根据地板墙壁等元素分析房间风格并形成报告[5] 结合智能体工作流进行互联网检索与数据筛选[7] 应用场景案例 - 饮料包装设计案例基于市场流行元素分析为"TeaVive"茶饮设计瓶身并延伸完成海报与推广策略[11] - 二手商品营销案例完成宣传图修图(保留本体更换背景)及Web展示页面设计成果简洁美观[12][14][15] 市场竞争动态 - 行业出现设计智能体平台lovart 主打海报品牌VI和Storyboard设计近期因邀请码制度引发抢购热潮[19] - 市场观点认为Manus此次更新可能受竞品刺激但竞争有利于行业发展[18][20] 商业化进展 - 开放注册并采用点数制新用户赠送1000点每日赠送300点[22] - 推出三档订阅计划月费19/39/199美元年付享83折优惠[23] - 用户实测显示任务消耗较高如每日新闻获取需704点 39美元套餐仅支持4次类似操作[26][27] - 部分用户反馈定价偏高评论区存在价格争议[28][30]

智能体工作流

Artificial Intelligence

智能体工作流

Artificial Intelligence

Manus推出图像生成功能

快讯· 2025-05-16 13:21

Manus推出图像生成功能 - 公司宣布推出图像生成功能，该功能不仅能生成图像，还能理解用户意图并规划解决方案 [1] - 新功能整合了图像生成和其他工具，旨在更高效地完成用户任务 [1]

Manus图像生成功能

Manus图像生成功能