图像编辑

搜索文档
刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
机器之心· 2025-09-03 16:33
文章核心观点 - 谷歌Nano Banana模型通过优化提示词设计显著提升图像生成能力 官方发布六类文本转图像提示模板以最大化模型潜力[8][11] - 用户通过创意提示词实现多样化应用场景 包括产品摄影、风格化插画、文字渲染、商业摄影、极简设计及连续性艺术创作[3][6][16] - 模型在图像编辑一致性和稳定性方面存在技术局限 部分场景下表现不及Qwen和Kontext Pro等竞品[39] 提示词模板分类总结 照片级写实场景 - 需包含机位角度、镜头类型、光线及细节描写 例如使用85mm肖像镜头生成带有景深效果的垂直人像[13][15] - 模板结构包含拍摄类型、主体动作、环境光照及画幅比例 强调纹理细节以实现逼真效果[14] 风格化插画与贴纸 - 需明确艺术风格、关键特征及色板 白色背景需在提示词中特别声明[18] - 案例如卡哇伊风格的小熊猫贴纸 采用粗轮廓线和简单赛璐珞着色[19] 文字渲染应用 - 擅长生成含清晰文字的图像 需指定文字内容、字体风格及整体设计[22] - 模板包含图像类型、品牌概念及色彩方案 案例为黑白极简咖啡店logo[23] 产品模型与商业摄影 - 适用于电商及广告场景 强调高分辨率影棚灯光与特定角度[26] - 模板包含产品描述、背景表面及三点柔光箱设置 案例为混凝土台面上的陶瓷咖啡杯特写[27][28] 极简与留白设计 - 适用于网页及营销素材背景 主体位于画框特定位置并保留大量负空间[30] - 案例为右下角红枫叶与灰白背景的组合 采用顶部柔光照明[32] 连续性艺术创作 - 适用于漫画分镜及视觉叙事 需清晰描述场景角色及对话文本[35] - 模板包含艺术风格、前后景细节及情绪光照 案例为黑白 noir 风格侦探场景[36][37]
凌晨战神Qwen又搞事情!新模型让图像编辑“哪里不对改哪里”
量子位· 2025-08-19 15:21
Qwen-Image-Edit核心功能 - 支持点对点图像编辑,包括精准文字修改、新增/消除/重绘元素、IP编辑、视角切换、风格迁移等生成式玩法 [2] - 采用语义与外观双重编辑技术,结合Qwen2-5-VL和VAEEncoder实现视觉语义控制与外观控制 [67] - 在公开基准测试中展现SOTA性能,成为强大的图像编辑基础模型 [69] 原创IP编辑能力 - 以吉祥物卡皮巴拉为原型生成系列衍生形象,保持角色特性同时实现场景化创新 [8][10] - 实测中成功将熊形象调整为体操运动员造型,细节处理精准(手指数量、单杠形变) [11][13] 视角转换技术 - 支持90度/180度多角度旋转,实测WRC小瓦力模型后侧视角转换效果惊艳 [14][16][17] - 对非标准主视图(含俯视角度)仍能保持主体结构完整性 [17][19] 虚拟形象生成 - 可生成动漫/007/恶魔等多风格头像,3D卡通风格下眼镜框细节保留但存在全框化倾向 [20][21][26] - 复杂画风(如热血漫画)会出现线条凌乱现象 [23] 元素新增与修改 - 在颐和园实景照片中添加木质指示牌并生成倒影,高分辨率输入时主动降低输出分辨率 [29][32][34] - 低分辨率漫画测试中效果更优,成功添加"欢迎来到大海"标牌 [37] AI消除与重绘 - 精准去除头发丝等细小元素,支持复杂场景中单一元素颜色修改(如字母a黄变橙) [39][43][45] - 电商场景模拟表现优异,模特换装时手部/头发/光影处理自然 [46][47] 文字编辑技术 - 支持中英文双语编辑,可修改海报大字及细小文字(如AICoding→AIAgent) [49][50][54] - 链式编辑实现书法作品逐字/偏旁级修正,避免整图重生成 [56][60][62] 技术实现特点 - 一次出图即可完成多类编辑,虽存在色调/细节轻微变化但整体效果达标 [64] - 同时满足low-level外观编辑(像素级不变)与high-level语义编辑(整体像素可变)需求 [69]
Qwen新开源,把AI生图里的文字SOTA拉爆了
量子位· 2025-08-05 09:40
通义千问开源图像生成模型Qwen-Image - 通义千问开源200亿参数图像生成基础模型Qwen-Image,采用MMDiT架构,是系列中首个图像生成基础模型[3][4] - 模型主打复杂文本渲染能力,能准确生成包含复杂图文混合布局的图像,文字准确度和契合度高[5][6] - 支持生成海报、PPT、商品宣传图等多种应用场景,文字渲染能力突出[8][16][22] Qwen-Image核心能力 - 具备复杂文本渲染能力,支持多行布局、段落级文本生成和细粒度细节呈现,中英文均能高保真输出[28] - 拥有一致性图像编辑能力,支持风格迁移、增删改、细节增强、文字编辑等多种操作[27] - 采用渐进式训练策略,从非文字到文字渲染逐步过渡,增强原生文字渲染能力[34] 性能表现 - 在多个公开基准测试中实现SOTA,包括通用图像生成的GenEval、DPG和OneIG-Bench等[29][30] - 在文本渲染基准LongText-Bench、ChineseWord和TextCraft上表现尤为出色,中文文本渲染大幅领先现有最先进模型[32][33] 实测效果 - 情境插画生成效果优秀,文字与画面融合度高,细节氛围感强[11][13][14] - 能准确理解提示词生成PPT和海报,主体文字和图中图符合要求[16][18][20] - 商品宣传图生成中能准确对应文字与画面元素[22][24]
图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成
量子位· 2025-06-30 08:38
模型概述 - Black Forest Labs开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,可在消费级芯片上运行[1] - 模型仅12B参数,推理速度快,性能媲美GPT-image-1等闭源模型[2] - 支持多种图像编辑功能:移除对象(如小狗)、添加元素(如胡须、文字)、修改背景等[3][5] 核心功能 - 直接根据指令更改现有图像,支持精确的本地和全局编辑[6] - 无需微调即可引用原图的人物角色、风格样式和物品元素[6] - 允许用户通过多次连续编辑优化图像,视觉漂移最小化[6] - 专门为NVIDIA Blackwell架构进行权重优化[6][39] 技术架构 - 基于FLUX.1模型,采用双流块和单流块混合架构,在图像自动编码器潜在空间中训练[23] - 通过标记序列构建(冻结FLUX编码器生成潜在标记)和3D RoPE位置信息编码优化[27][31] - 采用潜在对抗扩散蒸馏(LADD)技术,减少采样步骤同时提升样本质量[30] 性能表现 - 在自研KontextBench基准测试中(1026个图像-提示对),优于Bytedance Bagel、HiDream-E1-Full及GPT-image-1等模型[37] - 在NVIDIA H100 GPU上5秒内完成推理,Replicate平台单次成本0.0067USD(1USD可运行149次)[41] - 推理速度较前代提升4-5倍,但MacBook Pro芯片运行时需1分钟/次[41] 商业化版本 - 已发布专业版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max][21] - 提供BF16/FP8/FP4 TensorRT权重变体,适配不同硬件需求[41] 用户生态 - 网友开发出Kontext风格化肖像制作APP(结合LoRA技术)[17] - 官方开放试玩API,支持直接上传图片体验[19][42]
字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%
量子位· 2025-05-07 17:33
技术突破 - 字节开源图像编辑新方法SuperEdit,性能比当前SOTA方法提高9.19%,仅使用1/30训练数据和1/13参数规模模型 [1] - 该方法无需额外预训练任务和架构修改,通过多模态模型(如GPT-4o)纠正编辑指令实现效果提升 [2] - 核心创新在于解决现有图像编辑模型中监督信号噪声问题,通过构建更有效编辑指令提升效果 [3] 技术原理 - 现有图像编辑数据集存在大量噪声监督信号,导致AI学习时指令与编辑效果不匹配 [9][11][12] - 利用GPT-4o观察原始/编辑图像差异,生成更准确编辑指令,分阶段关注全局布局/局部属性/图像细节变化 [17][19] - 构建对比监督机制,通过替换单词生成正负样本,帮助模型理解细微指令差异 [22][23][27] 性能表现 - 在Real-Edit基准测试中,SuperEdit以69.7%整体准确率和3.91评分超越SmartEdit的58.3%和3.59 [25] - 人工评估显示在指令遵循度(67%准确率)、内容保留(77%)和图像质量(65%)三个指标全面领先 [28] - 对比表中显示SuperEdit使用40K训练数据和1B参数规模即实现最优效果 [26] 应用前景 - 方法已开源数据和模型,计划扩展到更多视觉生成任务 [4][31] - 当前局限在于处理复杂指令和密集对象场景仍有困难 [29] - 大量调用GPT-4o可能产生额外成本,需优化实现方案 [30]
美图公司AI视觉领域竞争力升级:七项图像编辑成果出炉
证券日报· 2025-04-09 16:40
文章核心观点 美图公司旗下美图影像研究院联合多所高校的七项研发成果入选顶级学术会议,聚焦图像编辑领域,多项技术已落地应用,公司在核心视觉领域竞争力提升,未来增长潜力值得期待 [2][4] 研发成果入选情况 - 五项研发成果入选IEEE国际计算机视觉与模式识别会议CVPR 2025,投稿超13000篇,录用比例22.1% [2] - 两项研发成果入选国际人工智能促进协会主办的顶级学术会议AAAI 2025,收到12957篇有效投稿,录取率23.4% [2] 研发成果领域分布 - 三项生成式AI技术成果、三项分割技术成果和一项3D重建技术成果 [2] 技术成果落地应用 - 生成式AI技术GlyphMastero落地美图秀秀无痕改字功能 [3] - 生成式AI技术MTADiffusion落地AI素材生成器WHEE [3] - 生成式AI技术StyO落地美图秀秀AI创意和美颜相机AI玩法 [4] - 三项分割领域技术突破应用于电商设计、图像编辑与处理、人像美化等场景 [4] - 3D重建成果EVPGS在新视角生成、增强现实、3D内容生成、虚拟数字人等领域应用需求激增 [4] 公司发展情况 - 基于长期储备的AI能力,深度结合前沿技术,打造多款行业领先的影像与设计AI应用 [4] - 核心视觉领域竞争力持续提升,驱动旗下产品能力迭代,带动用户粘性和付费意愿提升 [4]