Workflow
图像编辑
icon
搜索文档
美团开源LongCat-Image模型,在文生图与图像编辑核心能力上逼近更大尺寸的头部模型
新浪财经· 2025-12-08 15:24
公司动态 - 美团LongCat团队于12月8日宣布开源其最新研发的LongCat-Image模型 [1] - 该模型参数规模为6B,通过高性能模型架构设计、系统性的训练策略和数据工程实现 [1] - 模型在文生图与图像编辑核心能力上逼近更大尺寸的头部模型 [1] 技术优势 - LongCat-Image采用文生图与图像编辑同源的架构,结合渐进式学习策略 [1] - 在客观基准测试中,其图像编辑得分与中文渲染能力均领跑参评模型 [1] - 在文生图任务上,GenEval与DPG-Bench的表现证明其相比头部开源与闭源模型具备强竞争力 [1] 市场定位 - 该模型旨在为开发者与产业界提供“高性能、低门槛、全开放”的选择 [1]
图像编辑缺训练数据?直接从视频中取材,仅用1%训练数据实现近SOTA效果
量子位· 2025-12-06 11:21
文章核心观点 - 百度研究团队提出了一种名为Video4Edit的创新图像编辑方法,该方法将图像编辑任务重新定义为视频生成的一种特殊退化形式,通过利用视频预训练模型中的单帧演化先验,实现了从视频生成到图像编辑的知识迁移,从而在仅需主流编辑模型约1%监督数据的情况下,达到与当前第一梯队模型相当的性能[1][21] 行业背景与现有挑战 - 当前基于扩散模型的图像编辑方法严重依赖大规模、高质量的三元组数据进行训练,数据成本高昂且难以覆盖多样化的用户编辑意图[3] - 现有方法在结构保持与纹理修改之间存在根本性的权衡难题,过度强调结构保持会限制编辑灵活性,而追求大幅度的语义修改又容易导致几何失真[3] 技术原理与创新 - 将图像编辑任务重新定义为视频生成的特殊退化形式,即把源图像视为视频第0帧,编辑后图像视为第1帧,从而将图像编辑建模为一个2帧的极短视频生成过程[4][6] - 利用视频预训练模型中蕴含的单帧演化先验,该先验包含了强大的时序一致性约束和帧间演化规律,天然地平衡了结构保持与语义变化[7] - 通过时间退化建模,将图像编辑过程视为从t=0到t=1的时序演化,使结构保持约束转化为视频生成中成熟的时间注意力机制,该机制天然倾向于在相邻帧之间保持高频细节和几何结构[8][9] - 在潜在空间中,将视频模型学习到的转移概率分布通过文本指令进行条件化引导,从而将通用的时序演化能力导向特定的编辑意图,实现了参数的高效复用[11][12] - 从信息论角度看,引入视频先验极大地降低了假设空间的熵,提供了更强的有效泛化能力,使得基于时序演化的微调具有更高的样本效率[15][16] 数据效率与性能 - Video4Edit仅需主流编辑模型约1%的监督数据即可收敛,使用的监督数据量约为MagicEdit等基线方法的1%[1][21] - 在CLIP Score和Structure Score等关键评估指标上,Video4Edit与使用全量数据的基线方法性能相当,部分场景下实现了性能提升[21] 应用效果展示 - Video4Edit在风格迁移、物体替换和属性修改等多种图像编辑任务上进行了系统性评估[17] - 在风格迁移任务中,能够准确捕捉目标风格特征,同时有效保留源图像的结构信息[19] - 在物体替换任务中,实现了自然的语义融合,边缘处理质量高,无明显伪影[19] - 对于复杂的自然语言编辑指令,能够准确理解语义意图并生成符合要求的编辑结果,表明单帧演化先验在语义对齐方面具有良好的泛化能力[19]
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑
机器之心· 2025-11-02 16:01
核心观点 - UniLIP模型通过创新的两阶段重建训练与自蒸馏损失,解决了统一多模态模型中语义理解与像素重建能力的内在权衡矛盾,在保持甚至提升理解性能的同时实现了卓越的图像重建、生成和编辑能力 [4][5][32] 方法创新 - 提出两阶段训练方案:第一阶段冻结CLIP,仅训练像素解码器和投影层进行解码器对齐;第二阶段通过自蒸馏方法共同训练CLIP,在注入像素细节的同时保留原始语义特征 [9][11] - 训练目标函数结合了MSE损失、LPIPS损失和自蒸馏约束,确保特征不偏离原始分布 [9][11] - 设计双条件架构,在查询嵌入之外引入MLLM的多模态隐藏状态作为第二个条件,共同引导DiT的交叉注意力模块,有效补充像素级信息 [17][18] 技术优势 - 实现32倍高保真图像压缩,并能通过轻量级解码器高质量恢复 [12] - 继承CLIP的强文本对齐能力,确保对文本指令的精准响应 [12] - 特征表示同时编码高级语义与像素细节,为高保真编辑提供完整信息 [13] - 在256x256分辨率下取得rFID 0.79、PSNR 22.99、SSIM 0.747;在448x448分辨率下取得rFID 0.31、PSNR 24.62、SSIM 0.788,超越此前量化方法 [22] 模型性能 多模态理解 - UniLIP-1B在MME-P基准得分1499,MMBench得分72.6,MMVP得分68.7,AI2D得分70.7,TextVOA得分74.7 [14][24] - UniLIP-3B在MME-P基准得分1636,MMBench得分80.7,MMVP得分73.0,实现同规模最好理解性能,超越Tar(7B)和VILA-U(7B)等更大模型 [24] 图像生成 - UniLIP-1B在GenEval基准Overall得分0.88,Counting得分0.83,Position得分0.83;WISE基准Overall得分0.56,Cultural得分0.54,Biology得分0.50 [25] - UniLIP-3B在GenEval基准Overall得分0.90,Counting得分0.84,Position得分0.86;WISE基准Overall得分0.63,Cultural得分0.66,Biology得分0.60,达到与BAGEL等更大模型相当水平 [25][26] 图像编辑 - UniLIP-1B在ImgEdit-Bench总体得分3.81,在Add、Adjust、Replace、Remove等子任务表现优异 [27] - UniLIP-3B总体得分3.94,超越OmniGen2(3.44)等先进模型,归功于特征的丰富细节与精准语义对齐能力 [27] 模型架构与训练 - 包括1B和3B两个参数变体,分别由InternVL3与SANA集成而来 [20] - 采用InternVL3的InternViT作为CLIP编码器,结合DC-AE像素解码器,连接器设计为6层 [20] - 生成训练数据来自BLIP3-o的38M预训练数据和60k指令微调数据;编辑预训练数据来自GPT-Image-Edit-1.5M,指令微调数据来自46K的ShareGPT-4o-Image [21] 行业意义 - 为下一代统一多模态模型提供了新的技术范式,成功解决了理解与生成任务间的固有矛盾 [32] - 仅用较小参数规模即实现超越更大模型的性能,在计算效率和应用部署方面具有显著优势 [5][24]
在夹缝中生存12年,他终于打造了国产AI活跃用户数第一的产品|WAVES
36氪· 2025-10-31 01:47
公司概况 - 公司为成都的图像编辑与AI应用公司Fotor,创始人为段江 [1] - 产品Fotor是一款月活用户过千万的AI应用,常年位列AI应用出海榜中国前列 [1] - 公司成立于约12年前,最初定位为“轻量Photoshop”,后转型AI图像生成 [1][4] 用户与市场表现 - 用户规模在生成式AI功能上线后翻了七倍 [1][4] - 月活用户超过千万,并实现规模化盈利 [1] - 核心市场为英语国家(美国、英国、加拿大、澳大利亚、新西兰),这五个国家贡献公司80%的收入,占海外用户流量的40% [6] - 通过AI Image Generator、AI Art Generator等关键词搜索获客,用户画像广泛,涵盖专业用户和普通消费者 [9] 产品与技术发展 - 2022年8月,公司暂停所有项目,基于开源的Stable Diffusion,利用自身积累的高质量图片数据,在两个月内上线文生图功能 [3][4] - 产品功能丰富,包含AI图像生成、图像处理(PS)、平面设计等几十个功能,旨在打造一站式平台 [9] - 2024年3月上线一站式AI长视频平台Clipfly,集合AI视频生成、增强、编辑等功能,但视频生成部分采用简单开源方案,未大规模投入 [7][8] - 当前战略是打造“AI剪映”,重点放在工作流建设而非核心技术自研 [7][8] 融资与财务历程 - 2012年获得联想系资本300万美元融资 [4] - 2017年第一轮融资用完,在几乎被所有风投拒绝后,从免费转向付费模式,随后实现盈利并获得广发证券2500万人民币的B轮融资 [2][5] - 在用户量爆发前,公司曾应投资人要求进行股份回购,几乎耗尽账面现金 [2][4] - 用户爆发后,公司回绝超过100家投资机构,因已积累大量现金并实现月度盈利 [7] 战略选择与竞争定位 - 创立初期因资金远少于竞争对手(如美图),选择避开国内移动端红海市场,主攻海外PC端,依靠SEO获客 [4][5] - 七年前因融资困难被迫提前开启付费模式,意外发现海外用户付费意愿较高 [2][5] - 在AI视频生成领域,面对Sora等强大竞争对手,公司选择暂避锋芒,回归自身在图像工具和工作流方面的舒适区 [7][8] - 公司定位为将AIGC与传统图像工具结合的产品公司,学习字节跳动的“App工厂”模式,通过不断增加功能来吸引和留住用户 [9]
刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
机器之心· 2025-09-03 16:33
文章核心观点 - 谷歌Nano Banana模型通过优化提示词设计显著提升图像生成能力 官方发布六类文本转图像提示模板以最大化模型潜力[8][11] - 用户通过创意提示词实现多样化应用场景 包括产品摄影、风格化插画、文字渲染、商业摄影、极简设计及连续性艺术创作[3][6][16] - 模型在图像编辑一致性和稳定性方面存在技术局限 部分场景下表现不及Qwen和Kontext Pro等竞品[39] 提示词模板分类总结 照片级写实场景 - 需包含机位角度、镜头类型、光线及细节描写 例如使用85mm肖像镜头生成带有景深效果的垂直人像[13][15] - 模板结构包含拍摄类型、主体动作、环境光照及画幅比例 强调纹理细节以实现逼真效果[14] 风格化插画与贴纸 - 需明确艺术风格、关键特征及色板 白色背景需在提示词中特别声明[18] - 案例如卡哇伊风格的小熊猫贴纸 采用粗轮廓线和简单赛璐珞着色[19] 文字渲染应用 - 擅长生成含清晰文字的图像 需指定文字内容、字体风格及整体设计[22] - 模板包含图像类型、品牌概念及色彩方案 案例为黑白极简咖啡店logo[23] 产品模型与商业摄影 - 适用于电商及广告场景 强调高分辨率影棚灯光与特定角度[26] - 模板包含产品描述、背景表面及三点柔光箱设置 案例为混凝土台面上的陶瓷咖啡杯特写[27][28] 极简与留白设计 - 适用于网页及营销素材背景 主体位于画框特定位置并保留大量负空间[30] - 案例为右下角红枫叶与灰白背景的组合 采用顶部柔光照明[32] 连续性艺术创作 - 适用于漫画分镜及视觉叙事 需清晰描述场景角色及对话文本[35] - 模板包含艺术风格、前后景细节及情绪光照 案例为黑白 noir 风格侦探场景[36][37]
凌晨战神Qwen又搞事情!新模型让图像编辑“哪里不对改哪里”
量子位· 2025-08-19 15:21
Qwen-Image-Edit核心功能 - 支持点对点图像编辑,包括精准文字修改、新增/消除/重绘元素、IP编辑、视角切换、风格迁移等生成式玩法 [2] - 采用语义与外观双重编辑技术,结合Qwen2-5-VL和VAEEncoder实现视觉语义控制与外观控制 [67] - 在公开基准测试中展现SOTA性能,成为强大的图像编辑基础模型 [69] 原创IP编辑能力 - 以吉祥物卡皮巴拉为原型生成系列衍生形象,保持角色特性同时实现场景化创新 [8][10] - 实测中成功将熊形象调整为体操运动员造型,细节处理精准(手指数量、单杠形变) [11][13] 视角转换技术 - 支持90度/180度多角度旋转,实测WRC小瓦力模型后侧视角转换效果惊艳 [14][16][17] - 对非标准主视图(含俯视角度)仍能保持主体结构完整性 [17][19] 虚拟形象生成 - 可生成动漫/007/恶魔等多风格头像,3D卡通风格下眼镜框细节保留但存在全框化倾向 [20][21][26] - 复杂画风(如热血漫画)会出现线条凌乱现象 [23] 元素新增与修改 - 在颐和园实景照片中添加木质指示牌并生成倒影,高分辨率输入时主动降低输出分辨率 [29][32][34] - 低分辨率漫画测试中效果更优,成功添加"欢迎来到大海"标牌 [37] AI消除与重绘 - 精准去除头发丝等细小元素,支持复杂场景中单一元素颜色修改(如字母a黄变橙) [39][43][45] - 电商场景模拟表现优异,模特换装时手部/头发/光影处理自然 [46][47] 文字编辑技术 - 支持中英文双语编辑,可修改海报大字及细小文字(如AICoding→AIAgent) [49][50][54] - 链式编辑实现书法作品逐字/偏旁级修正,避免整图重生成 [56][60][62] 技术实现特点 - 一次出图即可完成多类编辑,虽存在色调/细节轻微变化但整体效果达标 [64] - 同时满足low-level外观编辑(像素级不变)与high-level语义编辑(整体像素可变)需求 [69]
Qwen新开源,把AI生图里的文字SOTA拉爆了
量子位· 2025-08-05 09:40
通义千问开源图像生成模型Qwen-Image - 通义千问开源200亿参数图像生成基础模型Qwen-Image,采用MMDiT架构,是系列中首个图像生成基础模型[3][4] - 模型主打复杂文本渲染能力,能准确生成包含复杂图文混合布局的图像,文字准确度和契合度高[5][6] - 支持生成海报、PPT、商品宣传图等多种应用场景,文字渲染能力突出[8][16][22] Qwen-Image核心能力 - 具备复杂文本渲染能力,支持多行布局、段落级文本生成和细粒度细节呈现,中英文均能高保真输出[28] - 拥有一致性图像编辑能力,支持风格迁移、增删改、细节增强、文字编辑等多种操作[27] - 采用渐进式训练策略,从非文字到文字渲染逐步过渡,增强原生文字渲染能力[34] 性能表现 - 在多个公开基准测试中实现SOTA,包括通用图像生成的GenEval、DPG和OneIG-Bench等[29][30] - 在文本渲染基准LongText-Bench、ChineseWord和TextCraft上表现尤为出色,中文文本渲染大幅领先现有最先进模型[32][33] 实测效果 - 情境插画生成效果优秀,文字与画面融合度高,细节氛围感强[11][13][14] - 能准确理解提示词生成PPT和海报,主体文字和图中图符合要求[16][18][20] - 商品宣传图生成中能准确对应文字与画面元素[22][24]
图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成
量子位· 2025-06-30 08:38
模型概述 - Black Forest Labs开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,可在消费级芯片上运行[1] - 模型仅12B参数,推理速度快,性能媲美GPT-image-1等闭源模型[2] - 支持多种图像编辑功能:移除对象(如小狗)、添加元素(如胡须、文字)、修改背景等[3][5] 核心功能 - 直接根据指令更改现有图像,支持精确的本地和全局编辑[6] - 无需微调即可引用原图的人物角色、风格样式和物品元素[6] - 允许用户通过多次连续编辑优化图像,视觉漂移最小化[6] - 专门为NVIDIA Blackwell架构进行权重优化[6][39] 技术架构 - 基于FLUX.1模型,采用双流块和单流块混合架构,在图像自动编码器潜在空间中训练[23] - 通过标记序列构建(冻结FLUX编码器生成潜在标记)和3D RoPE位置信息编码优化[27][31] - 采用潜在对抗扩散蒸馏(LADD)技术,减少采样步骤同时提升样本质量[30] 性能表现 - 在自研KontextBench基准测试中(1026个图像-提示对),优于Bytedance Bagel、HiDream-E1-Full及GPT-image-1等模型[37] - 在NVIDIA H100 GPU上5秒内完成推理,Replicate平台单次成本0.0067USD(1USD可运行149次)[41] - 推理速度较前代提升4-5倍,但MacBook Pro芯片运行时需1分钟/次[41] 商业化版本 - 已发布专业版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max][21] - 提供BF16/FP8/FP4 TensorRT权重变体,适配不同硬件需求[41] 用户生态 - 网友开发出Kontext风格化肖像制作APP(结合LoRA技术)[17] - 官方开放试玩API,支持直接上传图片体验[19][42]
字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%
量子位· 2025-05-07 17:33
技术突破 - 字节开源图像编辑新方法SuperEdit,性能比当前SOTA方法提高9.19%,仅使用1/30训练数据和1/13参数规模模型 [1] - 该方法无需额外预训练任务和架构修改,通过多模态模型(如GPT-4o)纠正编辑指令实现效果提升 [2] - 核心创新在于解决现有图像编辑模型中监督信号噪声问题,通过构建更有效编辑指令提升效果 [3] 技术原理 - 现有图像编辑数据集存在大量噪声监督信号,导致AI学习时指令与编辑效果不匹配 [9][11][12] - 利用GPT-4o观察原始/编辑图像差异,生成更准确编辑指令,分阶段关注全局布局/局部属性/图像细节变化 [17][19] - 构建对比监督机制,通过替换单词生成正负样本,帮助模型理解细微指令差异 [22][23][27] 性能表现 - 在Real-Edit基准测试中,SuperEdit以69.7%整体准确率和3.91评分超越SmartEdit的58.3%和3.59 [25] - 人工评估显示在指令遵循度(67%准确率)、内容保留(77%)和图像质量(65%)三个指标全面领先 [28] - 对比表中显示SuperEdit使用40K训练数据和1B参数规模即实现最优效果 [26] 应用前景 - 方法已开源数据和模型,计划扩展到更多视觉生成任务 [4][31] - 当前局限在于处理复杂指令和密集对象场景仍有困难 [29] - 大量调用GPT-4o可能产生额外成本,需优化实现方案 [30]
美图公司AI视觉领域竞争力升级:七项图像编辑成果出炉
证券日报· 2025-04-09 16:40
文章核心观点 美图公司旗下美图影像研究院联合多所高校的七项研发成果入选顶级学术会议,聚焦图像编辑领域,多项技术已落地应用,公司在核心视觉领域竞争力提升,未来增长潜力值得期待 [2][4] 研发成果入选情况 - 五项研发成果入选IEEE国际计算机视觉与模式识别会议CVPR 2025,投稿超13000篇,录用比例22.1% [2] - 两项研发成果入选国际人工智能促进协会主办的顶级学术会议AAAI 2025,收到12957篇有效投稿,录取率23.4% [2] 研发成果领域分布 - 三项生成式AI技术成果、三项分割技术成果和一项3D重建技术成果 [2] 技术成果落地应用 - 生成式AI技术GlyphMastero落地美图秀秀无痕改字功能 [3] - 生成式AI技术MTADiffusion落地AI素材生成器WHEE [3] - 生成式AI技术StyO落地美图秀秀AI创意和美颜相机AI玩法 [4] - 三项分割领域技术突破应用于电商设计、图像编辑与处理、人像美化等场景 [4] - 3D重建成果EVPGS在新视角生成、增强现实、3D内容生成、虚拟数字人等领域应用需求激增 [4] 公司发展情况 - 基于长期储备的AI能力,深度结合前沿技术,打造多款行业领先的影像与设计AI应用 [4] - 核心视觉领域竞争力持续提升,驱动旗下产品能力迭代,带动用户粘性和付费意愿提升 [4]