Workflow
图像编辑
icon
搜索文档
赛道Hyper | Black Forest开源新模型:文本P图党福音
华尔街见闻· 2025-07-03 13:50
行业动态 - 开源平台Black Forest推出文生图模型FLUX 1-Kontext开发者版本 凭借自然语言指令实现图像编辑功能成为行业焦点 [1] - 该模型在人类偏好评估、指令编辑等多项关键指标优于OpenAI最新发布的GPT-image-1 标志着开源模型在高精度图像编辑领域取得新进展 [1] - 开源与闭源模型的博弈持续深化 开源属性显著降低企业应用门槛 [5] 技术架构 - FLUX 1-Kontext由自然语言解析、图像生成和多模态融合三个关键模块构成 [2] - 自然语言解析层采用改进型Transformer架构 配置8层自注意力机制 能对用户指令做深度语义拆分 [3] - 图像生成引擎基于改进版扩散模型(DPM-Solver++)构建 创新引入动态噪声调度机制 依据指令复杂程度自动调整去噪迭代次数 [4] - 多模态融合层借助预训练的CLIP模型与视觉Transformer 将768维文本特征向量与1024维图像特征向量进行动态匹配 [4] 竞争优势 - 支持本地化部署 以50人团队年生成10万张图像的场景测算 可节省60%以上服务器成本 [5] - 针对Stable Diffusion系列长文本解析能力弱的问题 支持最长512 tokens连续指令输入 对包含5个以上操作步骤指令的完成率超过50% [5] - 在艺术风格迁移方面 通过风格向量池机制预编码100种主流风格 用户只需输入风格名称即可快速调用对应参数 [5] 应用场景 - 在广告领域 伦敦数字营销公司BrandLab使用该模型后 产品图修改时间从2小时缩短至5分钟 人力成本降低约40% [6] - 设计教育领域变革 罗德岛设计学院2025年春季学期开设"AI指令设计"课程 学生可快速将创意转化为设计初稿 [6][7] - 未来有望在医疗、教育、娱乐等领域发挥作用 如生成医学影像、教学插图、游戏影视图像等 [10] 发展挑战 - 训练数据包含约1.2亿张互联网图像 存在侵权风险 [9] - 技术层面 模型在处理透明材质、复杂反光等物理效果时仍有不足 对中文指令的理解准确率比英文低15% [9] - 伦理风险显现 6月出现利用该模型制作虚假新闻图片的事件 现有水印嵌入防护技术易被破解 [9] 未来规划 - 下一版本将引入实时交互编辑功能 支持语音指令实时调整图像 同时将模型体积压缩至当前的20% [9] - 与多家博物馆合作训练艺术风格迁移专项模型 有望实现对达芬奇、毕加索等艺术家风格的精准复刻 [9] - 开源文生图模型"深耕垂直场景"策略 可能推动AI绘画市场从通用工具向行业解决方案转型 [9]
图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成
量子位· 2025-06-30 08:38
模型概述 - Black Forest Labs开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,可在消费级芯片上运行[1] - 模型仅12B参数,推理速度快,性能媲美GPT-image-1等闭源模型[2] - 支持多种图像编辑功能:移除对象(如小狗)、添加元素(如胡须、文字)、修改背景等[3][5] 核心功能 - 直接根据指令更改现有图像,支持精确的本地和全局编辑[6] - 无需微调即可引用原图的人物角色、风格样式和物品元素[6] - 允许用户通过多次连续编辑优化图像,视觉漂移最小化[6] - 专门为NVIDIA Blackwell架构进行权重优化[6][39] 技术架构 - 基于FLUX.1模型,采用双流块和单流块混合架构,在图像自动编码器潜在空间中训练[23] - 通过标记序列构建(冻结FLUX编码器生成潜在标记)和3D RoPE位置信息编码优化[27][31] - 采用潜在对抗扩散蒸馏(LADD)技术,减少采样步骤同时提升样本质量[30] 性能表现 - 在自研KontextBench基准测试中(1026个图像-提示对),优于Bytedance Bagel、HiDream-E1-Full及GPT-image-1等模型[37] - 在NVIDIA H100 GPU上5秒内完成推理,Replicate平台单次成本0.0067USD(1USD可运行149次)[41] - 推理速度较前代提升4-5倍,但MacBook Pro芯片运行时需1分钟/次[41] 商业化版本 - 已发布专业版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max][21] - 提供BF16/FP8/FP4 TensorRT权重变体,适配不同硬件需求[41] 用户生态 - 网友开发出Kontext风格化肖像制作APP(结合LoRA技术)[17] - 官方开放试玩API,支持直接上传图片体验[19][42]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测框架设计 - 基于三大知识范畴:事实性知识(颜色、数量等)、概念性知识(物理化学常识)、程序性知识(多步推理) [8] - 细分为7大推理维度和22种编辑任务覆盖全谱系难度 [6] - 样本总量1267对图像-指令由专家手工打磨数据来源多样化 [12] 评估指标与方法 - 首创四维度自动化评估:视觉一致性、视觉质量、指令跟随、知识合理性 [10][11][13] - 深度知识任务附带手工知识提示以验证模型理解能力 [11] - 评测10款模型包含3款闭源(GPT-Image-1等)和7款开源(OmniGen等) [14] 评测结果 - 闭源旗舰GPT-Image-1表现领先开源黑马BAGEL-Think在知识合理性上有提升但仍有差距 [17] - 多数模型在事实性知识(如数量变化)基础任务上表现欠佳 [17] - 所有模型在程序性推理、自然科学及多步骤合成任务上普遍失分 [17] 行业意义 - 推动图像编辑模型从像素搬运向具备认知能力的视觉智者进化 [16] - 未来目标是在模型中植入物理化学常识与因果推理实现真正的理解 [16]
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 11:30
核心观点 - 提出自回归模型InstaManip解决few-shot图像编辑难题 通过分组自注意力机制将学习过程分解为学习阶段和应用阶段 显著提升性能 [1][3][26] - 创新引入关系正则化策略 有效减少示例图片噪声干扰 提高模型鲁棒性 [17][26] - 在in-distribution和out-of-distribution设定下 CLIP-Dir指标分别达19.81和18.27 超越此前最优方法2.68和2.86个点 [20][26] 技术方法 模型架构 - 采用分组自注意力机制 将输入序列分为学习组(文字指令+示例图片+manipulation tokens)和应用组(manipulation tokens+输入图片) 分别对应神经科学中的知识抽象和应用阶段 [16][11] - 通过manipulation tokens存储图像变换特征 实现跨样本知识迁移 公式化为$\mathbb{P}(\mathbb{Z}|\mathbb{T},\mathbb{X}^{\prime},\mathbb{Y})\cdot\mathbb{P}(\mathbb{Y}|\mathbb{X},\mathbb{Z})$ [10][13] 训练优化 - 关系正则化强制变换特征相似性与文字指令相似性一致 使用MSE损失函数 降低无关视觉特征干扰 [17] - 消融实验显示分组自注意力使CLIP-Vis指标提升3.12个点 结合正则化后总提升达3.43个点 [22] 性能表现 基准测试 - 在in-distribution设定下 CLIP-Vis指标达32.39 较次优PromptDiffusion提升4.7个点 在out-of-distribution设定下保持28.23 [20] - 可视化对比显示模型能准确实现"汽车变兰博基尼"等复杂编辑 保留输入图片结构同时注入新特征 [19][23] 扩展性分析 - 示例图片数量从1组增至5组时 CLIP-Dir指标提升15% 多样性增加可使指标额外提升8% [24][25] - 单独使用文字指令或视觉示例时性能下降明显 CLIP-Vis指标分别降低4.37和9.43个点 [23]
字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%
量子位· 2025-05-07 17:33
数据和模型在Github上开源。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 字节开源图像编辑新方法,比当前SOTA方法 提高9.19%的性能 ,只用了 1/30的训练数据 和 1/13参数规模的模型 。 做到这一切无需额外预训练任务和架构修改,只需要让强大的多模态模型(如GPT-4o)来纠正编辑指令。 这一方法旨在解决现有图像编辑模型中监督信号有噪声的问题,通过构建更有效的编辑指令提升编辑效果。 团队发现了一个被忽视的关键问题: 现有的图像编辑数据集存在大量的噪声监督信号。 为什么AI编辑图像模型常常"理解错误" 当人们让AI"给照片中的男孩加一条粉色领带"时,AI可能会把皮肤颜色、衣服颜色也改变,或者完全重绘整张图片。 为什么会这样? 当前基于指令的图像编辑方法流行起来,但训练这类模型需要大量原始-编辑后图像对和指令,手动收集困难。 现有数据集通常使用各种自动化方法构建,导致指令与图像对之间的不匹配,产生有噪声的监督信号。 简单来说就是:AI在学习时,看到的指令和实际编辑效果对不上号,导致"学废了"。 如此一来,SuperEdit的方法就不是靠扩大参数规模或增加预训练算力,而是 专注于提高监督信 ...
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 15:12
阶跃星辰Step1X-Edit模型发布 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,性能达到开源体系SOTA水平,可与GPT-4o和Gemini 2 Flash等闭源模型媲美 [2] - Step1X-Edit由19B参数构成(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持和高精度区域级控制三项核心能力,支持11类高频图像编辑任务 [4] - 模型首次在开源体系中实现多模态语言理解与扩散图像生成的深度融合,通过自建高质量数据生成管道和GEdit-Bench基准评测,显著优于现有开源模型 [5] 技术架构与创新 - Step1X-Edit架构包含三大核心组件:多模态大型语言模型(MLLM)、连接模块以及扩散Transformer(DiT) [6] - 模型采用单次前向传递捕获文本与视觉语义关系,通过令牌精炼器重组嵌入特征,并引入全局视觉引导向量提升上下文感知能力 [10] - 训练阶段融合FLUX-Fill令牌连接机制,联合优化连接模块与DiT网络,采用Qwen与DiT预训练权重实现快速收敛 [10] 资源与赛事信息 - Step1X-Edit开源资源包括Github、HuggingFace和ModelScope平台,技术报告发布于arXiv [11][12][13] - AMD 2025 GPU挑战赛聚焦FP8 GEMM、MLA with ROPE和Fused MoE三大算子优化,总奖金10万美元,优胜者可受邀参加AMD Advancing AI Day活动 [14][15] - 赛事时间表显示注册截止为2025年4月30日,提交窗口分阶段开放,中国大陆参赛者需通过Github CLI工具提交 [17][18][19]
阶跃星辰开源图像编辑模型Step1X-Edit:一键改图大师,性能达到开源SOTA
Founder Park· 2025-04-27 12:05
模型发布与性能 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,总参数量19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 模型支持11类高频图像编辑任务,包括文字替换、风格迁移、材质变换、人物修图等,性能达到开源SOTA水平 [2][5] - Step1X-Edit在GEdit-Bench基准测试中,语义一致性、图像质量与综合得分三项指标全面领先开源模型,接近GPT-4o与Gemini 2.0 Flash [5][40] 核心技术架构 - 采用MLLM(多模态大语言模型)与DiT(Diffusion Transformer)解耦架构,分别负责自然语言理解与高保真图像生成 [29] - MLLM模块解析复杂指令生成latent控制信号,Diffusion模块执行图像重构与局部修改,提升指令泛化能力与图像可控性 [32] - 架构突破传统pipeline模型限制,实现"理解"与"生成"协同,复杂编辑任务准确性与控制力显著提升 [30] 训练数据与评测 - 构建2000万条图文指令三元组训练数据集,最终保留超100万高质量样本,覆盖11类核心任务且分布均衡 [34] - 在GEdit-Bench评测中,Step1X-Edit综合得分7.161(Intersection subset)和7.104(Full set),显著优于Instruct-Pix2Pix(4.655/4.576)等开源模型 [41] - 自研评测基准GEdit-Bench基于社区真实编辑请求设计,模型在11类细分任务中均保持高质量输出,通用性突出 [37][39] 应用场景与案例 - 支持自然语言驱动的复杂组合指令,如多轮编辑、文字识别重构,适用于虚拟人、电商模特等高一致性场景 [12] - 演示案例包括风格转换(如"戴珍珠耳环的少女")、物体替换(月饼变包子)、海报文案修改("GREEN"改"阶跃AI")等 [16][18][22] - 已上线阶跃AI官网(stepfun.com)和App,提供网页端与移动端体验 [6][13] 开发者生态 - 通过GitHub、HuggingFace、ModelScope等平台开源模型,提供技术报告与体验地址 [4] - Founder Park搭建开发者社群,提供模型测试、资源对接及产品宣传支持 [9][11]
阶跃星辰开源图像编辑模型Step1X-Edit
快讯· 2025-04-27 11:11
阶跃星辰开源图像编辑模型Step1X-Edit - 公司于4月27日宣布开源图像编辑大模型Step1X-Edit 性能达到开源SOTA水平 [1] - 模型总参数量为19B 包含7B MLLM和12B DiT两部分 [1] - 具备三项关键能力:语义精准解析 身份一致性保持 高精度区域级控制 [1] - 支持11类高频图像编辑任务 包括文字替换 风格迁移 材质变换 人物修图等 [1] 模型技术参数 - 总参数量19B 其中多模态大语言模型部分7B 扩散变换器部分12B [1] - 在开源图像编辑模型中参数量处于领先水平 [1] 功能应用场景 - 覆盖文字替换 风格迁移 材质变换 人物修图等高频使用场景 [1] - 支持11类不同图像编辑任务类型 应用范围广泛 [1]
美图公司AI视觉领域竞争力升级:七项图像编辑成果出炉
证券日报· 2025-04-09 16:40
文章核心观点 美图公司旗下美图影像研究院联合多所高校的七项研发成果入选顶级学术会议,聚焦图像编辑领域,多项技术已落地应用,公司在核心视觉领域竞争力提升,未来增长潜力值得期待 [2][4] 研发成果入选情况 - 五项研发成果入选IEEE国际计算机视觉与模式识别会议CVPR 2025,投稿超13000篇,录用比例22.1% [2] - 两项研发成果入选国际人工智能促进协会主办的顶级学术会议AAAI 2025,收到12957篇有效投稿,录取率23.4% [2] 研发成果领域分布 - 三项生成式AI技术成果、三项分割技术成果和一项3D重建技术成果 [2] 技术成果落地应用 - 生成式AI技术GlyphMastero落地美图秀秀无痕改字功能 [3] - 生成式AI技术MTADiffusion落地AI素材生成器WHEE [3] - 生成式AI技术StyO落地美图秀秀AI创意和美颜相机AI玩法 [4] - 三项分割领域技术突破应用于电商设计、图像编辑与处理、人像美化等场景 [4] - 3D重建成果EVPGS在新视角生成、增强现实、3D内容生成、虚拟数字人等领域应用需求激增 [4] 公司发展情况 - 基于长期储备的AI能力,深度结合前沿技术,打造多款行业领先的影像与设计AI应用 [4] - 核心视觉领域竞争力持续提升,驱动旗下产品能力迭代,带动用户粘性和付费意愿提升 [4]