Workflow
FLUX.1 Kontext
icon
搜索文档
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
AI前线· 2025-05-30 13:38
公司动态 - Black Forest Labs(BFL)发布全新图像生成模型FLUX1 Kontext,支持文本和图像输入实现基于上下文的生成和编辑[1] - 该模型通过流匹配架构统一图像生成和编辑功能,在1MP分辨率下保持3~5秒交互速度,实现跨多轮编辑的顶尖字符一致性[3] - 公司推出BFL Playground供用户测试,并发布两个商业版本FLUX1 Kontext [pro]和[max],已在KreaAI等平台上线[3] 技术特性 - FLUX1 Kontext支持基于参考图像的上下文生成,避免从零开始创作[4] - 四大核心能力包括:角色一致性、局部编辑、风格迁移和低延迟输出(具体数值未披露)[7] - 采用流模型架构,与Diffusion模型技术路线不同,实现更灵活的噪声数据路径学习[19] - 在文生图基准测试中,模型在美观度、提示词遵循性等维度达到顶尖水平[20] 公司背景 - BFL成立于2023年8月,由Stable Diffusion核心开发者Robin Rombach创立,团队包含12名前Stability AI员工[6][14] - 已完成3100万美元种子轮融资,投资方包括General Catalyst和Andreessen Horowitz[6][15] - 目前团队规模30人,正在德国和美国招聘6个远程技术岗位[14] 产品矩阵 - FLUX1 Kontext [pro]定位快速迭代编辑,速度较先进模型快一个数量级[17] - [max]版本在保持速度的同时提升提示词遵循性和编辑一致性[17] - 即将推出12B参数的开放权重版本FLUX1 Kontext [dev][18] 市场反馈 - 用户实测显示模型可在10秒内完成头像生成/编辑,接近实拍效果[23] - 局部编辑能力获认可,能实现像素级修改(如添加绿龙案例)[28] - 此前发布的Flux 11 Pro模型已通过API集成至第三方应用[22] 行业竞争 - 需直面MidJourney、Adobe Firefly等成熟产品的竞争,后者已具备参考图编辑功能[17] - 技术路线差异化为竞争优势,流模型架构区别于主流Diffusion方案[19]
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
量子位· 2025-05-30 13:01
AI生图技术突破 - FLUX1 Kontext采用流匹配架构(Flow Matching)实现文本和图像输入的同步处理,突破传统文本编码器与扩散模型分离的技术路线[2] - 该模型由Black Forest Labs开发,具备真正的上下文生成和编辑能力,在奥特曼照片编辑和猩猩打羽毛球生成案例中展现细节丰富度[3][4][5] - 提供专业版(pro)和最高配版(max)两种型号,后者在提示遵循、文字排版和一致性方面有提升[7] 核心功能特性 - 角色一致性:支持跨场景保留人物特征,需通过详细描述保持面部、服饰等元素[11][28][29] - 局部编辑:可精准修改特定区域而不影响其他部分,复杂编辑需分步骤描述[11][15][18] - 风格迁移:需具体到艺术流派或艺术家特征,模糊描述会导致效果偏差[19][20] - 文本编辑:支持增删改文本,但需注意字体易读性和文本长度匹配[22][24][25] 技术性能比较 - 第三方测试显示FLUX1 Kontext在图像质量上优于OpenAI的GPT-4o,且成本更低、无偏色问题[12] - 当前文生图领域排名前三为GPT-4o、Seedream 30和Recraft V3,FLUX1前代产品已落后[34][35] 使用优化建议 - 编辑场景时需明确摄像机角度等构图要素,动词选择需具体化(如"换衣服"优于"改造")[32][37] - 复杂修改应分解为小步骤,通过"保持原始构图"等短语保护关键元素[37] - 颜色和视觉元素需精准命名,避免模糊表述,文本编辑需使用引号标注[37]