Workflow
FLUX.1 Kontext[max]
icon
搜索文档
图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成
量子位· 2025-06-30 08:38
模型概述 - Black Forest Labs开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,可在消费级芯片上运行[1] - 模型仅12B参数,推理速度快,性能媲美GPT-image-1等闭源模型[2] - 支持多种图像编辑功能:移除对象(如小狗)、添加元素(如胡须、文字)、修改背景等[3][5] 核心功能 - 直接根据指令更改现有图像,支持精确的本地和全局编辑[6] - 无需微调即可引用原图的人物角色、风格样式和物品元素[6] - 允许用户通过多次连续编辑优化图像,视觉漂移最小化[6] - 专门为NVIDIA Blackwell架构进行权重优化[6][39] 技术架构 - 基于FLUX.1模型,采用双流块和单流块混合架构,在图像自动编码器潜在空间中训练[23] - 通过标记序列构建(冻结FLUX编码器生成潜在标记)和3D RoPE位置信息编码优化[27][31] - 采用潜在对抗扩散蒸馏(LADD)技术,减少采样步骤同时提升样本质量[30] 性能表现 - 在自研KontextBench基准测试中(1026个图像-提示对),优于Bytedance Bagel、HiDream-E1-Full及GPT-image-1等模型[37] - 在NVIDIA H100 GPU上5秒内完成推理,Replicate平台单次成本0.0067USD(1USD可运行149次)[41] - 推理速度较前代提升4-5倍,但MacBook Pro芯片运行时需1分钟/次[41] 商业化版本 - 已发布专业版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max][21] - 提供BF16/FP8/FP4 TensorRT权重变体,适配不同硬件需求[41] 用户生态 - 网友开发出Kontext风格化肖像制作APP(结合LoRA技术)[17] - 官方开放试玩API,支持直接上传图片体验[19][42]