Workflow
图像编辑大模型
icon
搜索文档
阶跃星辰开源图像编辑模型Step1X-Edit:一键改图大师,性能达到开源SOTA
Founder Park· 2025-04-27 12:05
模型发布与性能 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,总参数量19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 模型支持11类高频图像编辑任务,包括文字替换、风格迁移、材质变换、人物修图等,性能达到开源SOTA水平 [2][5] - Step1X-Edit在GEdit-Bench基准测试中,语义一致性、图像质量与综合得分三项指标全面领先开源模型,接近GPT-4o与Gemini 2.0 Flash [5][40] 核心技术架构 - 采用MLLM(多模态大语言模型)与DiT(Diffusion Transformer)解耦架构,分别负责自然语言理解与高保真图像生成 [29] - MLLM模块解析复杂指令生成latent控制信号,Diffusion模块执行图像重构与局部修改,提升指令泛化能力与图像可控性 [32] - 架构突破传统pipeline模型限制,实现"理解"与"生成"协同,复杂编辑任务准确性与控制力显著提升 [30] 训练数据与评测 - 构建2000万条图文指令三元组训练数据集,最终保留超100万高质量样本,覆盖11类核心任务且分布均衡 [34] - 在GEdit-Bench评测中,Step1X-Edit综合得分7.161(Intersection subset)和7.104(Full set),显著优于Instruct-Pix2Pix(4.655/4.576)等开源模型 [41] - 自研评测基准GEdit-Bench基于社区真实编辑请求设计,模型在11类细分任务中均保持高质量输出,通用性突出 [37][39] 应用场景与案例 - 支持自然语言驱动的复杂组合指令,如多轮编辑、文字识别重构,适用于虚拟人、电商模特等高一致性场景 [12] - 演示案例包括风格转换(如"戴珍珠耳环的少女")、物体替换(月饼变包子)、海报文案修改("GREEN"改"阶跃AI")等 [16][18][22] - 已上线阶跃AI官网(stepfun.com)和App,提供网页端与移动端体验 [6][13] 开发者生态 - 通过GitHub、HuggingFace、ModelScope等平台开源模型,提供技术报告与体验地址 [4] - Founder Park搭建开发者社群,提供模型测试、资源对接及产品宣传支持 [9][11]
阶跃星辰开源图像编辑模型Step1X-Edit
快讯· 2025-04-27 11:11
阶跃星辰开源图像编辑模型Step1X-Edit - 公司于4月27日宣布开源图像编辑大模型Step1X-Edit 性能达到开源SOTA水平 [1] - 模型总参数量为19B 包含7B MLLM和12B DiT两部分 [1] - 具备三项关键能力:语义精准解析 身份一致性保持 高精度区域级控制 [1] - 支持11类高频图像编辑任务 包括文字替换 风格迁移 材质变换 人物修图等 [1] 模型技术参数 - 总参数量19B 其中多模态大语言模型部分7B 扩散变换器部分12B [1] - 在开源图像编辑模型中参数量处于领先水平 [1] 功能应用场景 - 覆盖文字替换 风格迁移 材质变换 人物修图等高频使用场景 [1] - 支持11类不同图像编辑任务类型 应用范围广泛 [1]