Workflow
GPU算子优化
icon
搜索文档
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 15:12
阶跃星辰Step1X-Edit模型发布 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,性能达到开源体系SOTA水平,可与GPT-4o和Gemini 2 Flash等闭源模型媲美 [2] - Step1X-Edit由19B参数构成(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持和高精度区域级控制三项核心能力,支持11类高频图像编辑任务 [4] - 模型首次在开源体系中实现多模态语言理解与扩散图像生成的深度融合,通过自建高质量数据生成管道和GEdit-Bench基准评测,显著优于现有开源模型 [5] 技术架构与创新 - Step1X-Edit架构包含三大核心组件:多模态大型语言模型(MLLM)、连接模块以及扩散Transformer(DiT) [6] - 模型采用单次前向传递捕获文本与视觉语义关系,通过令牌精炼器重组嵌入特征,并引入全局视觉引导向量提升上下文感知能力 [10] - 训练阶段融合FLUX-Fill令牌连接机制,联合优化连接模块与DiT网络,采用Qwen与DiT预训练权重实现快速收敛 [10] 资源与赛事信息 - Step1X-Edit开源资源包括Github、HuggingFace和ModelScope平台,技术报告发布于arXiv [11][12][13] - AMD 2025 GPU挑战赛聚焦FP8 GEMM、MLA with ROPE和Fused MoE三大算子优化,总奖金10万美元,优胜者可受邀参加AMD Advancing AI Day活动 [14][15] - 赛事时间表显示注册截止为2025年4月30日,提交窗口分阶段开放,中国大陆参赛者需通过Github CLI工具提交 [17][18][19]