字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%
量子位·2025-05-07 17:33
技术突破 - 字节开源图像编辑新方法SuperEdit,性能比当前SOTA方法提高9.19%,仅使用1/30训练数据和1/13参数规模模型 [1] - 该方法无需额外预训练任务和架构修改,通过多模态模型(如GPT-4o)纠正编辑指令实现效果提升 [2] - 核心创新在于解决现有图像编辑模型中监督信号噪声问题,通过构建更有效编辑指令提升效果 [3] 技术原理 - 现有图像编辑数据集存在大量噪声监督信号,导致AI学习时指令与编辑效果不匹配 [9][11][12] - 利用GPT-4o观察原始/编辑图像差异,生成更准确编辑指令,分阶段关注全局布局/局部属性/图像细节变化 [17][19] - 构建对比监督机制,通过替换单词生成正负样本,帮助模型理解细微指令差异 [22][23][27] 性能表现 - 在Real-Edit基准测试中,SuperEdit以69.7%整体准确率和3.91评分超越SmartEdit的58.3%和3.59 [25] - 人工评估显示在指令遵循度(67%准确率)、内容保留(77%)和图像质量(65%)三个指标全面领先 [28] - 对比表中显示SuperEdit使用40K训练数据和1B参数规模即实现最优效果 [26] 应用前景 - 方法已开源数据和模型,计划扩展到更多视觉生成任务 [4][31] - 当前局限在于处理复杂指令和密集对象场景仍有困难 [29] - 大量调用GPT-4o可能产生额外成本,需优化实现方案 [30]