SuperEdit

搜索文档
字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%
量子位· 2025-05-07 17:33
数据和模型在Github上开源。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 字节开源图像编辑新方法,比当前SOTA方法 提高9.19%的性能 ,只用了 1/30的训练数据 和 1/13参数规模的模型 。 做到这一切无需额外预训练任务和架构修改,只需要让强大的多模态模型(如GPT-4o)来纠正编辑指令。 这一方法旨在解决现有图像编辑模型中监督信号有噪声的问题,通过构建更有效的编辑指令提升编辑效果。 团队发现了一个被忽视的关键问题: 现有的图像编辑数据集存在大量的噪声监督信号。 为什么AI编辑图像模型常常"理解错误" 当人们让AI"给照片中的男孩加一条粉色领带"时,AI可能会把皮肤颜色、衣服颜色也改变,或者完全重绘整张图片。 为什么会这样? 当前基于指令的图像编辑方法流行起来,但训练这类模型需要大量原始-编辑后图像对和指令,手动收集困难。 现有数据集通常使用各种自动化方法构建,导致指令与图像对之间的不匹配,产生有噪声的监督信号。 简单来说就是:AI在学习时,看到的指令和实际编辑效果对不上号,导致"学废了"。 如此一来,SuperEdit的方法就不是靠扩大参数规模或增加预训练算力,而是 专注于提高监督信 ...