智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

核心技术突破：EditScore奖励模型 - 北京智源人工智能研究院VectorSpace Lab团队发布高保真奖励模型系列EditScore，旨在解决指令引导图像编辑领域缺乏精确奖励信号的核心瓶颈[2] - EditScore模型系列提供精确可靠的奖励信号，为强化学习在AIGC领域的深入应用铺平道路，解锁其自我优化潜力[2] - 该模型系列分为7B、32B、72B三个尺寸，是专为指令图像编辑任务设计的高保真奖励模型[7] 系统性解决方案与基准建设 - 团队首先构建并开源了EditReward-Bench，这是业界首个专门为评估图像编辑奖励模型而设计的公开基准，涵盖13个子任务和11个当前最先进的编辑模型[6] - 在EditReward-Bench的指引下，团队精心策划数据并进行训练，成功开发出EditScore系列模型[7] - EditReward-Bench包含了专家级的人工标注，为衡量奖励信号的质量建立了黄金标准[6] 性能表现与竞争优势 - EditScore在EditReward-Bench上的表现媲美甚至超越了顶级的闭源视觉语言模型[9] - 通过有效的自集成策略，EditScore最大规模的模型在准确性上超过了GPT-5[9] - 在Overall指标上，EditScore-72B的Base得分为0.635，Avg@4得分为0.755，表现优异[8] - 在Scene场景任务中，EditScore-72B的PF指标Avg@4得分达到0.908，显著领先于其他模型[8] 实际应用价值验证 - EditScore可作为一流的重排序器来优化编辑输出，通过Best-of-N方式即时提升多种主流编辑模型的输出质量[15] - 作为高保真奖励信号，EditScore成功解锁了在线强化学习在图像编辑领域的应用[15] - 将EditScore-7B应用于OmniGen2模型的Flow-GRPO微调后，OmniGen2在GEdit基准上的得分从6.28提升至6.83[15] 重要研究发现与行业洞见 - 研究发现奖励模型的打分准确性并非决定强化学习训练效果的唯一因素，输出分数的分布形态也至关重要[16] - 对于生成式奖励模型，通过多次推理取均值的自集成扩展策略在提升性能方面的效果可能优于单纯扩大模型参数量[19] - 实验显示GPT-4.1作为标注者时，其对应的OmniGen2策略性能得分为6.375，而GPT-5对应的策略性能为6.292[17] 开源贡献与生态建设 - EditScore模型系列和EditReward-Bench数据集现已全面开源，同时经过强化学习微调的OmniGen2-EditScore7B模型也已同步开放[3] - 团队后续将陆续发布应用于OmniGen2的强化学习训练代码，以及针对多个模型的Best-of-N推理脚本[3] - 此次开源旨在促进未来在奖励建模、策略优化和人工智能驱动的模型改进等领域的研究[3]