图像编辑模型评测框架 - 在AIGC领域,图像编辑正取代一次性生成,成为检验多模态模型能力的关键场景[2] - 研究者提出了EdiVal-Agent,一个以对象为中心的自动化、细粒度多轮编辑评估框架[2] - 该框架能自动生成多样化编辑指令,并从指令遵循、内容一致性、视觉质量多维度进行精细评估[2] 现有评测方法的局限性 - 当前主流评测分为基于参考图像和基于大模型打分两类[6] - 基于参考图像的方法覆盖面有限,易继承旧模型偏差[6] - 基于大模型打分的方法存在空间理解差、细节不敏感、审美失准等问题,难以精确可靠衡量编辑质量[6] EdiVal-Agent的核心工作流程 - 第一步是对象识别与描述,自动识别图中所有可见对象并生成结构化描述,汇总成对象池[17] - 第二步是指令生成,覆盖9种编辑类型和6个语义类别,动态维护三个对象池[18][19] - 第三步是自动评测,从指令遵循、内容一致性和视觉质量三个维度评估模型表现[20][21] 评测指标设计 - EdiVal-IF衡量指令遵循能力,使用开放词汇检测器进行几何验证和语义核对[25] - EdiVal-CC测量未被编辑部分的一致性,计算背景区域与未修改对象之间的语义相似度[25] - EdiVal-VQ评估整体视觉质量,但因其是否应追求"美化"存在争议,未纳入最终评测指标[24][28] - 最终综合指标EdiVal-O通过几何平均融合EdiVal-IF和EdiVal-CC[22] 人类一致性验证 - EdiVal-Agent的指标EdiVal-IF与人类判断的平均一致率高达81.3%[31] - 传统评测方法表现明显更低,VLM-only为75.2%,CLIP-dir为68.9%[31] - 人工之间的一致率为85.5%,意味着EdiVal-Agent的表现已接近人类评测上限[32] 主流模型性能对比 - 在13个代表性模型评测中,Seedream 4.0在指令遵循能力上领先,最终评分排名第一[36] - Nano Banana在速度与质量上达成平衡,内容一致性尤为出色,排名第二[36] - GPT-Image-1指令遵循能力出色但因追求美观而牺牲一致性,位列第三[36] - Qwen-Image-Edit出现典型"曝光偏差",在开源模型中排名第一,总排名第六[37]
Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测
机器之心·2025-10-24 14:26