Workflow
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位·2025-06-13 13:07

研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测体系设计 - 基于三大知识范畴构建评测框架:事实性知识(颜色/数量/空间/时间)、概念性知识(物理/化学/生物常识)、程序性知识(多步操作与规则推理) [8] - 细分为7大推理维度和22种典型编辑任务覆盖全谱系难度包括物体计数变化、化学反应预测、多元素合成等 [6] - 样本总量1,267对图像-指令由专家团队手工打磨数据来源包含真实照片、开源基准、模型生成、3D渲染等多样分布 [12] 评估方法创新 - 首创四维度自动化评估指标:视觉一致性(非目标区域保持)、视觉质量(自然度)、指令跟随(完整性)、知识合理性(常识符合度) [10][11][13] - 深度知识任务附带手工知识提示辅助判断模型理解程度 [11] 模型评测结果 - 评估10款模型包含3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen/Emu2/BAGEL/Step1X-Edit等) [14] - 闭源旗舰GPT-Image-1表现领先开源模型BAGEL-Think通过引入推理过程提升知识合理性但仍落后闭源模型 [18] - 所有模型在程序性推理、自然科学及多步骤合成任务上表现不佳显示深层推理能力不足 [18] 行业影响 - 推动图像编辑模型从像素搬运向具备人类认知能力的视觉智者演进 [16] - 未来目标是在AI编辑中植入物理/化学/社会常识与因果推理实现真正的理解与预测 [16]