感知级图像理解
搜索文档
深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知
机器之心· 2026-01-08 10:06
核心观点 - 研究团队发布了UniPercept,这是首个统一了美学、质量、结构与纹理三个维度的感知级图像理解框架,旨在解决多模态大语言模型在理解“图像看起来怎么样”这一感知层面的不足 [3] - 该工作建立了层次化的感知属性定义系统,构建了大规模基准测试集UniPercept-Bench,并开发了一个通过领域自适应预训练和任务对齐强化学习训练的强基准模型 [5] - UniPercept在视觉评分和视觉问答任务上全面超越了包括GPT-4o在内的18个现有顶尖模型,并在下游应用中展示了作为生成模型奖励模型和评估指标的潜力 [28][33] 技术框架与基准 - **统一的感知评价体系**:UniPercept-Bench的定义体系分为3个领域、17个类别和44个细分准则,精细程度远超此前图像评估基准 [10] - **图像美学评估**:侧重于构图设计、视觉元素与结构、情感和整体视觉吸引力,关注图像是否“好看” [11] - **图像质量评估**:侧重于感知保真度和降质因素,如噪声、模糊、压缩伪影,回答图像是否“技术性达标” [11] - **图像结构与纹理评估**:首次系统化提出的维度,强调局部特征、几何规律性、材质属性和细节丰富度,回答图像的“场景、结构、纹理和构成与复杂程度” [11] - **任务与数据流水线**:基准支持视觉评分和视觉问答两种任务形式,并通过三阶段自动化流水线(初始生成、拒绝采样、人工精修)确保数据质量,其中拒绝采样阶段剔除了约40%的不合格样本 [17][24] 模型训练方法 - **两阶段训练框架**:采用领域自适应预训练和任务对齐强化学习对基础多模态模型进行持续演进 [21] - **领域自适应预训练**:整合了约80万个样本的大规模语料库,涵盖文本描述、结构化标注和数值评分,使模型习得跨领域的底层视觉特征 [22] - **任务对齐强化学习**:采用GRPO算法进行策略优化,并针对感知任务设计特定奖励函数 [23] - **视觉问答任务**:采用二元奖励,鼓励模型输出准确的离散答案 [23] - **视觉评分任务**:创新性地设计了自适应高斯软奖励,根据预测值与参考分数的偏差动态调整平滑系数,并引入评分Token策略以缓解模型生成数字时的幻觉倾向 [25] 性能表现 - **视觉评分表现**:在UniPercept-Bench上,UniPercept在美学、质量、结构三个领域均取得了最高的斯皮尔曼相关系数和皮尔逊相关系数,全面超越评估的18个模型 [29] - 例如,在美学评估的多个数据集上,UniPercept的平均SRCC/PLCC达到0.590/0.586,显著高于GPT-4o的0.431/0.410 [30] - 在结构与纹理评估的ISTA-10K数据集上,UniPercept的SRCC/PLCC为0.778/0.767,而GPT-4o仅为-0.003/0.116,填补了现有模型对细节纹理判断的空白 [30] - **视觉问答表现**:UniPercept在处理精细感知问题上展现出显著优势 [31] - 在图像美学评估领域,准确率超越GPT-4o约16个百分点 [31] - 在图像质量评估领域,展现出极强的对细微损伤的定位与判断能力 [31] - 在图像结构与纹理评估领域,准确率突破80%,能够准确分辨不同材质的表面特性 [31] - 总体准确率达到81.07%,显著高于GPT-4o的66.36% [32] 下游应用 - **作为生成模型的奖励模型**:整合进文生图模型的微调流水线,从美学、质量、结构纹理三个方面对生成模型进行优化,当三个维度的奖励信号协同作用时,生成的图像在视觉吸引力和技术保真度上均达到最优 [34][37] - **美学引导**:显著改善生成图像的构图平衡和光影和谐度 [36] - **质量引导**:增强图像细节的锐度和清晰度,减少常见的伪影干扰 [36] - **结构纹理引导**:丰富了场景的复杂程度、结构的丰富度、物体的表面肌理 [37] - **作为生成模型的评估指标**:可以从美学、质量、纹理与结构三方面对图像进行全方位评估,准确反映不同模型输出图像的表现 [38] - **生成图像“感知档案”**:不仅能给出评分,还能从美学、质量、纹理与结构三个方面针对具体维度给出详细的文字解析与结构化输出 [41]