ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

多模态大模型情感智能的现状与挑战 - 多模态大模型（MLLMs）正在快速发展，但能否真正理解人类情绪仍是一个关键问题[2] - 人类情绪通过面部表情、语音语调、语言内容等多模态信息共同表达，仅依赖单一信息来源难以准确判断[2] - 情感智能正成为衡量多模态大模型能力的重要指标，但学界缺乏系统性的评测框架[2] MME-Emotion评测基准的提出 - 香港中文大学与阿里通义实验室团队提出了名为MME-Emotion的综合评测基准，该工作已被ICLR 2026接收[3] - 该基准旨在系统评估多模态大模型的情感智能水平，弥补现有评测的不足[2][3] MME-Emotion基准的核心特点 - 该基准是当前规模最大的多模态情感智能评测基准之一，包含约6500段视频片段及对应问答数据[5] - 覆盖27类真实场景，并设计了8类不同的情感任务，强调真实环境中的多模态信息融合能力[5] - 任务类型包括实验室/真实场景/噪声条件下的情绪识别、细粒度/多标签情绪识别、情感倾向分析、细粒度情感分析及意图识别[8] - 与以往工作相比，该基准同时评测情绪识别能力和情绪推理能力，要求模型不仅给出标签，还需指出支撑判断的线索[8] 统一的评测指标体系 - MME-Emotion提出了一套统一的评测指标体系，包括情绪识别得分、推理得分以及综合思维链得分[10] - 识别得分衡量情绪预测准确率，推理得分衡量推理过程的合理性，综合得分则同时反映识别与推理能力[10] - 研究团队设计了一套基于多智能体系统的自动评测流程，以支持大规模自动评测，并验证了自动评分与人工评分具有较高一致性[10][11] 主流模型评测结果分析 - 研究团队在MME-Emotion基准上评测了20个当前主流多模态大模型，包括开源和闭源模型[13] - 实验结果显示，即使是最先进的模型，在情感智能方面仍存在明显不足[13] - 表现最好的模型情绪识别得分不到40%，综合思维链得分也只有约56%，各模型在情绪识别任务上的整体平均表现仍处于较低水平[13] - 评测结果表明，多模态大模型在情感理解方面仍是一个具有挑战性的方向[13] 当前模型存在的典型问题 - 细粒度视觉理解能力不足：模型难以区分相似情绪（如恐惧与惊讶），源于对面部表情和细微动作变化理解不足[14] - 多模态信息融合能力有限：一些模型在需要同时结合语音和视觉信息时出现性能下降，说明处理多模态情感线索存在困难[15] - 推理能力与情绪识别能力相关：能够给出更完整推理过程的模型，其整体情感智能表现也更好，表明深入推理可能是提升情感智能的重要路径[16] 未来发展方向与行业价值 - 未来多模态情感智能的发展可能依赖几个关键方向：更高精度的视觉细节建模、更有效的语音与视觉信息融合方法、能解释情绪产生原因的推理机制[16] - 随着多模态大模型发展，情感智能有望成为人工智能系统的重要能力，在教育、人机交互和医疗辅助等应用场景中具有重要价值[16] - MME-Emotion的发布为多模态情感智能研究提供了统一的评测标准和清晰的参考基线[17]