多模态情感理解技术突破 - "情智兼备"是新一代人工智能的重要发展方向,为迈向通用人工智能的关键一步,需精准解译多模态交互信息并深度挖掘人类情感状态 [1] - 快手可灵团队与南开大学提出模块化双工注意力范式,构建多模态模型'摩达'(MODA),在21个基准测试中实现显著性能提升,并被ICML 2025收录为焦点论文(Top 2.6%)[1][3] - 现有主流多模态大模型存在模态偏置问题,在二分类讽刺检测任务中准确率仅50%,跨模态注意力差异高达63% [4][7] 技术原理与创新 - 多模态注意力失调表现为文本模态过度关注(注意力分数差异达10倍)和逐层衰减(视觉模态信息被稀释) [7][8] - 模块化双工注意力通过Gram矩阵基向量实现跨模态语义迁移,将跨模态注意力差异率从56%-62%降低至41%-50% [10][13][25] - 双工注意力对齐包含V-Aligner和T-Aligner,通过核化映射函数增强模态间词元相似性 [14][15] 性能表现 - MODA-34B在知识问答任务中准确率达88.1%,超越GPT-4V(75.7%)和Gemini-1.5 Pro(58.5%) [25] - 在OCR与表格类任务中,MODA-8B以74.7%准确率领先同类模型,视觉能力类任务达73.8% [25] - 情感理解任务中MODA-8B的F1值达0.705,超过专用模型MMRole-9B(0.742) [25][28] 应用场景 - 可实时解析用户微表情、语调及文化特征,在心理咨询和虚拟偶像交互中动态调整策略 [31] - 已应用于快手可灵数据感知项目,提升情感变化检测和个性化推荐精度 [33] - 支持金融客服、沉浸式娱乐等领域的人格化服务,突破规则式应答局限 [31][33]
ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!
AI前线·2025-07-11 13:20