VersaAnimator
搜索文档
HumanSense:探索多模态推理边界,打造「察言观色会共情」的全模态交互伙伴
机器之心· 2025-10-22 14:32
目前,该项目以及相关配套工作已在 GitHub 和 HuggingFace 开源,希望能吸引社区更多关注多模态大模型在以人为中心的交互场景的潜力,推动 AI 交互体验的 革新。 本文作者来自蚂蚁集团的多模态认知团队和西安交通大学的人机混合增强智能全国重点实验室。团队持续围绕多模态大模型、内容生成和全模态交互等前沿方向 进行研究,致力于构建领先的大模型基础能力和创新的交互应用体验。 在科幻作品描绘的未来,人工智能不仅仅是完成任务的工具,更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中,多模态大模型已展现出一 定潜力,可以接受视觉、语音等多模态的信息输入,结合上下文做出反馈。 然而,真正融洽的沟通,需要 AI 可以像人类一样从外貌、声音乃至表情动作中感知对方的个人特点和情绪状态,理解深层诉求,进而做出恰当回应。 现有工作对这类以人为中心场景的深入研究还较少见,既缺乏细粒度的评估,也限制了相关能力的优化。这导致在许多交互应用中「AI 感」依然常见,AI 助手们 听得懂语音却读不懂情绪,能回答问题却不理解用户的诉求,纵有一身本领却无法完整表达。 为了填补这一空白,蚂蚁集团与西安交通大学联合提出并开源了 ...