VersaAnimator - 财报，业绩电话会，研报，新闻

VersaAnimator

搜索文档

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

机器之心· 2025-10-22 14:32

文章核心观点 - 蚂蚁集团与西安交通大学联合提出并开源了HumanSense项目，旨在解决多模态大模型在以人为中心的交互场景中“AI感”过强的问题 [2][3] - 该项目包含一个全模态评估基准HumanSense Benchmark和一个全模态推理模型HumanSense OmniReasoning，通过模拟人类从感知到反馈的思维演进过程，系统评估和提升AI的交互能力 [3][4] - 研究证明，融合视觉、听觉和文本信息的全模态模型在高阶交互任务上具有明显优势，音频是情感理解的关键，而融合全模态感知的思考能力是提升交互表现的有效方法 [4][9][18] 评估基准设计 - HumanSense Benchmark构建了4层认知阶梯，包含15项难度递增的评估任务，共计3882个源于真实数据的问答对 [4] - 评估任务覆盖从基础感知（L1）、复杂感知（L2）、上下文理解（L3）到反馈策略（L4）的全链条能力，系统地衡量大模型从“看见听见”到“理解思考”再到“恰当回应”的综合能力 [4][12] - 交互数据覆盖了面对面交流、文字聊天以及电话访谈等多模态场景，细粒度地拆解了人类交互过程 [4][12] 模型性能评估 - 人类受试者在HumanSense子集上取得了87.5%的平均准确率，而表现最好的模型Qwen2.5-Omni-7B为57.8%，即使顶尖模型如GPT-4o与人类表现仍有近30%的差距 [9][13] - 全模态模型得益于增加音频输入，在L3、L4两类高阶任务中的表现明显优于纯视觉模型，在谎言检测等任务上甚至超越了人类水平 [9][10] - 全模态消融实验证明，在社会关系、对话和谐度等任务上，增加音频输入能带来远超纯视觉的表现，语音是交互中不可或缺的信息维度 [4][14] 优化策略与推理能力 - 公司提出多阶段模态递进的强化训练方式，通过视觉先行、语音增强、边听边看综合判断三个阶段，让模型有效激发深度思考能力 [19][20][21] - 完整三阶段强化训练后，大多数任务都获得了最佳表现，例如心理咨询任务从0.399提升至0.619 [19][20] - 通过构建“感知关键特征和情绪-理解上下文-思考与回应”的提示词模板，即使免训练也能有效提升评估指标，证明了推理拓展在交互场景的有效性 [21] 下游应用与行业影响 - 全模态推理模型可输出包含主题、情感策略、表情与肢体动作等相互关联的结构化内容，为下游数字形象生成提供精细控制 [23][25] - 配套开源项目如Ditto-talkinghead支持基于单张图像的可控说话人生成，是首个支持实时视频生成的开源实现；VersaAnimator可实现语音驱动和肢体动作控制 [25][27][29] - 这些工作有潜力推动大模型交互应用从单一任务工具进化为有情感有表现的生活同伴，为用户提供情感支撑和生活支持 [25]