Workflow
Multimodal Reasoning
icon
搜索文档
阿里多模态推理模型开源!精准捕捉视频隐藏信息,三大杀手锏让AI更懂“人情世故”
搜狐财经· 2025-07-09 08:28
阿里通义实验室开源多模态推理模型HumanOmniV2 - 阿里通义实验室开源多模态推理模型HumanOmniV2,通过强制上下文总结机制、大模型驱动的多维度奖励体系和GRPO优化训练方法,实现对多模态信息的全面理解 [1] - HumanOmniV2在生成最终答案前会输出上下文概括,系统性分析视觉、听觉、语音信号,例如正确解读视频中女性翻白眼的真实意图 [1] - 模型在IntentBench评测基准(633个视频和2689个问题)上准确率达到69.33% [4] 模型技术突破 - 引入强制上下文总结机制,避免忽略多模态输入中的隐藏信息,解决现有多模态模型全局上下文理解不足和推理路径简单的问题 [18] - 采用GRPO优化算法改进:词元级损失解决长序列训练不平衡、移除问题级归一化项避免权重偏差、动态KL散度机制提升训练稳定性 [23] - 大模型驱动的多维度奖励机制包括上下文奖励(一致性评估)、格式奖励(结构化输出)、准确性奖励(正确率)、逻辑奖励(多模态整合) [20] 性能表现与基准测试 - HumanOmniV2在开源全模态模型中性能最佳:Daily-Omni测试集58.47%、WorldSense测试集47.1%、IntentBench测试集69.33% [24] - 对比测试中,HumanOmniV2(7B参数)在情感识别任务上优于GPT-4o(59.98%)和Gemini 1.5 Pro(67.15%),达到69.33%准确率 [25] - 在细分领域测试中,模型在"Social"(84%)、"Emotion"(82.41%)、"Deception"(64%)等场景表现突出 [25] 数据集与行业影响 - 开发全模态推理训练数据集,融合图像、视频、音频任务的上下文信息,解决人工标注数据不足问题 [23] - 推出IntentBench评测基准,包含633个视频和2689个复杂意图理解问题,要求模型具备深度社会关系分析能力 [23] - 基于Qwen2.5-Omni-Thinker架构改进,为AI理解人类复杂意图提供技术参考,但7B参数规模可能限制更大模型的适用性 [26][27]