Workflow
IntentBench
icon
搜索文档
阿里多模态推理模型开源!精准捕捉视频隐藏信息,三大杀手锏让AI更懂“人情世故”
搜狐财经· 2025-07-09 08:28
阿里通义实验室开源多模态推理模型HumanOmniV2 - 阿里通义实验室开源多模态推理模型HumanOmniV2,通过强制上下文总结机制、大模型驱动的多维度奖励体系和GRPO优化训练方法,实现对多模态信息的全面理解 [1] - HumanOmniV2在生成最终答案前会输出上下文概括,系统性分析视觉、听觉、语音信号,例如正确解读视频中女性翻白眼的真实意图 [1] - 模型在IntentBench评测基准(633个视频和2689个问题)上准确率达到69.33% [4] 模型技术突破 - 引入强制上下文总结机制,避免忽略多模态输入中的隐藏信息,解决现有多模态模型全局上下文理解不足和推理路径简单的问题 [18] - 采用GRPO优化算法改进:词元级损失解决长序列训练不平衡、移除问题级归一化项避免权重偏差、动态KL散度机制提升训练稳定性 [23] - 大模型驱动的多维度奖励机制包括上下文奖励(一致性评估)、格式奖励(结构化输出)、准确性奖励(正确率)、逻辑奖励(多模态整合) [20] 性能表现与基准测试 - HumanOmniV2在开源全模态模型中性能最佳:Daily-Omni测试集58.47%、WorldSense测试集47.1%、IntentBench测试集69.33% [24] - 对比测试中,HumanOmniV2(7B参数)在情感识别任务上优于GPT-4o(59.98%)和Gemini 1.5 Pro(67.15%),达到69.33%准确率 [25] - 在细分领域测试中,模型在"Social"(84%)、"Emotion"(82.41%)、"Deception"(64%)等场景表现突出 [25] 数据集与行业影响 - 开发全模态推理训练数据集,融合图像、视频、音频任务的上下文信息,解决人工标注数据不足问题 [23] - 推出IntentBench评测基准,包含633个视频和2689个复杂意图理解问题,要求模型具备深度社会关系分析能力 [23] - 基于Qwen2.5-Omni-Thinker架构改进,为AI理解人类复杂意图提供技术参考,但7B参数规模可能限制更大模型的适用性 [26][27]
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 15:30
多模态大语言模型技术突破 - 当前多模态推理模型存在两大核心问题:全局上下文理解不足(模型错误解读多模态证据)和捷径问题(忽视关键线索直接给出答案)[2][3][4] - 阿里巴巴通义实验室推出HumanOmniV2解决方案,强调模型需基于全局上下文理解进行推理,避免遗漏多模态线索[4] - 创新性采用强制上下文总结机制,要求模型在推理前先输出对多模态输入的概括,确保全面性[12] 技术架构优化 - 引入三维奖励机制:上下文奖励(评估上下文一致性)、格式奖励、准确性奖励协同作用[13][14] - 通过LLM评估逻辑奖励,激励模型融合反思/演绎/归纳等高级逻辑分析方法[15] - 改进GRPO训练策略:采用令牌级损失解决长序列不平衡、移除问题级归一化项消除优化偏差、动态KL散度提升探索能力[16][19][20] 数据集与基准创新 - 构建全模态推理训练数据集,涵盖图像/视频/音频理解任务,附带多模态输入总结和推理路径[23] - 推出IntentBench评估基准,包含633个视频和2,689个问题,专注测试复杂人类意图理解能力(对比Daily-Omni/WorldSense更侧重社会关系推理)[23] 性能表现 - HumanOmniV2在Daily-Omni达到58.47%、WorldSense 47.1%、IntentBench 69.33%准确率,超越现有开源模型[24] - 在视频-音频多模态任务中,7B版本以58.47%平均准确率显著领先VideoLLaMA2(35.17%)和Qwen2.5-Omni 7B(47.45%)[25] - 在文化/科技等细分领域评估中,7B模型以47.1%平均准确率超越GPT-4o(42.6%)和Claude 3.5 Sonnet(34.8%)[27] 开源与资源 - 完整开源代码/模型/数据,提供GitHub/arXiv/ModelScope/HuggingFace多平台访问入口[29]