全模态主动感知
搜索文档
「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式
机器之心· 2026-01-08 17:34
核心观点 - 浙江大学、西湖大学、蚂蚁集团联合提出了一种名为OmniAgent的“音频引导”主动感知智能体,通过“思考-行动-观察-反思”闭环机制,实现了从被动响应到主动探询的范式转变,旨在解决端到端全模态大模型在跨模态对齐和细粒度理解上的痛点 [2] - 在多个基准测试中,OmniAgent的准确率超越了包括Gemini 2.5-Flash和Qwen3-Omni在内的主流开闭源模型,证明了其方法的有效性 [2][13] 背景与痛点 - 端到端全模态模型虽实现视听统一,但面临高昂训练成本与困难的跨模态特征对齐问题,导致细粒度跨模态理解表现不佳 [7] - 基于固定工作流的智能体依赖人为设定僵化流程,缺乏细粒度与灵活性,无法根据问题自主进行规划与信息获取 [7] - 基于视频字幕的智能体需预先构建整个视频的帧字幕数据库,计算成本高且难以捕捉细节的跨模态信息 [8] 方法论与创新 - OmniAgent摒弃固定工作流,采用“思考-行动-观察-反思”闭环机制 [10] - 在思考阶段,智能体会根据问题自主决定“听”还是“看” [15] - 在行动阶段,智能体从构建的多模态工具库中选取合适工具调用,工具库包括:首创的音频引导事件定位工具(用于快速锁定关键时间窗口)、视频工具(全局问答与片段问答)、音频工具(全局描述、细粒度问答、语音转录) [15] - 在观察与反思阶段,智能体评估现有证据能否正确回答问题,并进行跨模态一致性检查,确保视听证据互证,以解决幻觉与对齐问题 [11] 性能表现 - 在Daily-Omni基准测试中,OmniAgent准确率达到82.71%,超越Gemini 2.5-Flash的72.7%和Qwen3-Omni-30B的72.08%,提升幅度超10% [13] - 在OmniVideoBench长视频理解任务中,OmniAgent准确率达59.1%,大幅领先Qwen3-Omni-30B的38.4% [14][16] - 在WorldSense基准测试中,OmniAgent平均准确率达61.2%,领先于Video-SALMONN 2+的56.5%和Gemini 2.5 Flash的50.9% [17] 未来愿景与意义 - OmniAgent的设计理念具有高扩展性,能够继续结合其他模态的工具 [19] - 该智能体能够帮助生成高质量的COTT数据,用于构建可以自我调用工具的下一代智能体全模态模型 [19] - 该工作证明了音频引导的主动感知策略是解决全模态理解任务中跨模态对齐困难、提升细粒度推理能力的有效路径,为未来全模态Agent算法设计提供了新的范式参考 [19]