Workflow
多智能体视觉幻觉
icon
搜索文档
终结多智能体视觉幻觉“滚雪球”!新国立等提出ViF:无需改造模型,即插即用
量子位· 2026-04-30 12:37
行业核心问题:多智能体视觉协作中的幻觉滚雪球效应 - 当前基于视觉语言模型的多智能体系统在复杂多模态协作中存在致命痛点:多智能体视觉幻觉滚雪球效应,即单个智能体的视觉误判通过纯文本信息流逐级放大,导致早期细微错误最终演变成系统性崩溃 [2] - 当前协作方案全程依赖文本流传递视觉信息,存在两大缺陷:智能体自身生成错误视觉描述的内在幻觉,以及后续智能体过度依赖前置文本导致错误被逐级放大的幻觉传播 [7] - 此前的优化方案几乎只聚焦于单智能体幻觉抑制,无法阻断跨智能体的错误传播,在长轮次协作中,模型性能会被幻觉“滚雪球”严重拖累 [3][9] 问题根源分析:注意力机制失效 - 研究团队从轮次、层级、令牌三个维度进行深度注意力分析,发现随智能体轮次增加,视觉令牌的平均注意力分配在第20轮暴跌62%,中层视觉注意力峰值直接消失 [10] - 中层单峰注意力视觉令牌是保存原生视觉证据的核心载体,对视觉理解起决定性作用,但这类关键令牌的占比从首轮的1.22%骤降至第20轮的0.10%,导致视觉信息彻底被文本信息压制 [10][12] 解决方案:ViF视觉流范式 - 针对上述难题,研究人员提出了ViF,一种轻量通用的视觉流范式,通过“视觉流 + 注意力重分配”重构智能体间视觉传递逻辑,无需改造基座模型即可大幅压制幻觉滚雪球 [5] - ViF的核心设计之一是视觉中继流,精准筛选中层单峰视觉令牌作为载体,结合指令进行轻量化上下文编码,直接传递原生视觉证据,从根源避免“视觉→文本”转换带来的信息损耗与偏差 [17] - 另一核心设计是分层注意力重分配,在中间层放大关键视觉令牌注意力并回收无效注意力,在深层优化注意力分布,确保视觉信号能持续贯穿长轮次协作 [17] - 该方案还提供了FlashAttention兼容方案,针对现代模型常用的FlashAttention 2/3设计了Key-Norm替代策略,兼顾效率与落地兼容性,且开销较小,可无缝适配不同视觉语言模型与多智能体结构 [18] 实验验证与性能提升 - 该工作在8大基准、4种多智能体结构、10款主流视觉语言模型上实现了稳定提升,平均提升幅度在2.4%至3.8%之间 [6][19] - 在抑制视觉幻觉滚雪球方面,提出的幻觉滚雪球分数平均下降超30%,在交互最密集的环形结构中降幅近40% [19] - 大参数模型增益更为显著,34B/32B大参数模型的提升超过4% [19] - 该方案在多图、视频等增强视觉场景中同样有效,平均提升幅度在2.0%至4.9%之间 [19] - 方案高效,仅增加8.1%至13.4%的推理延迟以及4.8%至11.9%的计算开销,在大模型下开销几乎可忽略 [19] 具体模型性能数据 - 在LLaVA-1.5-13B模型上,应用ViF后,MME基准分数从1528.7提升至1547.6,MMBench分数从70.2提升至71.1,MM-Vet分数从38.3提升至40.5,平均提升约3.6% [20] - 在LLaVA-NeXT-34B模型上,应用ViF后,MME基准分数从1644.9提升至1670.8,MMBench分数从78.6提升至80.9,MM-Vet分数从54.6提升至57.0,平均提升约4.4% [20] - 在Qwen2.5-VL-32B模型上,应用ViF后,MME基准分数从1886.1提升至1906.2,MMBench分数从87.4提升至89.2,MM-Vet分数从69.8提升至71.9,平均提升约4.1% [20] 行业意义与展望 - ViF是业内首个从信息流重构层面解决多智能体视觉幻觉滚雪球的方案,直接打破了长轮次协作“越做越错”的困境 [21] - 该方案以较小代价建立了智能体间的视觉流信息传递,使得多智能体协作在视觉任务上变得真正可信与可用 [21]