行业背景与问题 - 全模态大模型(如Gemini-2.5-Pro、Qwen2.5-Omni)能同时理解视频与音频,但处理音视频信息时计算代价巨大 [5] - 一段几十秒的音视频可编码成上万个Token,其中超过65%是冗余的,大量计算资源被消耗在冗余信息上 [1][5][17] - 现有视觉Token压缩方法在音视频全模态场景下面临挑战,难以同时处理视频的时空冗余、音频的时间连续性以及模态间的语义关联 [7] 解决方案:OmniSIFT框架 - 该框架由快手可灵团队、中科院自动化所和南京大学提出,是一种模态非对称Token压缩框架 [2] - 核心洞察是视频信息远比音频密集,利用音视频间的非对称依赖关系,让视觉特征引导音频Token的筛选 [3][4] - 框架由两个核心模块组成:时空视频剪枝模块(STVP)和视觉引导音频选择模块(VGAS) [8] 技术实现细节 - STVP(视频压缩):通过帧内剪枝识别单帧内的背景或重复纹理,通过帧间剪枝分析连续帧的相似度以丢弃重复帧,从空间和时间两个维度压缩视频Token [10][11][12][13] - VGAS(音频压缩):利用筛选后的视觉特征,通过跨模态注意力机制评估音频Token的重要性,保留与视觉内容高度相关的声音(如说话声、碰撞声),过滤无关背景音 [14][15] - 引入Straight-Through Estimator(STE)使离散的Token选择过程可参与训练,实现端到端的可微优化 [15] 性能表现 - 在仅保留35%多模态Token的情况下,模型性能在多个基准测试中未下降,部分甚至超过全量输入模型 [3][18] - 例如,在WorldSense基准上,Qwen2.5-Omni-7B模型使用OmniSIFT取得50.0分,高于全量Token基线(49.7分) [19] - 在更严格的25% Token保留率设置下,OmniSIFT性能依然稳定,整体优于OmniZip、DyCoke等对比方法 [19] 效率提升 - 在35% Token保留率下,Qwen2.5-Omni-7B的总推理时间从15097秒降低至8756秒,减少约42% [3][24] - GPU显存占用同步下降,例如Qwen2.5-Omni-7B的显存从27.59 GB降至22.91 GB [24][25] - 在计算开销显著减少的同时,模型准确率保持稳定甚至略有提升,实现了计算效率与模型性能的良好平衡 [24] 技术验证与意义 - 消融实验表明,STVP的空间与时间剪枝模块均不可或缺;视觉引导的音频选择(VGAS)比仅依赖音频自身注意力剪枝效果更优(DailyOmni得分从69.3提升至73.2) [21][22] - 该技术揭示了决定模型理解能力的关键是信息密度而非Token数量,为全模态模型的高效推理提供了新思路 [26] - 该方案为Omni-modal大模型在实时交互和端侧部署等场景中的应用提供了新的可能 [25]
仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%
量子位·2026-03-11 10:45