仅保留35% Token，性能反超原模型！快手可灵等用视觉信息引导音频压缩，推理时间直降42%

行业背景与问题 - 全模态大模型（如Gemini-2.5-Pro、Qwen2.5-Omni）能同时理解视频与音频，但处理音视频信息时计算代价巨大 [5] - 一段几十秒的音视频可编码成上万个Token，其中超过65%是冗余的，大量计算资源被消耗在冗余信息上 [1][5][17] - 现有视觉Token压缩方法在音视频全模态场景下面临挑战，难以同时处理视频的时空冗余、音频的时间连续性以及模态间的语义关联 [7] 解决方案：OmniSIFT框架 - 该框架由快手可灵团队、中科院自动化所和南京大学提出，是一种模态非对称Token压缩框架 [2] - 核心洞察是视频信息远比音频密集，利用音视频间的非对称依赖关系，让视觉特征引导音频Token的筛选 [3][4] - 框架由两个核心模块组成：时空视频剪枝模块（STVP）和视觉引导音频选择模块（VGAS） [8] 技术实现细节 - STVP（视频压缩）：通过帧内剪枝识别单帧内的背景或重复纹理，通过帧间剪枝分析连续帧的相似度以丢弃重复帧，从空间和时间两个维度压缩视频Token [10][11][12][13] - VGAS（音频压缩）：利用筛选后的视觉特征，通过跨模态注意力机制评估音频Token的重要性，保留与视觉内容高度相关的声音（如说话声、碰撞声），过滤无关背景音 [14][15] - 引入Straight-Through Estimator（STE）使离散的Token选择过程可参与训练，实现端到端的可微优化 [15] 性能表现 - 在仅保留35%多模态Token的情况下，模型性能在多个基准测试中未下降，部分甚至超过全量输入模型 [3][18] - 例如，在WorldSense基准上，Qwen2.5-Omni-7B模型使用OmniSIFT取得50.0分，高于全量Token基线（49.7分） [19] - 在更严格的25% Token保留率设置下，OmniSIFT性能依然稳定，整体优于OmniZip、DyCoke等对比方法 [19] 效率提升 - 在35% Token保留率下，Qwen2.5-Omni-7B的总推理时间从15097秒降低至8756秒，减少约42% [3][24] - GPU显存占用同步下降，例如Qwen2.5-Omni-7B的显存从27.59 GB降至22.91 GB [24][25] - 在计算开销显著减少的同时，模型准确率保持稳定甚至略有提升，实现了计算效率与模型性能的良好平衡 [24] 技术验证与意义 - 消融实验表明，STVP的空间与时间剪枝模块均不可或缺；视觉引导的音频选择（VGAS）比仅依赖音频自身注意力剪枝效果更优（DailyOmni得分从69.3提升至73.2） [21][22] - 该技术揭示了决定模型理解能力的关键是信息密度而非Token数量，为全模态模型的高效推理提供了新思路 [26] - 该方案为Omni-modal大模型在实时交互和端侧部署等场景中的应用提供了新的可能 [25]