Workflow
通用视频检索
icon
搜索文档
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能
量子位· 2025-11-13 19:52
行业现状与瓶颈 - 当前视频检索研究陷入闭环困境,以MSRVTT为代表的窄域基准主导模型优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求[1] - 主流模型如CLIP4Clip、InternVideo2和Unite等在经典基准上表现优异,但能力边界局限于粗粒度的文本-视频匹配任务,对多模态输入和细粒度语义理解支持有限[6][7] - 图像检索领域已逐步走向统一的多模态表征框架,通用性正成为视觉检索系统的核心目标,视频检索领域亟需从"针对特定任务优化"转向支持多任务、多粒度、多域的通用建模[8][9][10] 通用视频检索新范式 - 香港科技大学(广州)联合阿里巴巴通义实验室首次提出通用视频检索概念,构建了包含16个数据集的综合评测基准UVRB,覆盖多任务与多领域[2][16][17] - 基准要求模型在9种能力上均有优秀表现,包括3大任务类型(纯文本TXT、图文组合CMP、纯视觉VIS)和3大领域(粗粒度CG、细粒度FG、长上下文LC),其中细粒度分为空间S、时间T、部分相关PR[17][18] - 团队合成了155万条高质量、多模态、任务多样化的视频-语言训练对UVRD,覆盖文本→视频、图像→视频、图文→视频、视频→视频等多种模态组合[2][19][20] 模型架构与训练策略 - 设计基于Qwen2.5-VL的通用视频表征大模型GVE,包含3B与7B两个版本,以Qwen2.5-VL为基座,冻结视觉编码器,仅用LoRA微调LLM部分[22][23] - 提出模态金字塔课程学习策略,采用自底向上的自适应课程调度,先学简单任务(如文本-图像对齐),再逐步进阶到复杂任务(如图文组合检索)[22][23][24] - 输入融合支持任意模态组合(文本/图像/视频),通过特殊token注入视觉特征,表征提取取最后一个token的隐藏状态,经L2归一化后用于检索,训练目标为对称InfoNCE损失加难负样本挖掘[23] 性能表现与竞争优势 - 在严格零样本设置下,GVE-7B模型以平均0.573的Recall@1得分,显著超越当前最强基线Unite-7B(0.538),领先幅度达6.5%[3][26][27] - GVE-3B模型(平均分0.544)仅含38亿参数,但性能超过了参数量翻倍的Unite-7B,证明其优势源于更优的训练数据与学习策略而非模型规模[27] - 按任务类型与领域维度分析,GVE-7B在所有关键能力上均取得领先,尤其在部分相关视频检索任务中以0.419的得分展现出卓越的语义判别力[28][29] 技术突破与行业影响 - 消融实验表明,合成数据集UVRD的引入显著提升模型在组合推理等复杂任务上的能力,GVE-3B在CMP任务上相对提升达27%,模态金字塔课程使GVE-7B整体能力从0.594提升至0.600[31] - 研究系统性揭示了当前模型的四大关键发现:传统基准MSRVTT与真实能力相关性仅0.58已"失灵";空间感知与时间推理能力完全脱节(相关性仅0.12);CLIP与MLLM架构走向不同能力进化路径;参数规模对基础视觉感知能力几乎无益[38][39][41][43] - 部分相关视频检索维度与整体能力相关性高达0.97,成为衡量模型嵌入质量的"试金石",时间能力对细粒度理解的决定性作用显著(相关性0.98),而空间信息贡献微弱(仅0.39)[38][40]