通用视频检索 - 财报，业绩电话会，研报，新闻

通用视频检索

搜索文档

量子位· 2025-11-13 19:52

行业现状与瓶颈 - 当前视频检索研究陷入闭环困境，以MSRVTT为代表的窄域基准主导模型优化，导致训练数据有偏、模型能力受限，难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求[1] - 主流模型如CLIP4Clip、InternVideo2和Unite等在经典基准上表现优异，但能力边界局限于粗粒度的文本-视频匹配任务，对多模态输入和细粒度语义理解支持有限[6][7] - 图像检索领域已逐步走向统一的多模态表征框架，通用性正成为视觉检索系统的核心目标，视频检索领域亟需从"针对特定任务优化"转向支持多任务、多粒度、多域的通用建模[8][9][10] 通用视频检索新范式 - 香港科技大学（广州）联合阿里巴巴通义实验室首次提出通用视频检索概念，构建了包含16个数据集的综合评测基准UVRB，覆盖多任务与多领域[2][16][17] - 基准要求模型在9种能力上均有优秀表现，包括3大任务类型（纯文本TXT、图文组合CMP、纯视觉VIS）和3大领域（粗粒度CG、细粒度FG、长上下文LC），其中细粒度分为空间S、时间T、部分相关PR[17][18] - 团队合成了155万条高质量、多模态、任务多样化的视频-语言训练对UVRD，覆盖文本→视频、图像→视频、图文→视频、视频→视频等多种模态组合[2][19][20] 模型架构与训练策略 - 设计基于Qwen2.5-VL的通用视频表征大模型GVE，包含3B与7B两个版本，以Qwen2.5-VL为基座，冻结视觉编码器，仅用LoRA微调LLM部分[22][23] - 提出模态金字塔课程学习策略，采用自底向上的自适应课程调度，先学简单任务（如文本-图像对齐），再逐步进阶到复杂任务（如图文组合检索）[22][23][24] - 输入融合支持任意模态组合（文本/图像/视频），通过特殊token注入视觉特征，表征提取取最后一个token的隐藏状态，经L2归一化后用于检索，训练目标为对称InfoNCE损失加难负样本挖掘[23] 性能表现与竞争优势 - 在严格零样本设置下，GVE-7B模型以平均0.573的Recall@1得分，显著超越当前最强基线Unite-7B（0.538），领先幅度达6.5%[3][26][27] - GVE-3B模型（平均分0.544）仅含38亿参数，但性能超过了参数量翻倍的Unite-7B，证明其优势源于更优的训练数据与学习策略而非模型规模[27] - 按任务类型与领域维度分析，GVE-7B在所有关键能力上均取得领先，尤其在部分相关视频检索任务中以0.419的得分展现出卓越的语义判别力[28][29] 技术突破与行业影响 - 消融实验表明，合成数据集UVRD的引入显著提升模型在组合推理等复杂任务上的能力，GVE-3B在CMP任务上相对提升达27%，模态金字塔课程使GVE-7B整体能力从0.594提升至0.600[31] - 研究系统性揭示了当前模型的四大关键发现：传统基准MSRVTT与真实能力相关性仅0.58已"失灵"；空间感知与时间推理能力完全脱节（相关性仅0.12）；CLIP与MLLM架构走向不同能力进化路径；参数规模对基础视觉感知能力几乎无益[38][39][41][43] - 部分相关视频检索维度与整体能力相关性高达0.97，成为衡量模型嵌入质量的"试金石"，时间能力对细粒度理解的决定性作用显著（相关性0.98），而空间信息贡献微弱（仅0.39）[38][40]

阿里巴巴(US:BABA)

通用视频检索

Artificial Intelligence

通用视频嵌入模型GVE

通用视频检索基准UVRB

通用视频检索

Artificial Intelligence

通用视频嵌入模型GVE

通用视频检索基准UVRB