Workflow
视频-语言任务
icon
搜索文档
多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法
36氪· 2025-07-23 10:45
大规模视频语言预训练技术发展 - 视频语言预训练利用弱字幕和视频数据进行表征学习,采用预训练和微调范式降低计算成本并提升模型复用性 [1][2] - 主要代理任务包括掩码语言模型(MLM)、掩码帧模型(MFM)、语言重构(LR)等6类,分别聚焦语言预测、帧预测、对齐等序列视角学习 [2] - Transformer模型通过计算元素相似度聚合长程依赖,突破传统模型训练数据规模限制 [3] 关键数据集发展现状 - 基于标签数据集:Kinetics含65万视频片段覆盖700类动作,AVA含162万动作标签 [7] - 基于字幕数据集:Howto100M含136亿视频片段,WebVid-10M含1000万弱字幕视频,HD-VILA含1亿720p视频片段 [8] - 数据集规模直接影响模型鲁棒性,尤其对Transformer架构至关重要 [6] 主流预训练方法分类 - 单流方法:VideoBERT首次采用Transformer,ClipBert实现经济型端到端学习,ALPRO提出视频文本对比增强交互 [10] - 双流方法:CBT采用对比噪声估计损失,FiT学习联合多模态嵌入,CLIP-ViP将视觉语言对齐扩展至视频级 [11] - 方法选择取决于任务需求,单流擅长细粒度关系捕捉,双流提供模态处理灵活性 [11] 应用领域与迁移学习 - 下游任务覆盖视频文本检索、动作识别、视频问答等,需针对性设计迁移方案 [4] - CLIP模型基于4亿图像-文本对训练,在零样本图像分类任务表现突出 [3] - 跨模态任务研究激增,视频数据多模态特性(标题/音频/旁白)推动技术突破 [3]