Workflow
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位·2025-06-04 13:21

核心观点 - 国产开源模型Video-XL-2在长视频理解领域取得突破性进展,支持单张显卡处理万帧视频输入,编码2048帧视频仅需12秒 [1][9][24] - Video-XL-2在效果、长度、速度三方面全面超越上一代Video-XL,达到开源轻量级模型的SOTA水平 [3][9][15] - 模型采用四阶段渐进式训练和双粒度KV解码等创新技术,显著提升计算效率和显存利用率 [8][11][13] 技术架构 - 核心组件包括视觉编码器SigLIP-SO400M、动态Token合成模块DTS和大语言模型Qwen2.5-Instruct,实现跨模态对齐与语义推理 [4][6] - 视觉编码器逐帧处理视频,DTS模块融合时序特征,最终通过MLP映射至文本嵌入空间 [6] 性能突破 - 评测表现:在MLVU(74.9)、VideoMME(66.8)、LVBench(48.6)、Charades-STA(73.0)等基准超越720亿参数大模型 [17][18] - 处理长度:单张80GB显卡支持万帧视频输入,24GB显卡支持千帧处理 [19][23] - 运算效率:2048帧视频预填充仅12秒,时间与帧数呈线性增长关系 [24][26] 应用场景 - 适用于影视内容分析、监控异常检测(如肢体冲突识别)、剧情问答等复杂视频理解任务 [28][30][32] - 示例显示模型可准确回答细节问题(如"红色电话"识别)和宏观事件判断(如"顾客与店员冲突") [30][32] 资源开放 - 模型权重、技术报告及代码已在Hugging Face和GitHub平台开源 [33]