单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

核心观点 - 国产开源模型Video-XL-2在长视频理解领域取得突破性进展，支持单张显卡处理万帧视频输入，编码2048帧视频仅需12秒 [1][9][24] - Video-XL-2在效果、长度、速度三方面全面超越上一代Video-XL，达到开源轻量级模型的SOTA水平 [3][9][15] - 模型采用四阶段渐进式训练和双粒度KV解码等创新技术，显著提升计算效率和显存利用率 [8][11][13] 技术架构 - 核心组件包括视觉编码器SigLIP-SO400M、动态Token合成模块DTS和大语言模型Qwen2.5-Instruct，实现跨模态对齐与语义推理 [4][6] - 视觉编码器逐帧处理视频，DTS模块融合时序特征，最终通过MLP映射至文本嵌入空间 [6] 性能突破 - 评测表现：在MLVU（74.9）、VideoMME（66.8）、LVBench（48.6）、Charades-STA（73.0）等基准超越720亿参数大模型 [17][18] - 处理长度：单张80GB显卡支持万帧视频输入，24GB显卡支持千帧处理 [19][23] - 运算效率：2048帧视频预填充仅12秒，时间与帧数呈线性增长关系 [24][26] 应用场景 - 适用于影视内容分析、监控异常检测（如肢体冲突识别）、剧情问答等复杂视频理解任务 [28][30][32] - 示例显示模型可准确回答细节问题（如"红色电话"识别）和宏观事件判断（如"顾客与店员冲突"） [30][32] 资源开放 - 模型权重、技术报告及代码已在Hugging Face和GitHub平台开源 [33]