技术突破 - 新一代超长视频理解模型Video-XL-2在效果、计算开销和运行效率等方面全面优化,显著提升多模态大模型对长视频内容的理解能力 [2] - Video-XL-2采用SigLIP-SO400M作为视觉编码器,结合动态Token合成模块(DTS)和大语言模型(LLM),实现视频帧的高维特征编码和时序关系建模 [3] - 模型采用四阶段渐进式训练策略,逐步构建长视频理解能力,最终在大规模高质量指令数据上微调,提升复杂视觉指令的响应准确性 [4] 性能优势 - Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上达到同参数规模开源模型的领先水平,部分性能接近720亿参数大模型 [6][11] - 模型支持单显卡处理万帧级视频,编码2048帧仅需12秒,预填充时间与输入帧数呈线性增长,效率显著优于初代Video-XL和VideoChat-Flash [6][17][19] - 在时序定位任务中表现优异,Charades-STA数据集上取得73分,验证多模态视频理解的广泛适用性 [12] 架构创新 - 引入分段式预装填策略(Chunk-based Prefilling),将超长视频分块处理,降低计算成本与显存开销 [8] - 设计双粒度KV解码机制(Bi-granularity KV Decoding),选择性加载关键片段的完整KVs和次要片段的稀疏KVs,大幅提升解码效率 [8] 应用场景 - 影视内容分析:支持电影情节问答、影视作品内容总结等任务,例如准确识别视频中物体的颜色和人物行为 [20][22] - 异常行为监测:可检测监控视频中的异常事件,如顾客与员工的肢体冲突 [23] - 游戏直播分析:具备处理超长直播内容并生成总结的能力 [23]
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
机器之心·2025-06-03 12:06