单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位·2025-06-04 13:21
国产开源模型又上大分,这次是在长视频理解领域: 智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型 Video-XL-2 。 长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在 效果、计算开销和运行效率等方面仍存在明显短板。 而Video-XL-2相较于上一版本的Video-XL,在多个维度全面优化了开源多模态大模型对长视频内容的理解能力: 目前,Video-XL-2的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 技术简介 在模型架构设计上,Video-XL-2主要由三个核心组件构成: 视觉编码器(Visual Encoder) 、 动态 Token 合成模块(Dynamic Token Synthesis, DTS) 以及 大语言模型(LLM) 。 △ Video-XL-2的模型架构示意图 具体而言,Video-XL-2 ...