交叉注意力机制 - 财报，业绩电话会，研报，新闻 - Reportify

交叉注意力机制

搜索文档

长视频理解新突破！Mamba混合架构让显存消耗腰斩，处理10万视频token不费力

量子位· 2025-03-27 12:16

模型架构创新 - 提出Mamba-Transformer混合架构Vamba模型通过改进架构设计而非压缩视频token来提升处理效率 [1][2] - 将传统因果自注意力分解为文本交叉注意力+视频Mamba-2模块的双路径设计计算复杂度从二次降至线性 [7] - Mamba-2模块采用选择性扫描机制在更新视频token时保持全局序列信息检索能力 [7] 性能突破 - 同等硬件下视频帧处理能力达传统Transformer的4倍训练内存消耗降低超50% [4] - 单步训练速度实现翻倍提升在128帧以上长视频场景运行时间与显存需求下降超50% [4][9] - LVBench长视频理解基准性能提升4.3% 完整保留原始视频时空特征避免信息丢失 [5][10] 技术实现细节 - 视频编码采用CLIP/SigLIP编码器每帧转换为196个token 512帧视频对应10万token量级 [6] - 文本处理保留因果自注意力机制通过交叉注意力实现视觉-语义对齐 [7] - 开源代码库包含模型权重(Qwen2-VL-7B)、训练推理脚本及7B参数规模预训练模型 [11] 应用场景优势 - 支持128帧以上超长视频理解准确描述内容并回答用户提问 [9] - 在中短时长视频任务中同样展现竞争力覆盖全视频时长区间的基准测试 [10] - 研究团队来自滑铁卢大学、多伦多大学及零一万物等机构产学研协同创新 [2]

长视频理解

多模态大语言模型

因果注意力机制

交叉注意力机制

状态空间模型（SSM）

长视频理解

多模态大语言模型

因果注意力机制

交叉注意力机制

状态空间模型（SSM）