多模态大语言模型 - 财报，业绩电话会，研报，新闻

多模态大语言模型

搜索文档

理想TOP2· 2025-04-25 20:43

以下文章来源于AcademicDaily ，作者AcademicDaily AcademicDaily . AcademicDaily是一个跟踪、推荐和解读大模型等AI成果的技术交流平台，致力于传播和分享前沿技术。 MCAF在理想内部被称为自动驾驶第三只眼。兼容理想自研的Mind GPT-3o 与 BEV 大模型，无需重新训练。 MCAF是一个多模态粗到细注意力聚焦框架，核心解决的是长视频理解的关键瓶颈。当前视频理解领域对长视频（>5分钟）的处理存在显著缺陷，主流方法（如Video-MLLM）依赖全局压缩或均匀采样，导致细节丢失和冗余计算。MCAF直接针对这一问题，通过多模态分层注意力和时间扩展机制，在信息保留与计算效率之间找到了平衡点，这是其核心价值。在平均时长达60分钟的Video-MME数据集上，MCAF超越其他代理方法（如VideoTree、DrVideo）约3-5个百分点。不同于VideoTree等需要额外奖励模型评估置信度，MCAF利用单一LLM完成生成-评估-调整闭环。这不仅简化了架构（如代码实现仅需1个LLM接口），还避免了多模型协同的兼容性问题，更适合实际部署。不过在NEx ...

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

量子位· 2025-04-03 10:12

文章核心观点 - 提出了一种名为CalibQuant的1比特多模态大语言模型视觉KV cache量化方案，该方案通过结合后缩放和校准技术，在显著降低显存与计算成本的同时，几乎不损失模型性能，并实现了高达10倍的吞吐量提升 [1][2][3][5] 技术背景与动机 - 多模态大语言模型在处理大尺寸、高分辨率图像或视频时，KV cache的显存占用与输入长度成正比，成为限制推理吞吐量的关键瓶颈 [4][6] - 现有的LLM KV cache量化方法可压缩至2比特，但未针对多模态任务中的视觉冗余进行优化，无法在1比特极限情况下有效使用 [6] - 该研究通过分析多模态大语言模型中视觉KV cache的冗余特性，设计了专门的量化方案 [7] 方法概述 - 方法基于通道维度的KV cache量化，并提出了后缩放优化方案和针对注意力权重的校准策略 [8] - **通道维度量化**：在通道维度上细化统计范围，对K cache和V cache的每一行向量进行均匀整数量化，以减少模型性能损失 [9][10] - **后缩放管理策略**：通过重排计算顺序，将通道维度的反量化操作延迟并集成到后续向量乘法中，仅存储低比特整数量化值，避免了全精度反量化的计算开销，提高了计算和存储效率 [11][12] - **量化后校准**：针对1比特量化导致反量化值包含大量极端值、进而引起注意力分数失真的问题，提出一种线性变换校准方法，调整softmax前的注意力分数峰值，使其分布更接近全精度模型 [13][14] 实验结果 - 在LLaVA和InternVL模型上，于图像描述（Captioning）、视觉问答（VQA）、视频问答（Video QA）等任务中测试了方法性能 [15] - 在COCO Caption基准测试中，该方法在不同比特数（8、4、2、1比特）下，大部分评估指标优于对比方法KIVI和VLCache [15] - **具体数据示例**： - 对于LLaVA-1.5-7B模型，在1比特量化下，CIDEr分数达到1.109，超过了VLCache方法的1.053 [15][16] - 对于InternVL-2.5-26B模型，在4比特和2比特量化下，CIDEr分数分别达到1.320和1.313，均优于VLCache和KIVI [15][16] 运行效率分析 - 在InternVL-2.5系列模型上，对比了1比特量化方法与16比特基线在不同视觉token长度和GPU显存限制下的吞吐量（每秒生成token数） [17] - **具体数据示例**： - 对于80亿参数模型，当视觉token长度n=3328、显存为5GB时，1比特量化方法吞吐量为126.582 tokens/s，而基线仅为11.628 tokens/s，提升约9.88倍 [17] - 在相同模型和token长度下，显存为30GB时，1比特量化方法吞吐量达459.016 tokens/s，基线为40.816 tokens/s，提升约11.24倍 [17] - 总体而言，该方法在InternVL-2.5上实现了约10倍的吞吐量提升 [1][5][17] 总结与意义 - 该方法有效解决了极低比特量化导致的分布偏移和模型性能下降问题 [18] - 通过校准策略和后缩放技术，在保证高效计算和存储的同时，维持了模型性能 [18] - 该方案具有即插即用特性，可无缝集成到各种现有多模态大语言模型中，无需改动原模型 [3][5]

长视频理解新突破！Mamba混合架构让显存消耗腰斩，处理10万视频token不费力

量子位· 2025-03-27 12:16

模型架构创新 - 提出Mamba-Transformer混合架构Vamba模型通过改进架构设计而非压缩视频token来提升处理效率 [1][2] - 将传统因果自注意力分解为文本交叉注意力+视频Mamba-2模块的双路径设计计算复杂度从二次降至线性 [7] - Mamba-2模块采用选择性扫描机制在更新视频token时保持全局序列信息检索能力 [7] 性能突破 - 同等硬件下视频帧处理能力达传统Transformer的4倍训练内存消耗降低超50% [4] - 单步训练速度实现翻倍提升在128帧以上长视频场景运行时间与显存需求下降超50% [4][9] - LVBench长视频理解基准性能提升4.3% 完整保留原始视频时空特征避免信息丢失 [5][10] 技术实现细节 - 视频编码采用CLIP/SigLIP编码器每帧转换为196个token 512帧视频对应10万token量级 [6] - 文本处理保留因果自注意力机制通过交叉注意力实现视觉-语义对齐 [7] - 开源代码库包含模型权重(Qwen2-VL-7B)、训练推理脚本及7B参数规模预训练模型 [11] 应用场景优势 - 支持128帧以上超长视频理解准确描述内容并回答用户提问 [9] - 在中短时长视频任务中同样展现竞争力覆盖全视频时长区间的基准测试 [10] - 研究团队来自滑铁卢大学、多伦多大学及零一万物等机构产学研协同创新 [2]