Workflow
多模态大语言模型
icon
搜索文档
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位· 2025-04-15 11:54
多模态大语言模型(MLLM)时空智能评测 - 核心观点:当前最先进的多模态大语言模型在精确空间时间理解任务上表现不佳,距离实际应用需求仍有显著差距 [1][12][20] - 研究团队推出首个MLLM时空智能评测基准STI-Bench,聚焦真实世界视频输入和定量化空间-时间理解能力评估 [4][6] STI-Bench评测框架 - 数据来源:300+真实世界视频,覆盖毫米级(桌面)、厘米级(室内)、分米级(户外)三类场景 [6] - 评测任务:8项任务分静态空间理解(尺度度量/空间关系/3D定位)和动态时序理解(位移路径/速度加速度/轨迹描述等) [6] - 问答数据集:2000+对高质量QA,基于GPT-4o生成并经过人工校准 [8] 模型表现分析 - 整体表现:最佳模型Qwen2 5-VL-72B和Gemini-2 5-Pro准确率仅41 3%和40 9%,远低于实际应用可靠性阈值 [11][12] - 场景差异:户外场景表现最佳(Qwen2 5-VL达49 24%),室内和桌面环境普遍低于40% [14][17] - 开源突破:Qwen2 5-VL-72B超越所有专有模型,成为开源社区亮点 [13] 核心能力缺陷 - 定量空间缺陷:单目视频中物体尺寸/距离估计不准,3D信息推断困难(尺度度量最高仅34 2%) [15][17] - 动态理解短板:跨帧运动特征计算能力弱(位移路径长度最佳不足33%,速度加速度最高36 9%) [16][17] - 多模态整合不足:文本指令与视觉内容协同处理能力薄弱 [18] 行业影响与资源 - 研究价值:为具身智能和自动驾驶领域提供MLLM能力评估标准,指明改进方向 [19][21] - 开源资源:论文/代码/数据已公开,涵盖arXiv论文、GitHub代码库和HuggingFace数据集 [22]
10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型
量子位· 2025-04-03 10:12
CalibQuant团队 投稿 量子位 | 公众号 QbitAI 在InternVL-2.5上实现 10倍吞吐量提升 ,模型性能几乎无损失。 最新1-bit多模态大模型KV cache量化方案 CalibQuant 来了。 通过结合后缩放和校准方法,可显著降低显存与计算成本, 无需改动原模 型即可直接使用 。 即插即用、无缝集成 多模态大语言模型在各种应用中展现出了卓越的性能。然而,它们在部署过程中的计算开销仍然是一个关键瓶颈。 虽然KV cache通过用显存换计算在一定程度上提高了推理效率,但随着KV cache的增大,显存占用不断增加,吞吐量受到了极大限制。 为了解决这一挑战,作者提出了CalibQuant,一种简单却高效的视觉KV cache量化策略,能够大幅降低显存和计算开销。具体来说, CalibQuant引入了一种极端的1比特量化方案, 采用了针对视觉KV cache内在模式设计的后缩放和校准技术,在保证高效性的同时,不牺牲 模型性能。 作者通过利用Triton进行runtime优化,在InternVL-2.5模型上实现了10倍的吞吐量提升。这一方法具有即插即用的特性,能够无缝集成到各 种现有的多 ...
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
量子位· 2025-03-27 12:16
Vamba团队 投稿 量子位 | 公众号 QbitAI Mamba混合架构视频模型来了,不再对视频token进行压缩—— 而是通过改进模型架构设计的方式提升模型在训练及推理预填充阶段处理视频token的效率。 滑铁卢大学陈文虎团队与多伦多大学、零一万物、向量学院以及M-A-P的研究人员提出了一种新的Mamba-Transformer混合模型Vamba。 通过大量实验验证,研究团队发现Vamba在同等硬件条件下可处理的视频帧数较传统Transformer架构提升4倍,训练内存消耗降低50%以 上,并且可实现单步训练速度的翻倍。 同时,该方法完整保留了原始视频的时空特征,避免传统方法因降采样或池化操作导致的关键动作或场景的信息丢失。 在多个长视频的评价标准上,Vamba保持了高准确率和出色的性能,尤其在LVBench长视频理解基准上相较先前的高效长视频理解模型达到 了约4.3%的性能提升。团队现已开源Vamba模型的代码、模型权重以及训练、推理脚本供研究社区进一步探索与应用。 核心方法 目前流行的多模态大语言模型多使用Transformer作为模型的基本结构,其中的因果注意力机制相对于输入的token序列长度存在 ...
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
量子位· 2025-03-11 13:24
多图数学推理新基准MV-MATH - 中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估多模态大语言模型(MLLM)在多视觉场景中的数学推理能力 [1][4][5] - MV-MATH包含2009个高质量数学问题,涵盖K-12教育场景中的真实问题,分为选择题、填空题和多步问答题三种类型,覆盖11个数学领域和三个难度级别 [7][8] - 数据集特点包括多视觉场景(每个问题包含2-8个图片)、丰富的标注(至少两名标注者交叉验证)、多样化的数学领域(11个领域)和首次引入的图像关联性特征标签 [12][13][15][16] 数据集统计与分布 - 总问题数2009个,其中选择题1109个,填空题900个(单步800个,多步100个),测试集200个问题 [9] - 难度分布为简单27%、中等48%、困难25%,图像数量分布为2图48.73%、3图15.53%、4图22.55%、5图及以上13.39% [9] - 图像关联性分为相互依赖集(1412个问题)和独立集(597个问题),问题长度最短14个字符,最长383个字符,平均80.17个字符 [9][17] 模型评估结果 - 评估24个主流开源和闭源多模态大模型,表现最好的Claude-3.5整体准确率33.9%,远低于人类水平76.5% [21][22] - 其他表现较好的模型包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%),开源模型LLaVA-OneVision-Chat-72B准确率26.2% [21][22] - 模型在不同领域表现差异显著,Claude-3.5在算术领域准确率54.2%,但在组合几何领域仅为27.0% [24][25] 细粒度分析 - 难度级别分析显示GPT-4o在简单问题上准确率最高(40.3%),Claude-3.5在中等难度问题上最高(37.5%),困难问题上所有模型表现大幅下降(Claude-3.5仅26.6%) [27] - 图像关联性分析表明绝大多数模型在相互依赖图像子集(MD)上性能低于独立图像子集(ID),Gemini-1.5-pro差距最大(7.8%) [29][30] - 图像输入方式分析显示图像序列输入表现优于合并输入,保留图像位置和顺序信息对多图推理至关重要 [30][31] 研究意义与展望 - 研究证实MLLM在复杂多视觉感知与图像交叉理解上存在困难,多图数学推理有极大改进空间 [33] - 研究旨在推动多图数学推理发展,为视觉大模型的慢推理范式提供参考 [32][33]
征稿倒计时!CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战
量子位· 2025-03-08 11:35
会议概况 - IEEE/CVF国际计算机视觉与模式识别会议(CVPR 2025)将于2025年6月11日至6月15日在美国田纳西州举行 [1] - 第五届对抗机器学习Workshop由北京航空航天大学、中关村实验室、南洋理工大学等全球知名学术机构联合举办 [1] - Workshop主题为"基础模型+X",聚焦基础模型(FM)及其在特定领域应用(XFM)中的鲁棒性挑战 [1][2] 主题聚焦 - 基础模型(FM)凭借强大生成能力彻底改变计算机视觉等多个领域 [2] - 领域特定基础模型(XFM)如自动驾驶FM、医疗FM通过精选数据集训练和任务架构修改提升专业任务性能 [2] - XFM在安全关键型应用中暴露对抗性攻击脆弱性,可能导致错误分类或生成恶意输出 [2] 论文征稿 - 征稿主题包括:XFM鲁棒性、计算机视觉对抗攻击、深度学习系统鲁棒性改进、FM鲁棒性解释、对抗攻击社会应用、FM鲁棒性评估数据集 [4] - 重要时间节点:摘要提交截止2025年3月15日 论文提交截止2025年3月20日 录用通知2025年3月31日 [3] 竞赛活动 - 竞赛主题为针对多模态大语言模型(MLLMs)的对抗攻击 [7] - 初赛要求设计对抗图文对触发MLLM产生有害输出 复赛挑战更高难度风险类别 [7] - 竞赛官网将后续公布详情 由Challenge Chair负责 [7][8] 组织信息 - 论文提交入口为OpenReview平台特定链接 [9] - 研讨会官网提供完整信息 https://cvpr25-advml.github.io/ [9]