LLaVA

搜索文档
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
量子位· 2025-05-30 15:10
MME-VideoOCR团队 投稿 量子位 | 公众号 QbitAI 多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。 然而,当应用场景从静态图像拓展至 动态视频 时,即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。 主要贡献如下: 构建精细的任务体系: 高质量、大规模数据集: 包含了 1,464 个精选视频片段,覆盖不同的分辨率、时长与场景。 构建了 2,000 条高质量、经人工标注的问答对,确保评测的精确性。 揭示当前 MLLM 的能力边界与局限: 研究背景 视频作为一种信息密度更高、场景更复杂的模态,其 OCR 任务的难度远超静态图像: 1 运动模糊、光影变化、视角切换以及复杂的时序关联 等视频的动态因素,都对 MLLM 的视频文字识别构成了显著的障碍。 2 视频中的 文字信息形式复杂多样 ,既可能出现在画面主体、背景场景,也可能以屏幕注释、水印或弹幕的方式存在。这要求模型能够建立 稳定的时空视觉-文本关联,以实现对分布在不同位置与时间段文字信息的准确识别、整合与 ...
2025年中国多模态大模型行业市场规模、产业链、竞争格局分析及行业发趋势研判:将更加多元和深入,应用前景越来越广阔[图]
产业信息网· 2025-05-29 09:47
多模态大模型行业定义及分类 - 多模态大模型是能够同时处理和理解多种模态数据(如文本、图像、音频、视频、3D模型等)的大规模人工智能模型,通过深度学习技术实现跨模态信息融合与推理 [2] - 与传统单一模态模型相比,多模态大模型更像全能翻译官,能够将不同模态信息融会贯通,更准确地处理复杂任务 [2] 多模态大模型行业发展历程 - 行业经历了任务导向阶段、视觉-语言预训练阶段和多模态大模型阶段 [4] - 多模态大模型阶段已实现更灵活的交互方式,强调跨模态理解与生成能力同步提升 [4] 多模态大模型行业发展现状 - 2024年中国多模态大模型市场规模为156.3亿元,较2023年增加65.4亿元,预计2025年达234.8亿元 [6] - 数字人领域应用份额最大(24%),其次是游戏与广告商拍(各13%),智能营销和社交媒体(各10%) [8] 多模态大模型行业产业链 - 上游包括AI芯片、GPU/FPGA/CPU/ASIC、服务器等硬件及基础软件 [10] - 中游为多模态大模型产品(如CLIP、BLIP、LLaMA等) [10] - 下游应用于工业、农业、金融科技等生产制造领域,教育、游戏、传媒等生活娱乐领域,基建、交通、医疗等公共服务领域 [10] - AI芯片市场规模从2019年116亿元增长至2024年1447亿元 [12] - 游戏领域2024年销售收入达3257.83亿元,用户规模6.74亿人 [14] 多模态大模型行业竞争格局 - 主流大模型包括中科院紫东太初、华为盘古、百度文心、腾讯混元、阿里通义、科大讯飞星火等 [16] - Kimi、DeepSeek等通过技术优化将训练成本控制在3000-6000万美元 [16] - 百度文心大模型4.5是首个原生多模态模型,具备多模态理解和高情商特点 [16] - 腾讯混元大模型采用动态路由机制,训练成本降低40% [16] - 阿里通义大模型在医疗、司法、文化传播等领域落地应用 [16] 多模态大模型行业发展趋势 - 多模态大模型正成为推动相关产业创新发展的重要力量,能提供更丰富和个性化的服务体验 [19] - 未来将实现更自然高效的人机协作,在金融分析、智能客服、教育辅导、内容创作等场景展现多任务处理能力 [19] - 技术发展将呈现更加多元和深入的趋势,模型将更智能、更人性化 [19]
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 12:05
多模态大语言模型Perception-R1的突破性进展 - 华中科技大学、北京邮电大学等高校联合推出Perception-R1(PR1),首次在COCO2017 val set上突破30AP,超越YOLOv3(27.9AP)和Faster-RCNN(35.6AP)等传统模型 [1][19] - 该框架专注于纯视觉任务(目标检测、计数)和视觉语言任务(OCR、grounding),通过基于规则的强化学习(RL)优化感知策略,显著提升模型对视觉信息的理解精度 [1][6][11] - 采用Group Relative Policy Optimization(GRPO)技术,通过多轮尝试、奖励建模和策略更新机制优化模型输出,例如在边界框任务中使用IoU作为奖励指标 [9][12] 技术实现与创新 - Perception-R1作为后训练框架,可增强现有MLLM(如Qwen2-VLInstruct-2B)的视觉能力,无需从头训练 [7] - 奖励函数设计包含三部分:视觉细节提取(如OCR任务使用编辑距离)、逻辑操作执行(如点检测计数)、输出格式验证(正确格式+1分,错误-1分) [11][13][17] - 针对多物体检测的匹配难题,采用二分图匹配和匈牙利算法计算最优奖励,确保预测与真实标注的准确对应 [14] 性能表现与行业影响 - 在Pixmo-Count视觉计数任务中达到78.1分(测试集75.6分),远超LLaVA-1.5(33.3分)和Qwen2-VL(60.2分) [19] - OCR任务(PageOCR)编辑距离仅3.5(英文)和9.0(中文),F1-score达98.2(英文)和94.4(中文),优于Nougat(25.5)和DocOw(25.8) [18] - 在MMBench等综合评测中,Perception-R1以71.8平均分展现全面优势,尤其在MMVet(48.9分)和AI2D(58.2分)等需复杂推理的任务中领先 [21] 未来发展方向 - 研究表明任务复杂度与RL效果正相关,为大规模扩展提供验证基础,例如模型参数量从2B扩展到3B时AP提升至31.9 [19][23] - 挑战了视觉任务依赖语言推理的传统假设,为下一代智能感知系统奠定技术路径,例如通过显式思维链(thinking)优化策略 [24][25] - 论文与代码已开源,旨在推动社区建立更强基线,加速多模态感知技术迭代 [2][26]
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
机器之心· 2025-04-29 11:22
本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人 曹绍升,以及华东师范大学林绍辉研究员。 多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存 占用逐渐增加,这导致了多模态大模型推理效率的降低。现有的方法通过减少预填充(prefill)阶段的视觉 token 冗余来实现推理加速。遗憾的是,这种在预填充 阶段实现的视觉 token 稀疏化所带来的加速优势,在解码阶段会逐渐减弱。当解码输出的文本 token 数量增多时,这些方法仍然会遇到性能瓶颈。 为了解决上述问题,团队创新性地提出了一个全新的动态视觉 - 文本上下文稀疏化推理加速框架 ——Dynamic-LLaVA。该框架针对多模态大模型在不同推理模式 下(包括预填充阶段以及有无 KV Cache 的解码阶段),设计了定制化的稀疏化推理方案,以实现多模态大模型的高效推理。实验结果表明,Dynamic-LLaVA 在 几乎不损失视觉理解和生成能力的前提 ...
10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型
量子位· 2025-04-03 10:12
CalibQuant团队 投稿 量子位 | 公众号 QbitAI 在InternVL-2.5上实现 10倍吞吐量提升 ,模型性能几乎无损失。 最新1-bit多模态大模型KV cache量化方案 CalibQuant 来了。 通过结合后缩放和校准方法,可显著降低显存与计算成本, 无需改动原模 型即可直接使用 。 即插即用、无缝集成 多模态大语言模型在各种应用中展现出了卓越的性能。然而,它们在部署过程中的计算开销仍然是一个关键瓶颈。 虽然KV cache通过用显存换计算在一定程度上提高了推理效率,但随着KV cache的增大,显存占用不断增加,吞吐量受到了极大限制。 为了解决这一挑战,作者提出了CalibQuant,一种简单却高效的视觉KV cache量化策略,能够大幅降低显存和计算开销。具体来说, CalibQuant引入了一种极端的1比特量化方案, 采用了针对视觉KV cache内在模式设计的后缩放和校准技术,在保证高效性的同时,不牺牲 模型性能。 作者通过利用Triton进行runtime优化,在InternVL-2.5模型上实现了10倍的吞吐量提升。这一方法具有即插即用的特性,能够无缝集成到各 种现有的多 ...