华为推出开源多模态大模型openPangu-VL-7B - 华为推出开源新玩家openPangu-VL-7B,这是一款7B参数量的多模态大模型,直接瞄准端侧部署与个人开发者这一核心应用场景 [1][3] - 模型具备轻量化特性和强劲性能,能灵活适配各类终端场景,并覆盖图像信息抽取、文档理解、视频解析、物体定位等高频需求 [2] 模型性能与效率表现 - 模型为昇腾原生结构,在单张Ascend Atlas 800T A2卡上,对720P图像进行首字模型推理时延(ViT与LLM模型时延和)仅160毫秒,能够进行5FPS的实时推理 [4] - 模型在训练阶段的MFU达到42.5% [4] - 在预训练阶段完成了3T+tokens的无突刺集群长稳训练,为开发者使用昇腾集群提供了极具价值的实践参考 [5] 模型在核心任务上的基准测试表现 - 在通用视觉问答任务上,模型在MMBenchvl.I_DEV上得分86.5,在AI2Dics上得分84.7,在RealWorldQA上得分76.1,在MMStar上得分70.1 [8] - 在OCR与图表/文档理解任务上,模型在OCRBench上得分907,在TextVQA上得分85.1,在ChartQA上得分88.3,在DocVQAtest上得分96.0,在CharXivpo上得分83.9,在CharXivgo上得分54.3 [8] - 在STEM任务上,模型在MMMUval上得分65.2,在MMMU-Pro overall上得分52.6,在MathVistamini上得分75.0 [8] - 在多图像理解任务上,模型在BLINKval上得分63.3,在MUIRBench上得分61.6 [8] - 在视觉定位与计数任务上,模型在RefCOCO-avg上得分90.6,在ODinW-13上得分51.5,在Point-Bench上得分65.4,在CountBench上得分96.1 [8] - 在视频理解任务上,模型在MVBench上得分74.0,在VideoMME w/o sub上得分68.0,在MLVU上得分76.9 [8] 模型应用能力展示 - 官方提供的cookbook展现了模型在视觉定位、文档理解等领域的优异能力 [9] - 例如,给定一张菜品图,模型能够点出所有樱桃番茄的位置并正确计数 [10] - 给定一张年报截图,模型能将其转变为markdown格式,省去人工摘录 [12] 核心技术细节与设计创新 - 模型采用了适配昇腾的高性能视觉编码器,其架构深度为26,使用2D RoPE位置嵌入和GELU激活函数 [14] - 该视觉编码器在相同参数量下,在昇腾芯片上的吞吐较使用窗注意力的ViT-H系列编码器提升15% [15] - 采用多标签对比学习框架,让模型具备更优的细粒度理解能力,为后续视觉定位数据学习筑牢基础 [16] - 创新采用“加权逐样本损失+逐令牌损失”的混合训练方案,加权系数由令牌位置和样本重要性动态决定,解决了不同长度训练样本的学习均衡问题 [17][18] - 区别于业界主流的0-999定位方案,模型采用000-999千分位带填充相对坐标完成视觉定位,使用整齐的三个token进行位置回归,降低了学习难度并提升了格式遵从性 [20][21] - 技术报告还深入探索了预训练数据配比、位置编码、模型融合等关键策略,为开发者提供了全面的技术细节参考 [23] 对行业与生态的影响 - 对于昇腾使用者而言,openPangu-VL-7B的开源是一大利好 [24] - 这款兼具轻量化、高性能与强通用性的多模态模型,为端侧开发和个人使用提供了新选择,也将进一步丰富昇腾生态的应用场景 [24]
华为开源7B多模态模型,视觉定位和OCR能力出色,你的昇腾端侧“新甜点”来了
量子位·2026-01-05 13:00