Workflow
谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型
机器之心·2025-06-27 08:49

端侧AI模型Gemma 3n发布 - 谷歌正式发布并开源全新端侧多模态大模型Gemma 3n,代表设备端AI的重大进步 [2][3] - Gemma 3n为手机、平板、笔记本电脑等端侧设备带来强大的多模式功能,性能达到去年云端先进模型水平 [3] - 模型累计下载量已超过1.6亿次 [30] 模型特性 - 多模态设计:原生支持图像、音频、视频和文本输入和文本输出 [5] - 专为设备端优化:提供E2B和E4B两种型号,原始参数数量分别为5B和8B,但运行内存占用仅需2GB和3GB [5] - 架构突破:采用MatFormer架构、每层嵌入(PLE)技术,以及新型音频和视觉编码器 [5][7][13] - 质量提升:支持140种文本语言和35种语言的多模态理解,E4B版本LMArena得分超过1300 [5] 核心架构创新 - MatFormer架构:采用俄罗斯套娃式设计,一个较大模型包含更小、功能齐全的版本 [8] - 弹性执行:未来可实现E4B和E2B推理路径之间动态切换,优化性能和内存使用 [12] - 每层嵌入(PLE)技术:大幅提高模型质量,同时不增加设备加速器内存占用 [14] - E2B和E4B模型的核心Transformer权重分别约为2B和4B,其余参数可在CPU上高效计算 [15] 性能优化技术 - 预提取模型:可直接下载E4B模型或独立E2B子模型 [17] - Mix-n-Match方法:可在E2B和E4B之间创建自定义尺寸模型 [17] - 键值缓存共享(KV Cache Sharing):提升流式响应应用的首个token获取时间,预填充性能提升两倍 [18][19] 音频与视觉功能 - 音频编码器:每160毫秒生成一个token,可处理长达30秒的音频片段 [21][22] - 支持自动语音识别(ASR)和自动语音翻译(AST),在多种语言间翻译效果出色 [22] - 视觉编码器:采用MobileNet-V5-300M,支持多种输入分辨率,在Google Pixel上每秒处理高达60帧 [24][26] - 相比基线SoViT,MobileNet-V5-300M在量化情况下实现13倍加速,参数减少46%,内存占用减少4倍 [27]