最低仅需2G显存，谷歌开源端侧模型刷新竞技场纪录，原生支持图像视频

核心观点 - 谷歌发布开源多模态模型Gemma 3n，原生支持文本、图像和音视频处理 [2] - Gemma 3n在10B以下模型中首次突破1300分（1303分），成为性能领先的小规模模型 [3] - 模型通过架构创新实现低内存占用（最低2GB），适配端侧设备 [4][6] 模型架构 - 采用MatFormer（嵌套式Transformer）架构，包含E2B（5B）和E4B（8B）两种型号，通过"有效参数"概念优化资源占用 [10][11] - 嵌套结构允许训练E4B时同步优化E2B子模型，并支持Mix-n-Match方法自定义模型尺寸 [12][15] - 配套工具MatFormer Lab将发布，用于检索最佳模型配置 [16] 端侧优化技术 - 引入逐层嵌入（PLE）技术，将部分参数加载到CPU，仅核心权重需VRAM存储，内存占用降至2B/4B水平 [17][18] - 采用KV缓存共享技术，预填充性能较Gemma 3-4B提升2倍，优化长序列处理 [19] 多模态支持音频处理 - 集成基于USM的音频编码器，支持160毫秒音频转Token，实现端侧ASR/AST功能 [20] - 流式编码器默认支持30秒音频片段，可通过训练扩展至任意长度 [20] 视觉处理 - 搭载MobileNet-V5-300M视觉编码器，支持256x256至768x768分辨率，Pixel设备处理速度达60FPS [21] - 架构较MobileNet-V4扩大10倍，采用混合深度金字塔模型和多尺度融合VLM适配器 [21] 模型可用性 - 已在谷歌AI Studio及Ollama、llama.cpp等第三方工具上线，权重可通过Hugging Face获取 [8] - 技术细节持续公开，MobileNet-V5技术报告将后续发布 [22]