Workflow
俄罗斯套娃表征学习
icon
搜索文档
最低仅需2G显存,谷歌开源端侧模型刷新竞技场纪录,原生支持图像视频
量子位· 2025-06-27 12:40
核心观点 - 谷歌发布开源多模态模型Gemma 3n,原生支持文本、图像和音视频处理 [2] - Gemma 3n在10B以下模型中首次突破1300分(1303分),成为性能领先的小规模模型 [3] - 模型通过架构创新实现低内存占用(最低2GB),适配端侧设备 [4][6] 模型架构 - 采用MatFormer(嵌套式Transformer)架构,包含E2B(5B)和E4B(8B)两种型号,通过"有效参数"概念优化资源占用 [10][11] - 嵌套结构允许训练E4B时同步优化E2B子模型,并支持Mix-n-Match方法自定义模型尺寸 [12][15] - 配套工具MatFormer Lab将发布,用于检索最佳模型配置 [16] 端侧优化技术 - 引入逐层嵌入(PLE)技术,将部分参数加载到CPU,仅核心权重需VRAM存储,内存占用降至2B/4B水平 [17][18] - 采用KV缓存共享技术,预填充性能较Gemma 3-4B提升2倍,优化长序列处理 [19] 多模态支持 音频处理 - 集成基于USM的音频编码器,支持160毫秒音频转Token,实现端侧ASR/AST功能 [20] - 流式编码器默认支持30秒音频片段,可通过训练扩展至任意长度 [20] 视觉处理 - 搭载MobileNet-V5-300M视觉编码器,支持256x256至768x768分辨率,Pixel设备处理速度达60FPS [21] - 架构较MobileNet-V4扩大10倍,采用混合深度金字塔模型和多尺度融合VLM适配器 [21] 模型可用性 - 已在谷歌AI Studio及Ollama、llama.cpp等第三方工具上线,权重可通过Hugging Face获取 [8] - 技术细节持续公开,MobileNet-V5技术报告将后续发布 [22]