谷歌Gemma 3n发布 - 谷歌正式发布开源大模型Gemma 3n完整版,支持在本地硬件运行,具备输入图像、音频和视频能力,支持文本输出,最低可在2GB内存设备运行[1][2] - Gemma系列面向开发者,与封闭专有的Gemini不同,可供下载和修改[2] - Gemma 3n的E4B模型成为首个参数低于10B但LMArena测评得分突破1300的模型,表现优于Llama 4 Maverick 17B、GPT 4.1-nano、Phi-4[2] 技术架构创新 - 采用MatFormer架构,类似俄罗斯套娃设计,大模型内嵌套完整子模型,实现性能与资源动态平衡[10][12] - 引入Per-Layer Embeddings机制,E2B和E4B模型核心Transformer权重仅需2B和4B存储在加速器内存[17] - 新增KV Cache Sharing机制,使长文本推理首个Token生成速度提升2倍[19] - 搭载MobileNet-V5-300M视觉编码器,在Pixel设备实现每秒60帧处理,速度提升13倍,参数减少46%,内存占用缩小4倍[20] 多模态能力 - 原生支持图像、音频、视频和文本输入及文本输出[4] - 音频处理采用Universal Speech Model编码器,支持语音识别和翻译,在英西法意葡语间转换效果突出[21][22] - 开发者测试显示E4B模型在单GPU微调时仅占用18GB VRAM,比Gemma-4B节省3GB[9] 开发者生态 - 与AMD、NVIDIA等十多家公司合作,提供多种运行方式[5] - 推出MatFormer Lab工具,帮助开发者基于基准测试快速选择最优模型配置[13] - 支持预提取模型开箱即用和Mix-n-Match定制,E2B子模型推理速度可达E4B的2倍[14]
2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录