2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

谷歌Gemma 3n发布 - 谷歌正式发布开源大模型Gemma 3n完整版，支持在本地硬件运行，具备输入图像、音频和视频能力，支持文本输出，最低可在2GB内存设备运行[1][2] - Gemma系列面向开发者，与封闭专有的Gemini不同，可供下载和修改[2] - Gemma 3n的E4B模型成为首个参数低于10B但LMArena测评得分突破1300的模型，表现优于Llama 4 Maverick 17B、GPT 4.1-nano、Phi-4[2] 技术架构创新 - 采用MatFormer架构，类似俄罗斯套娃设计，大模型内嵌套完整子模型，实现性能与资源动态平衡[10][12] - 引入Per-Layer Embeddings机制，E2B和E4B模型核心Transformer权重仅需2B和4B存储在加速器内存[17] - 新增KV Cache Sharing机制，使长文本推理首个Token生成速度提升2倍[19] - 搭载MobileNet-V5-300M视觉编码器，在Pixel设备实现每秒60帧处理，速度提升13倍，参数减少46%，内存占用缩小4倍[20] 多模态能力 - 原生支持图像、音频、视频和文本输入及文本输出[4] - 音频处理采用Universal Speech Model编码器，支持语音识别和翻译，在英西法意葡语间转换效果突出[21][22] - 开发者测试显示E4B模型在单GPU微调时仅占用18GB VRAM，比Gemma-4B节省3GB[9] 开发者生态 - 与AMD、NVIDIA等十多家公司合作，提供多种运行方式[5] - 推出MatFormer Lab工具，帮助开发者基于基准测试快速选择最优模型配置[13] - 支持预提取模型开箱即用和Mix-n-Match定制，E2B子模型推理速度可达E4B的2倍[14]