120亿参数跑在16G笔记本上，谷歌Gemma 4新成员杀来了

产品发布与定位 - 谷歌正式推出Gemma 4 12B模型，目标是将具备智能体能力的多模态智能直接带到笔记本电脑上[1] - 该模型介于面向边缘设备的E4B与能力更强的26B混合专家模型之间，在更小的内存占用下提供强大能力[3] - 该模型是谷歌首个支持原生音频输入的中等规模模型[3] 性能表现与效率 - 在一系列基准测试中，Gemma 4 12B的表现接近谷歌更大的26B MoE模型，但整体内存占用不到后者的一半[5] - 模型规模足够小，只需16GB显存或统一内存即可在消费级笔记本电脑上本地运行[3][7] - 在RTX 4090上的对比测试显示，Gemma 4 12B占用9GB显存，生成8.9k tokens，速度80 tokens/s；而Gemma 4 26B-A4B占用15GB显存，生成6.9k tokens，速度138 tokens/s[8] - 26B-A4B模型在测试中胜出且运行速度快约1.7倍，但12B模型表现非常接近，同时显存占用几乎只有一半，使其成为16GB笔记本上的理想本地模型[9] 技术架构与创新 - 采用全新的统一架构，不再使用多模态编码器，视觉和音频输入可以直接进入LLM主干网络[7][12] - 处理视觉和音频输入的方式更加精简，移除了传统分离式编码器，以降低延迟和内存占用[12] - 视觉处理使用一个由一次矩阵乘法、位置嵌入和归一化组成的轻量级嵌入模块替代了视觉编码器[12] - 音频处理完全移除了音频编码器，并将原始音频信号投影到与文本token相同的维度空间中[12] - 模型配备了多Token预测草稿模型，可用于降低延迟[7] 市场影响与生态 - 谷歌Gemma系列模型下载量已突破1.5亿次[1][3] - 模型采用Apache 2.0许可证发布，并支持广泛的开发者生态[7] - 用户可通过LM Studio、Ollama、Google AI Edge Gallery App等多个渠道进行试用[5] - 开发者可用其构建从可穿戴机器人手臂到企业级AI安全系统等各种应用[4]