谷歌重磅开源Gemma 4！手机离线跑 Agent、还降内存，Qwen 被拉进正面对决

Gemma 4 模型发布与核心特性 - 谷歌正式发布Gemma 4系列，称其为“迄今为止最智能的开放模型系列”，采用商业许可的Apache 2.0许可证开源 [2] - 模型提供四种规格：Effective 2B (E2B)、Effective 4B (E4B)、26B混合专家模型(MoE)和31B稠密模型(Dense) [3] - 该系列建立在与Gemini 3相同的架构基础上，旨在处理复杂推理任务，并支持在低功耗设备上本地运行的自主AI Agent [4] 模型规格与性能表现 - 端侧模型E2B和E4B针对移动和物联网设备优化，推理时分别激活约20亿和40亿参数，以降低内存和电量消耗 [3] - 26B MoE模型在推理任务中只会激活38亿参数，以平衡运行速度与知识储备 [3] - 31B Dense版本在Arena AI文本排行榜（截至2026年2月1日）中排名全球开放模型第3位，26B MoE模型排名第6位 [8] - 谷歌表示，Gemma 4在部分基准测试中表现优于参数大20倍的模型 [10] - 有网友测算Qwen3.5-27B在MMLU-Pro (86.1 vs 85.2)和GPQA Diamond (85.5 vs 84.3)等基准上略优于Gemma 4 31B [13][14] 关键性能提升与能力 - 推理能力更强：所有模型面向复杂推理任务优化，并提供可配置的“思考”模式 [4] - 多模态能力扩展：所有模型支持文本和图像输入，E2B和E4B还原生支持视频与音频输入 [4] - 上下文窗口更大：端侧模型为128K，较大模型（26B/31B）最高256K [4] - 编码与智能体能力增强：代码能力基准测试有明显提升，内置函数调用支持以驱动自主Agent [4] - 原生支持系统提示词：内置system role支持，使对话结构更清晰且易于控制模型行为 [4] 针对AI Agent与本地运行的优化 - 每个Gemma 4模型都更适合用于运行AI Agent，原生支持函数调用、结构化JSON输出、系统指令及超过140种语言 [6] - 端侧模型已与谷歌Pixel团队、高通和联发科等硬件厂商合作，可在手机、Raspberry Pi、NVIDIA Jetson Nano等设备上离线运行，延迟接近零 [3] - 26B和31B模型针对消费级GPU优化，使学生、研究人员和开发者能将工作站变成以本地优先为核心的AI服务器 [3] - 有网友评价称，四种尺寸全部为Agent场景做好准备且可在本地运行，满足了无需云端“思考”的需求 [14] 开源许可与部署支持 - 继续采用Apache 2.0许可证，允许商业使用、自由修改和部署，旨在给予开发者对数据、基础设施和模型的完全控制权 [15] - 提供了使用不同精度运行推理所需的大致GPU/TPU内存估算，例如31B模型在BF16精度下需58.3 GB，在Q4_0量化下需17.4 GB [16] - 开发者可通过谷歌云、Hugging Face、Kaggle和Ollama等平台获取模型及开放权重，Android开发者可在AICore Developer Preview中试用智能体工作流原型 [18] - 提供了多种推理和微调路径支持，包括Hugging Face、vLLM、NVIDIA NIM等，并开箱支持NVIDIA、AMD GPU及Google Cloud TPU [19] 架构设计与效率考量 - E2B和E4B中的“E”指“有效参数”，采用PLE（每层嵌入）技术提升端侧部署时的参数利用效率，但实际加载到内存中的静态权重会高于有效参数规模对应的占用 [17] - 26B MoE版本生成时每个token实际激活约40亿参数，但全部260亿参数需提前载入内存，因此实际显存需求更接近稠密26B模型 [17] - 官方内存估算通常只覆盖静态模型权重，不包含运行框架、上下文窗口、KV Cache的额外开销，微调需求会明显高于推理阶段 [17] 行业影响与战略意义 - 此次发布凸显了谷歌想要主导“本地AI”产业的雄心，模型小到足以在单张图形处理器上运行，适合边缘场景及对低延迟和数字主权有高要求的应用 [18] - 行业分析师认为，谷歌正通过Gemma 4这样的开放模型扩大在AI领域的领先优势，这些模型对构建AI开发生态及切入不同设备形态下的应用场景非常重要 [18] - 新模型采用与谷歌专有模型相同等级的基础设施安全协议，适用于企业和主权机构的高标准安全与可靠性要求 [19]