谷歌重磅开源Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决
AI前线·2026-04-03 01:40

Gemma 4 模型发布与核心特性 - 谷歌正式发布Gemma 4系列,称其为“迄今为止最智能的开放模型系列”,采用商业许可的Apache 2.0许可证开源 [2] - 模型提供四种规格:Effective 2B (E2B)、Effective 4B (E4B)、26B混合专家模型(MoE)和31B稠密模型(Dense) [3] - 该系列建立在与Gemini 3相同的架构基础上,旨在处理复杂推理任务,并支持在低功耗设备上本地运行的自主AI Agent [4] 模型规格与性能表现 - 端侧模型E2B和E4B针对移动和物联网设备优化,推理时分别激活约20亿和40亿参数,以降低内存和电量消耗 [3] - 26B MoE模型在推理任务中只会激活38亿参数,以平衡运行速度与知识储备 [3] - 31B Dense版本在Arena AI文本排行榜(截至2026年2月1日)中排名全球开放模型第3位,26B MoE模型排名第6位 [8] - 谷歌表示,Gemma 4在部分基准测试中表现优于参数大20倍的模型 [10] - 有网友测算Qwen3.5-27B在MMLU-Pro (86.1 vs 85.2)和GPQA Diamond (85.5 vs 84.3)等基准上略优于Gemma 4 31B [13][14] 关键性能提升与能力 - 推理能力更强:所有模型面向复杂推理任务优化,并提供可配置的“思考”模式 [4] - 多模态能力扩展:所有模型支持文本和图像输入,E2B和E4B还原生支持视频与音频输入 [4] - 上下文窗口更大:端侧模型为128K,较大模型(26B/31B)最高256K [4] - 编码与智能体能力增强:代码能力基准测试有明显提升,内置函数调用支持以驱动自主Agent [4] - 原生支持系统提示词:内置system role支持,使对话结构更清晰且易于控制模型行为 [4] 针对AI Agent与本地运行的优化 - 每个Gemma 4模型都更适合用于运行AI Agent,原生支持函数调用、结构化JSON输出、系统指令及超过140种语言 [6] - 端侧模型已与谷歌Pixel团队、高通和联发科等硬件厂商合作,可在手机、Raspberry Pi、NVIDIA Jetson Nano等设备上离线运行,延迟接近零 [3] - 26B和31B模型针对消费级GPU优化,使学生、研究人员和开发者能将工作站变成以本地优先为核心的AI服务器 [3] - 有网友评价称,四种尺寸全部为Agent场景做好准备且可在本地运行,满足了无需云端“思考”的需求 [14] 开源许可与部署支持 - 继续采用Apache 2.0许可证,允许商业使用、自由修改和部署,旨在给予开发者对数据、基础设施和模型的完全控制权 [15] - 提供了使用不同精度运行推理所需的大致GPU/TPU内存估算,例如31B模型在BF16精度下需58.3 GB,在Q4_0量化下需17.4 GB [16] - 开发者可通过谷歌云、Hugging Face、Kaggle和Ollama等平台获取模型及开放权重,Android开发者可在AICore Developer Preview中试用智能体工作流原型 [18] - 提供了多种推理和微调路径支持,包括Hugging Face、vLLM、NVIDIA NIM等,并开箱支持NVIDIA、AMD GPU及Google Cloud TPU [19] 架构设计与效率考量 - E2B和E4B中的“E”指“有效参数”,采用PLE(每层嵌入)技术提升端侧部署时的参数利用效率,但实际加载到内存中的静态权重会高于有效参数规模对应的占用 [17] - 26B MoE版本生成时每个token实际激活约40亿参数,但全部260亿参数需提前载入内存,因此实际显存需求更接近稠密26B模型 [17] - 官方内存估算通常只覆盖静态模型权重,不包含运行框架、上下文窗口、KV Cache的额外开销,微调需求会明显高于推理阶段 [17] 行业影响与战略意义 - 此次发布凸显了谷歌想要主导“本地AI”产业的雄心,模型小到足以在单张图形处理器上运行,适合边缘场景及对低延迟和数字主权有高要求的应用 [18] - 行业分析师认为,谷歌正通过Gemma 4这样的开放模型扩大在AI领域的领先优势,这些模型对构建AI开发生态及切入不同设备形态下的应用场景非常重要 [18] - 新模型采用与谷歌专有模型相同等级的基础设施安全协议,适用于企业和主权机构的高标准安全与可靠性要求 [19]

谷歌重磅开源Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决 - Reportify