端侧AI周跟踪：Google发布Gemma 4，模型能力跃迁催化终端硬件升级周期

报告行业投资评级 - 增持（维持）[1] 报告核心观点 - Google发布新一代开源模型Gemma 4，其开源协议全面放开与Android体系落地将驱动端侧硬件升级，并有望开启新一轮换机周期与品类创新[1][2] - Gemma 4在模型能力上实现跃迁，特别是Agent、多模态及内存效率的优化，显著提升了端侧AI的任务承载能力并降低了硬件门槛，对产业节奏具有加速意义[2][5] 行业生态与市场驱动 - 开源协议全面放开：Gemma 4从之前的自定义许可证切换至Apache 2.0协议，提供完全商业自由，显著降低企业采用门槛，有望吸引更多开发者与商业客户回流[2] - Android体系导入：Gemma 4将作为Gemini Nano 4的基础模型，并计划于年内落地新一代旗舰Android设备，承担下一代端侧模型基座角色[2] - 生态基础雄厚：自首代发布以来，Gemma累计下载量已超过4亿次，拥有超过10万个衍生模型，初步形成Gemmaverse开发者生态[2] Gemma 4模型技术要点 - 发布与版本：Google于4月3日发布Gemma 4，包括2B、4B、26B（MoE）及31B（Dense）四个版本[5] - 核心能力增强： - 支持Agent和复杂推理，具备面向Agent场景的自主工作流执行能力[5] - 所有模型原生支持图像与视频处理，在OCR与图表理解等任务中表现突出，其中2B/4B版本额外支持原生音频输入[5] - 支持离线代码生成[5] - 小模型支持128K上下文窗口，大模型最高支持256K上下文[5] - 已在超过140种语言上进行原生训练[5] 技术迭代对端侧部署的影响 - 内存效率优化以降低硬件门槛： - 延续Per-Layer Embeddings（PLE）机制，以2B模型为例，总参数约5B，但实际推理仅需加载约2B核心权重，使模型可在当前存量中端设备上运行[5] - 通过"交替式滑动窗口+全局注意力"以及Shared KV Cache设计，使KV缓存需求较传统全注意力机制下降74%，大幅优化内存使用效率[5] - 多模态能力下沉：将视觉+音频的原生多模态能力首次下沉至2B级模型，为手机端实现理解屏幕、语音交流、跨应用操作等常用功能提供技术基础[5] - 扩大设备覆盖范围：技术优化降低了终端硬件的使用门槛，扩展了端侧AI的可触达设备基数[5] 对终端硬件产业的催化 - 端侧模型能力升级有望显著拓展端侧AI能力边界，并进一步催化终端硬件性能升级与新形态产品创新[2] - 在开源协议放宽与Android体系导入的双重驱动下，有望带动新一轮换机周期与品类突破[2]