谷歌开源Gemma 4，干掉了13倍体量的Qwen3.5

模型发布与定位 - 谷歌开源了其最新的开放模型系列Gemma 4，该系列被描述为当前开源世界最强的模型家族[4] - 该系列模型基于与Gemini 3相同的研究成果构建，在Arena AI排行榜上位列全球第三，且性能超越了参数量比它大20倍的模型[5] - 模型使用Apache 2.0开源许可证，允许完全的商用自由[1] 模型架构与规模 - Gemma 4是多模态模型，可处理文本和图片输入（小型模型支持音频输入）并生成文本输出[3] - 模型同时采用密集型架构和混合专家架构，提供四种不同规模：E2B、E4B、26B A4B和31B[3] - 其中，26B A4B是混合专家模型，总参数252亿，但在推理期间仅激活38亿个有效参数，运行速度接近40亿参数模型[15] - E2B和E4B中的“E”代表“有效”参数，采用每层嵌入技术以提高设备端部署的参数效率[14] - 模型采用混合注意力机制，结合局部滑动窗口注意力和全局注意力，以平衡处理速度与长上下文理解能力[11] 性能表现与基准测试 - 在多项基准测试中，Gemma 4各型号表现优异。例如，31B指令调优版在MMLU多语言问答基准上得分85.2%，在AIME 2026数学基准（无工具）上得分89.2%[9] - 31B版本在LiveCodeBench v6竞争性编程问题上得分80.0%，在GPQA Diamond科学知识基准上得分84.3%[9] - 在视觉任务上，31B版本在MMMU Pro多模态推理基准上得分76.9%，在MATH-Vision基准上得分85.6%[33] - 体量最大的31B版本使用单块80GB H100 GPU即可实现完整精度推理，其能力水平与Qwen 3.5 397B相当[6] 技术规格与功能 - 模型的上下文窗口最大可容纳25.6万token（26B A4B和31B），小型模型（E2B/E4B）为12.8万token，支持超过140种语言[3][13] - 模型核心功能包括：内置“思考”推理模式、长上下文理解、图片理解（对象检测、OCR等）、视频分析、交织的多模态输入、原生函数调用、代码生成与多语言支持[35][39] - E2B和E4B型号额外原生支持音频模态，可用于自动语音识别和语音翻译[13] - 模型引入了对系统提示的原生支持，以实现更结构化和可控的对话[13] 部署与硬件要求 - 模型设计目标覆盖从高端手机、笔记本电脑到服务器的各种部署环境[3] - E2B和E4B专为手机、平板等端侧设备本地推理设计，并与高通、联发科进行了联合优化[8] - 不同精度下的推理内存要求各异：例如，31B模型在BF16精度下需约58.3 GB内存，在4位量化（Q4_0）下需约17.4 GB内存[28] - 26B A4B MoE模型在BF16精度下需约48 GB内存，在4位量化下需约15.6 GB内存[28] 训练数据与安全 - 预训练数据集规模大且多样化，涵盖网页文档、代码、图片、音频等，数据截止日期为2025年1月[37] - 训练数据包含超过140种语言的内容[39] - 在数据预处理中应用了严格的CSAM（儿童性虐待内容）过滤、敏感数据过滤以及基于内容质量和安全性的过滤[39]