模型发布与定位 - 谷歌开源了其最新的开放模型系列Gemma 4,该系列被描述为当前开源世界最强的模型家族[4] - 该系列模型基于与Gemini 3相同的研究成果构建,在Arena AI排行榜上位列全球第三,且性能超越了参数量比它大20倍的模型[5] - 模型使用Apache 2.0开源许可证,允许完全的商用自由[1] 模型架构与规模 - Gemma 4是多模态模型,可处理文本和图片输入(小型模型支持音频输入)并生成文本输出[3] - 模型同时采用密集型架构和混合专家架构,提供四种不同规模:E2B、E4B、26B A4B和31B[3] - 其中,26B A4B是混合专家模型,总参数252亿,但在推理期间仅激活38亿个有效参数,运行速度接近40亿参数模型[15] - E2B和E4B中的“E”代表“有效”参数,采用每层嵌入技术以提高设备端部署的参数效率[14] - 模型采用混合注意力机制,结合局部滑动窗口注意力和全局注意力,以平衡处理速度与长上下文理解能力[11] 性能表现与基准测试 - 在多项基准测试中,Gemma 4各型号表现优异。例如,31B指令调优版在MMLU多语言问答基准上得分85.2%,在AIME 2026数学基准(无工具)上得分89.2%[9] - 31B版本在LiveCodeBench v6竞争性编程问题上得分80.0%,在GPQA Diamond科学知识基准上得分84.3%[9] - 在视觉任务上,31B版本在MMMU Pro多模态推理基准上得分76.9%,在MATH-Vision基准上得分85.6%[33] - 体量最大的31B版本使用单块80GB H100 GPU即可实现完整精度推理,其能力水平与Qwen 3.5 397B相当[6] 技术规格与功能 - 模型的上下文窗口最大可容纳25.6万token(26B A4B和31B),小型模型(E2B/E4B)为12.8万token,支持超过140种语言[3][13] - 模型核心功能包括:内置“思考”推理模式、长上下文理解、图片理解(对象检测、OCR等)、视频分析、交织的多模态输入、原生函数调用、代码生成与多语言支持[35][39] - E2B和E4B型号额外原生支持音频模态,可用于自动语音识别和语音翻译[13] - 模型引入了对系统提示的原生支持,以实现更结构化和可控的对话[13] 部署与硬件要求 - 模型设计目标覆盖从高端手机、笔记本电脑到服务器的各种部署环境[3] - E2B和E4B专为手机、平板等端侧设备本地推理设计,并与高通、联发科进行了联合优化[8] - 不同精度下的推理内存要求各异:例如,31B模型在BF16精度下需约58.3 GB内存,在4位量化(Q4_0)下需约17.4 GB内存[28] - 26B A4B MoE模型在BF16精度下需约48 GB内存,在4位量化下需约15.6 GB内存[28] 训练数据与安全 - 预训练数据集规模大且多样化,涵盖网页文档、代码、图片、音频等,数据截止日期为2025年1月[37] - 训练数据包含超过140种语言的内容[39] - 在数据预处理中应用了严格的CSAM(儿童性虐待内容)过滤、敏感数据过滤以及基于内容质量和安全性的过滤[39]
谷歌开源Gemma 4,干掉了13倍体量的Qwen3.5