Workflow
国泰海通证券产业观察:【AI产业跟踪】Gemma 3实现轻量级架构与卓越性能的有机整合,适配多元应用场景,精准满足不同环境下的运行需求
国泰海通证券·2025-04-23 14:17

模型架构 - Gemma 3 延续 decoder - only Transformer 架构,采用分组查询注意力(GQA)和 OK - norm 技术,提升注意力机制效率和稳定性[8] - 推出 1B 至 27B 四款不同参数规模模型,支持 128K 个 token 的上下文长度,适配不同硬件和性能需求[9] - 局部/全局层交错设计,每 5 个局部层搭配 1 个全局层,支持 128K 个 token 的长上下文,降低计算复杂度[11][26] 多模态能力 - 视觉模式通过 SigLIP 视觉编码器和 Pan&Scan 算法,实现图像与文本信息融合,拓展应用场景[4][12] - 预训练扩大训练数据规模,如 27B 模型采用 14T tokens 训练,优化数据多样性,提升泛化和多语言处理能力[12][19] - 在智能客服和图像内容审核领域有创新应用,如 Google 的 4B 图像安全检查器 ShieldGemma 2 准确率达 99.2%[23][25] 性能优化 - 量化感知训练针对不同推理引擎优化权重表示,降低计算需求和模型大小[12] - 算力基础设施利用先进 TPU 设备,采用 ZeRO - 3、Pathways 等方法提高训练效率[14] - 指令微调构建 2500 万个高质量多模态指令数据集,提升模型对用户指令意图的理解能力[14] 风险提示 - 大语言模型的技术进展不及预期、人工智能的知识幻觉无法避免、算法或功能优化不及预期等[4][33]