Gemma 4 - 财报，业绩电话会，研报，新闻

Gemma 4

搜索文档

机器之心· 2026-04-03 18:39

模型发布与定位 - 谷歌开源了其最新的开放模型系列Gemma 4，该系列被描述为当前开源世界最强的模型家族[4] - 该系列模型基于与Gemini 3相同的研究成果构建，在Arena AI排行榜上位列全球第三，且性能超越了参数量比它大20倍的模型[5] - 模型使用Apache 2.0开源许可证，允许完全的商用自由[1] 模型架构与规模 - Gemma 4是多模态模型，可处理文本和图片输入（小型模型支持音频输入）并生成文本输出[3] - 模型同时采用密集型架构和混合专家架构，提供四种不同规模：E2B、E4B、26B A4B和31B[3] - 其中，26B A4B是混合专家模型，总参数252亿，但在推理期间仅激活38亿个有效参数，运行速度接近40亿参数模型[15] - E2B和E4B中的“E”代表“有效”参数，采用每层嵌入技术以提高设备端部署的参数效率[14] - 模型采用混合注意力机制，结合局部滑动窗口注意力和全局注意力，以平衡处理速度与长上下文理解能力[11] 性能表现与基准测试 - 在多项基准测试中，Gemma 4各型号表现优异。例如，31B指令调优版在MMLU多语言问答基准上得分85.2%，在AIME 2026数学基准（无工具）上得分89.2%[9] - 31B版本在LiveCodeBench v6竞争性编程问题上得分80.0%，在GPQA Diamond科学知识基准上得分84.3%[9] - 在视觉任务上，31B版本在MMMU Pro多模态推理基准上得分76.9%，在MATH-Vision基准上得分85.6%[33] - 体量最大的31B版本使用单块80GB H100 GPU即可实现完整精度推理，其能力水平与Qwen 3.5 397B相当[6] 技术规格与功能 - 模型的上下文窗口最大可容纳25.6万token（26B A4B和31B），小型模型（E2B/E4B）为12.8万token，支持超过140种语言[3][13] - 模型核心功能包括：内置“思考”推理模式、长上下文理解、图片理解（对象检测、OCR等）、视频分析、交织的多模态输入、原生函数调用、代码生成与多语言支持[35][39] - E2B和E4B型号额外原生支持音频模态，可用于自动语音识别和语音翻译[13] - 模型引入了对系统提示的原生支持，以实现更结构化和可控的对话[13] 部署与硬件要求 - 模型设计目标覆盖从高端手机、笔记本电脑到服务器的各种部署环境[3] - E2B和E4B专为手机、平板等端侧设备本地推理设计，并与高通、联发科进行了联合优化[8] - 不同精度下的推理内存要求各异：例如，31B模型在BF16精度下需约58.3 GB内存，在4位量化（Q4_0）下需约17.4 GB内存[28] - 26B A4B MoE模型在BF16精度下需约48 GB内存，在4位量化下需约15.6 GB内存[28] 训练数据与安全 - 预训练数据集规模大且多样化，涵盖网页文档、代码、图片、音频等，数据截止日期为2025年1月[37] - 训练数据包含超过140种语言的内容[39] - 在数据预处理中应用了严格的CSAM（儿童性虐待内容）过滤、敏感数据过滤以及基于内容质量和安全性的过滤[39]

计算机行业双周报（2026、3、20-2026、4、2）：国内Token调用量两年增长超千倍，关注国产算力投资机遇-20260403

东莞证券· 2026-04-03 18:05

报告行业投资评级 - 行业投资评级为“超配”，且评级为“维持” [1] 报告核心观点 - 国内Token调用量呈现指数级增长，截至2026年3月日均调用量已超140万亿，相比2024年初增长超1000倍，这直接驱动了底层算力需求的加速释放 [2][25][26] - 国产算力产业链有望进入新一轮周期，建议重点关注AI芯片、AI服务器及液冷散热等国产算力基础设施相关投资机遇 [2][26] - AI Agent（智能体）在2026年初迎来技术、应用、商业三维度的全面爆发，OpenClaw开源AI智能体执行框架持续火爆，海内外厂商密集推出相关产品 [2][25] 根据相关目录分别总结 1、计算机行业行情回顾 - 申万计算机板块近期表现疲弱：近2周（2026/3/20-2026/4/2）累计下跌9.37%，跑输沪深300指数7.10个百分点，在31个申万一级行业中排名垫底（第31名）[2][9] - 板块4月累计下跌0.97%，跑输沪深300指数1.62个百分点；年初至今累计下跌8.51%，跑输沪深300指数5.25个百分点 [2][9] - 个股表现分化：近两周涨幅前三的公司为中润光学（27.21%）、ST英飞拓（23.88%）和海峡创新（15.38%）；跌幅前三为杰创智能（-30.70%）、同有科技（-27.00%）和*ST国华（-25.63%）[14] 2、板块估值情况 - 截至2026年4月2日，SW计算机板块PE TTM（剔除负值）为51.02倍，估值处于历史较高分位：近5年77.80%分位、近10年64.31%分位 [2][19] 3、产业新闻 - **谷歌发布Gemma 4开源大模型**：包括20亿、40亿、260亿（MoE）和310亿参数四种规格 [20] - **智谱API调用量价齐升**：2026年一季度其API调用定价提升83%，调用量仍增长400%，已成为国内付费Token消耗量最高的厂商之一 [2][20] - **腾讯WorkBuddy“自研虾”小程序上线**：支持云端与本地双模式运行，将AI能力集成进微信 [2][20] - **三大运营商算力收入提升**：2025年资本开支继续向算力倾斜，Token经营逐渐成为经营主线 [2][20][22] - **华为发布新一代算力芯片**：昇腾950PR（Ascend 950PR）在低精度数据格式、向量算力、互联带宽及自研HBM等方面实现大幅提升 [2][22] - **国内Token调用量爆发**：截至2026年3月，我国日均Token调用量已超140万亿，相比2024年初增长超1000倍；国产大模型如Minimax、DeepSeek调用量排至全球前列 [2][22] 4、公司公告（部分重点公司2025年业绩） - **金山办公**：2025年营收59.29亿元，同比增长15.78%；归母净利润18.36亿元，同比增长11.63% [22] - **恒生电子**：2025年营收57.83亿元，同比下降12.13%；净利润12.31亿元，同比增长18.01% [23] - **深信服**：2025年营收80.43亿元，同比增长6.96%；归母净利润3.93亿元，同比增长99.52% [23] - **高伟达**：2025年营收10.3亿元，同比下降12.36%；净利润2869.59万元，同比下降8.49% [23] - **鼎捷数智**：2025年营收24.33亿元，同比增长4.39%；归母净利润1.63亿元，同比增长5.04% [24] - **常山北明**：2025年营收75.38亿元，同比下降14.52%；归母净利润0.33亿元，同比扭亏为盈 [24] 5、本周观点及建议关注标的 - **核心观点**：重申国内Token调用量激增驱动算力需求，国产算力产业链进入新周期，看好AI芯片、AI服务器、液冷散热等领域 [26] - **建议关注标的及理由**： - **广电运通 (002152.SZ)**：金融科技主业稳健，数据要素、算力布局深化 [27] - **神州数码 (000034.SZ)**：“鲲鹏+昇腾”产业链核心伙伴，受益国产算力需求上升 [27] - **浪潮信息 (000977.SZ)**：AI服务器全球领先，行业地位稳固 [27] - **税友股份 (603171.SH)**：领先财税信息化服务商，受益新一轮财税改革 [27] - **软通动力 (301236.SZ)**：华为核心伙伴，鸿蒙生态建设领先 [27] - **赛意信息 (300687.SZ)**：积极布局AI Agent，推出差异化智能体解决方案 [27]

英伟达联手谷歌优化Gemma 4，AI推理从云端走向本地，通信ETF（515880）大涨3%

每日经济新闻· 2026-04-03 10:15

英伟达与谷歌合作推动AI推理本地化与边缘化 - 英伟达与谷歌合作对Gemma 4开源模型进行GPU深度优化，使其可在RTX PC、DGX Spark、Jetson边缘设备高效运行，推动AI代理从云端走向本地[1][2] - Gemma 4家族包括E2B、E4B、26B和31B四种规模，覆盖边缘设备、移动端、工作站及高性能服务器全场景硬件[2] - Gemma 4原生支持函数调用、复杂推理和代码生成，可作为AI代理执行本地文件访问、应用程序控制和日常任务自动化，OpenClaw平台已兼容该模型[2] AI推理需求爆发与市场拐点 - 过去两年，AI推理需求增长了约100倍，计算量增长了1万倍[3] - 英伟达在GTC 2026上指出AI已进入推理时代，未来三年AI芯片市场规模有望突破1万亿美元[4] - 英伟达预测到2027年Blackwell与Vera Rubin产品线收入达1万亿美元，远超此前预期，增长驱动力来自推理[4] - Gemma 4的本地化部署将激活边缘推理市场，对服务器、光模块、铜连接、边缘计算硬件产生新的增量需求[3] LPU+GPU异构架构与光互联升级 - 英伟达收购Groq团队推出LPU，与GPU形成异构协同，使推理吞吐量每瓦提升35倍[6] - Groq 3 LPU预计2026Q3出货，LPX机架集成256个LPU，专为低延迟推理设计[6] - 异构架构对光互联带宽提出更高要求，直接拉动光模块、铜缆、CPO需求[6] - Vera Rubin Ultra NVL576及Kyber NVL1152将在Scale-up的L2层采用光互联，CPO/NPO/XPO多技术路线并行[6] - 2026年起Scale-up侧光互联以CPO/NPO形态开始渗透，光互联在AI集群的价值量占比将持续抬升[6] 光铜并行与光纤技术升级 - OFC 2026期间成立XPO MSA、OCI-MSA等多个多源协议组织，聚焦超大规模AI数据中心互连需求[7] - 行业共识为光铜“双轨制”：机柜内短距场景铜缆凭借低延时、低成本不可替代；机柜间光互联随带宽需求提升加速渗透[7] - 长飞在OFC展示单盘91.2km、衰减0.04dB/km的空芯光纤，可显著提升算力利用率、降低传输时延[7] - 康宁展示多芯光纤解决方案，将光纤容量提升数倍，安装时间缩短60%[7] - 北美数据中心对光纤需求大幅提振，国内厂商份额有望快速提升，光纤价格有望延续上行趋势[7][9] 通信硬件产业链迎来全栈式机遇 - AI推理从云端向边缘设备扩散，结合云端算力高景气，通信硬件迎来“云端+边缘”双轮驱动[9] - 北美五大CSP 2026年资本开支合计预计达7295亿美元，同比增速超60%[9] - 光模块、高速铜缆、光纤光缆作为算力基础设施核心部件，需求确定性强[9] - 边缘推理将带动边缘数据中心的光互联需求，以及端侧设备与云端之间的网络升级[9] - 国产供应链迎来机遇，北美数据中心光纤需求外溢至国内厂商，国内算力基建同步开启[9] 通信ETF作为AI算力投资工具 - 通信ETF国泰（515880）覆盖光模块、铜连接、光纤光缆等算力核心环节[1] - 该ETF超过45%的权重集中于光模块，算力核心环节合计占比超75%[11] - 通信ETF国泰（515880）2025年内涨幅125.81%，居全市场ETF第一名[11] - 截至2026/4/2，该ETF规模为143.64亿，在同类15只产品中排名第一[12]

Communications Equipment

Communications Equipment

Gemma 4

2B开源模型手机养虾！谷歌Gemini 3技术下放：支持语音视频多模态，全免费可商用

量子位· 2026-04-03 08:19

文章核心观点 - 谷歌最新发布的Gemma 4系列开源模型，凭借31B的参数量，在竞技场榜单中超越了参数量大10-20倍的对手，并跻身开源模型前三，展现了卓越的性能与效率 [1][3] - Gemma 4系列模型全系支持多模态，并采用Apache 2.0开源协议，其设计核心是“效率优先”，通过不同尺寸模型满足从云端到手机、树莓派等边缘设备的多样化部署需求，显著降低了AI应用的门槛 [5][9][29] 模型性能与排名 - **竞技场排名表现**：Gemma 4的31B密集模型在竞技场中排名第27位，其Elo评分为1452 ±9，击败了参数量达397B的Qwen3.5和671B的DeepSeek v3.2等对手 [1][3][5] - **领先的竞争对手**：目前排名在Gemma 4之前的模型是参数量为745B的GLM-5和1T的Kimi K2.5，均为2026年的最新旗舰模型 [4] - **开源模型地位**：该31B模型在全球开源模型中排名第三，其26B MoE模型排名全球开源第六 [1][11] 模型系列与架构特点 - **全系多模态**：Gemma 4系列包含四个尺寸模型：2B、4B、26B MoE和31B Dense，全部基于Gemini 3同款技术打造，并原生支持多模态处理 [5][6] - **效率优先设计**：31B Dense模型适合微调；26B MoE模型在推理时仅激活3.8B参数，以追求最快的推理速度 [9][10][11] - **小模型大能力**：专为端侧设计的E2B和E4B模型，采用低激活率MoE架构，推理时分别仅激活2B和4B参数，却能在手机、树莓派等设备上离线运行，原生处理音频和视觉任务 [7][17][18][19] 技术能力与强化重点 - **六大核心能力**：Gemma 4家族重点强化了高级推理、Agent工作流原生支持、高质量离线代码生成、视觉和音频原生处理、长上下文支持（最高256K）以及对140多种语言的原生支持 [16] - **端侧突破**：手机等设备可完全不联网，直接通过摄像头和麦克风进行多模态交互，实现零延迟、零云端依赖的体验 [8][20][21] - **硬件门槛低**：未量化的bfloat16权重版本，单张80GB的H100 GPU即可运行；量化后的版本可在普通消费级GPU上本地运行 [12][13] 开源协议与社区影响 - **协议变更**：Gemma 4全面采用Apache 2.0开源协议，允许免费商用，并可部署在任何环境，此举回应了社区长期以来的呼声 [29][30][31] - **社区反响**：Hugging Face CEO认为此举是开源AI社区的“一个分水岭”和“巨大的里程碑” [32][33] - **社区生态**：截至目前，Gemma系列模型累计下载量已超过4亿次，社区贡献的模型变体超过10万个 [34] 应用价值与行业影响 - **降低创新成本**：开源模型使开发者无需支付高昂的API调用费用，例如耶鲁大学的研究团队利用Gemma作为基座模型进行癌症治疗靶点发现，节省了数百万美元的成本 [40][41] - **推动边缘计算**：通过与高通、联发科及自家Pixel手机的深度优化，谷歌打通了从芯片、模型到设备的全链路，推动了AI在边缘设备和物联网上的普及 [21] - **模型演进**：与仅支持纯文本的Gemma 1（2024年2月）、Gemma 2（2024年6月）以及多模态能力有限的Gemma 3（2025年3月）相比，Gemma 4将强大的多模态与智能体能力带入了端侧小模型，标志着能力的重大飞跃 [22][23][24][25][26]

谷歌(US:GOOG)

开源模型

多模态

Artificial Intelligence

Artificial Intelligence

Gemma 4

Gemini 3

DeepSeek v3.2-671B

谷歌重磅开源Gemma 4！手机离线跑 Agent、还降内存，Qwen 被拉进正面对决

AI前线· 2026-04-03 01:40

Gemma 4 模型发布与核心特性 - 谷歌正式发布Gemma 4系列，称其为“迄今为止最智能的开放模型系列”，采用商业许可的Apache 2.0许可证开源 [2] - 模型提供四种规格：Effective 2B (E2B)、Effective 4B (E4B)、26B混合专家模型(MoE)和31B稠密模型(Dense) [3] - 该系列建立在与Gemini 3相同的架构基础上，旨在处理复杂推理任务，并支持在低功耗设备上本地运行的自主AI Agent [4] 模型规格与性能表现 - 端侧模型E2B和E4B针对移动和物联网设备优化，推理时分别激活约20亿和40亿参数，以降低内存和电量消耗 [3] - 26B MoE模型在推理任务中只会激活38亿参数，以平衡运行速度与知识储备 [3] - 31B Dense版本在Arena AI文本排行榜（截至2026年2月1日）中排名全球开放模型第3位，26B MoE模型排名第6位 [8] - 谷歌表示，Gemma 4在部分基准测试中表现优于参数大20倍的模型 [10] - 有网友测算Qwen3.5-27B在MMLU-Pro (86.1 vs 85.2)和GPQA Diamond (85.5 vs 84.3)等基准上略优于Gemma 4 31B [13][14] 关键性能提升与能力 - 推理能力更强：所有模型面向复杂推理任务优化，并提供可配置的“思考”模式 [4] - 多模态能力扩展：所有模型支持文本和图像输入，E2B和E4B还原生支持视频与音频输入 [4] - 上下文窗口更大：端侧模型为128K，较大模型（26B/31B）最高256K [4] - 编码与智能体能力增强：代码能力基准测试有明显提升，内置函数调用支持以驱动自主Agent [4] - 原生支持系统提示词：内置system role支持，使对话结构更清晰且易于控制模型行为 [4] 针对AI Agent与本地运行的优化 - 每个Gemma 4模型都更适合用于运行AI Agent，原生支持函数调用、结构化JSON输出、系统指令及超过140种语言 [6] - 端侧模型已与谷歌Pixel团队、高通和联发科等硬件厂商合作，可在手机、Raspberry Pi、NVIDIA Jetson Nano等设备上离线运行，延迟接近零 [3] - 26B和31B模型针对消费级GPU优化，使学生、研究人员和开发者能将工作站变成以本地优先为核心的AI服务器 [3] - 有网友评价称，四种尺寸全部为Agent场景做好准备且可在本地运行，满足了无需云端“思考”的需求 [14] 开源许可与部署支持 - 继续采用Apache 2.0许可证，允许商业使用、自由修改和部署，旨在给予开发者对数据、基础设施和模型的完全控制权 [15] - 提供了使用不同精度运行推理所需的大致GPU/TPU内存估算，例如31B模型在BF16精度下需58.3 GB，在Q4_0量化下需17.4 GB [16] - 开发者可通过谷歌云、Hugging Face、Kaggle和Ollama等平台获取模型及开放权重，Android开发者可在AICore Developer Preview中试用智能体工作流原型 [18] - 提供了多种推理和微调路径支持，包括Hugging Face、vLLM、NVIDIA NIM等，并开箱支持NVIDIA、AMD GPU及Google Cloud TPU [19] 架构设计与效率考量 - E2B和E4B中的“E”指“有效参数”，采用PLE（每层嵌入）技术提升端侧部署时的参数利用效率，但实际加载到内存中的静态权重会高于有效参数规模对应的占用 [17] - 26B MoE版本生成时每个token实际激活约40亿参数，但全部260亿参数需提前载入内存，因此实际显存需求更接近稠密26B模型 [17] - 官方内存估算通常只覆盖静态模型权重，不包含运行框架、上下文窗口、KV Cache的额外开销，微调需求会明显高于推理阶段 [17] 行业影响与战略意义 - 此次发布凸显了谷歌想要主导“本地AI”产业的雄心，模型小到足以在单张图形处理器上运行，适合边缘场景及对低延迟和数字主权有高要求的应用 [18] - 行业分析师认为，谷歌正通过Gemma 4这样的开放模型扩大在AI领域的领先优势，这些模型对构建AI开发生态及切入不同设备形态下的应用场景非常重要 [18] - 新模型采用与谷歌专有模型相同等级的基础设施安全协议，适用于企业和主权机构的高标准安全与可靠性要求 [19]