Gemma 4
搜索文档
谷歌开源Gemma 4,干掉了13倍体量的Qwen3.5
机器之心· 2026-04-03 18:39
模型发布与定位 - 谷歌开源了其最新的开放模型系列Gemma 4,该系列被描述为当前开源世界最强的模型家族[4] - 该系列模型基于与Gemini 3相同的研究成果构建,在Arena AI排行榜上位列全球第三,且性能超越了参数量比它大20倍的模型[5] - 模型使用Apache 2.0开源许可证,允许完全的商用自由[1] 模型架构与规模 - Gemma 4是多模态模型,可处理文本和图片输入(小型模型支持音频输入)并生成文本输出[3] - 模型同时采用密集型架构和混合专家架构,提供四种不同规模:E2B、E4B、26B A4B和31B[3] - 其中,26B A4B是混合专家模型,总参数252亿,但在推理期间仅激活38亿个有效参数,运行速度接近40亿参数模型[15] - E2B和E4B中的“E”代表“有效”参数,采用每层嵌入技术以提高设备端部署的参数效率[14] - 模型采用混合注意力机制,结合局部滑动窗口注意力和全局注意力,以平衡处理速度与长上下文理解能力[11] 性能表现与基准测试 - 在多项基准测试中,Gemma 4各型号表现优异。例如,31B指令调优版在MMLU多语言问答基准上得分85.2%,在AIME 2026数学基准(无工具)上得分89.2%[9] - 31B版本在LiveCodeBench v6竞争性编程问题上得分80.0%,在GPQA Diamond科学知识基准上得分84.3%[9] - 在视觉任务上,31B版本在MMMU Pro多模态推理基准上得分76.9%,在MATH-Vision基准上得分85.6%[33] - 体量最大的31B版本使用单块80GB H100 GPU即可实现完整精度推理,其能力水平与Qwen 3.5 397B相当[6] 技术规格与功能 - 模型的上下文窗口最大可容纳25.6万token(26B A4B和31B),小型模型(E2B/E4B)为12.8万token,支持超过140种语言[3][13] - 模型核心功能包括:内置“思考”推理模式、长上下文理解、图片理解(对象检测、OCR等)、视频分析、交织的多模态输入、原生函数调用、代码生成与多语言支持[35][39] - E2B和E4B型号额外原生支持音频模态,可用于自动语音识别和语音翻译[13] - 模型引入了对系统提示的原生支持,以实现更结构化和可控的对话[13] 部署与硬件要求 - 模型设计目标覆盖从高端手机、笔记本电脑到服务器的各种部署环境[3] - E2B和E4B专为手机、平板等端侧设备本地推理设计,并与高通、联发科进行了联合优化[8] - 不同精度下的推理内存要求各异:例如,31B模型在BF16精度下需约58.3 GB内存,在4位量化(Q4_0)下需约17.4 GB内存[28] - 26B A4B MoE模型在BF16精度下需约48 GB内存,在4位量化下需约15.6 GB内存[28] 训练数据与安全 - 预训练数据集规模大且多样化,涵盖网页文档、代码、图片、音频等,数据截止日期为2025年1月[37] - 训练数据包含超过140种语言的内容[39] - 在数据预处理中应用了严格的CSAM(儿童性虐待内容)过滤、敏感数据过滤以及基于内容质量和安全性的过滤[39]
计算机行业双周报(2026、3、20-2026、4、2):国内Token调用量两年增长超千倍,关注国产算力投资机遇-20260403
东莞证券· 2026-04-03 18:05
报告行业投资评级 - 行业投资评级为“超配”,且评级为“维持” [1] 报告核心观点 - 国内Token调用量呈现指数级增长,截至2026年3月日均调用量已超140万亿,相比2024年初增长超1000倍,这直接驱动了底层算力需求的加速释放 [2][25][26] - 国产算力产业链有望进入新一轮周期,建议重点关注AI芯片、AI服务器及液冷散热等国产算力基础设施相关投资机遇 [2][26] - AI Agent(智能体)在2026年初迎来技术、应用、商业三维度的全面爆发,OpenClaw开源AI智能体执行框架持续火爆,海内外厂商密集推出相关产品 [2][25] 根据相关目录分别总结 1、计算机行业行情回顾 - 申万计算机板块近期表现疲弱:近2周(2026/3/20-2026/4/2)累计下跌9.37%,跑输沪深300指数7.10个百分点,在31个申万一级行业中排名垫底(第31名)[2][9] - 板块4月累计下跌0.97%,跑输沪深300指数1.62个百分点;年初至今累计下跌8.51%,跑输沪深300指数5.25个百分点 [2][9] - 个股表现分化:近两周涨幅前三的公司为中润光学(27.21%)、ST英飞拓(23.88%)和海峡创新(15.38%);跌幅前三为杰创智能(-30.70%)、同有科技(-27.00%)和*ST国华(-25.63%)[14] 2、板块估值情况 - 截至2026年4月2日,SW计算机板块PE TTM(剔除负值)为51.02倍,估值处于历史较高分位:近5年77.80%分位、近10年64.31%分位 [2][19] 3、产业新闻 - **谷歌发布Gemma 4开源大模型**:包括20亿、40亿、260亿(MoE)和310亿参数四种规格 [20] - **智谱API调用量价齐升**:2026年一季度其API调用定价提升83%,调用量仍增长400%,已成为国内付费Token消耗量最高的厂商之一 [2][20] - **腾讯WorkBuddy“自研虾”小程序上线**:支持云端与本地双模式运行,将AI能力集成进微信 [2][20] - **三大运营商算力收入提升**:2025年资本开支继续向算力倾斜,Token经营逐渐成为经营主线 [2][20][22] - **华为发布新一代算力芯片**:昇腾950PR(Ascend 950PR)在低精度数据格式、向量算力、互联带宽及自研HBM等方面实现大幅提升 [2][22] - **国内Token调用量爆发**:截至2026年3月,我国日均Token调用量已超140万亿,相比2024年初增长超1000倍;国产大模型如Minimax、DeepSeek调用量排至全球前列 [2][22] 4、公司公告(部分重点公司2025年业绩) - **金山办公**:2025年营收59.29亿元,同比增长15.78%;归母净利润18.36亿元,同比增长11.63% [22] - **恒生电子**:2025年营收57.83亿元,同比下降12.13%;净利润12.31亿元,同比增长18.01% [23] - **深信服**:2025年营收80.43亿元,同比增长6.96%;归母净利润3.93亿元,同比增长99.52% [23] - **高伟达**:2025年营收10.3亿元,同比下降12.36%;净利润2869.59万元,同比下降8.49% [23] - **鼎捷数智**:2025年营收24.33亿元,同比增长4.39%;归母净利润1.63亿元,同比增长5.04% [24] - **常山北明**:2025年营收75.38亿元,同比下降14.52%;归母净利润0.33亿元,同比扭亏为盈 [24] 5、本周观点及建议关注标的 - **核心观点**:重申国内Token调用量激增驱动算力需求,国产算力产业链进入新周期,看好AI芯片、AI服务器、液冷散热等领域 [26] - **建议关注标的及理由**: - **广电运通 (002152.SZ)**:金融科技主业稳健,数据要素、算力布局深化 [27] - **神州数码 (000034.SZ)**:“鲲鹏+昇腾”产业链核心伙伴,受益国产算力需求上升 [27] - **浪潮信息 (000977.SZ)**:AI服务器全球领先,行业地位稳固 [27] - **税友股份 (603171.SH)**:领先财税信息化服务商,受益新一轮财税改革 [27] - **软通动力 (301236.SZ)**:华为核心伙伴,鸿蒙生态建设领先 [27] - **赛意信息 (300687.SZ)**:积极布局AI Agent,推出差异化智能体解决方案 [27]
英伟达联手谷歌优化Gemma 4,AI推理从云端走向本地,通信ETF(515880)大涨3%
每日经济新闻· 2026-04-03 10:15
英伟达与谷歌合作推动AI推理本地化与边缘化 - 英伟达与谷歌合作对Gemma 4开源模型进行GPU深度优化,使其可在RTX PC、DGX Spark、Jetson边缘设备高效运行,推动AI代理从云端走向本地[1][2] - Gemma 4家族包括E2B、E4B、26B和31B四种规模,覆盖边缘设备、移动端、工作站及高性能服务器全场景硬件[2] - Gemma 4原生支持函数调用、复杂推理和代码生成,可作为AI代理执行本地文件访问、应用程序控制和日常任务自动化,OpenClaw平台已兼容该模型[2] AI推理需求爆发与市场拐点 - 过去两年,AI推理需求增长了约100倍,计算量增长了1万倍[3] - 英伟达在GTC 2026上指出AI已进入推理时代,未来三年AI芯片市场规模有望突破1万亿美元[4] - 英伟达预测到2027年Blackwell与Vera Rubin产品线收入达1万亿美元,远超此前预期,增长驱动力来自推理[4] - Gemma 4的本地化部署将激活边缘推理市场,对服务器、光模块、铜连接、边缘计算硬件产生新的增量需求[3] LPU+GPU异构架构与光互联升级 - 英伟达收购Groq团队推出LPU,与GPU形成异构协同,使推理吞吐量每瓦提升35倍[6] - Groq 3 LPU预计2026Q3出货,LPX机架集成256个LPU,专为低延迟推理设计[6] - 异构架构对光互联带宽提出更高要求,直接拉动光模块、铜缆、CPO需求[6] - Vera Rubin Ultra NVL576及Kyber NVL1152将在Scale-up的L2层采用光互联,CPO/NPO/XPO多技术路线并行[6] - 2026年起Scale-up侧光互联以CPO/NPO形态开始渗透,光互联在AI集群的价值量占比将持续抬升[6] 光铜并行与光纤技术升级 - OFC 2026期间成立XPO MSA、OCI-MSA等多个多源协议组织,聚焦超大规模AI数据中心互连需求[7] - 行业共识为光铜“双轨制”:机柜内短距场景铜缆凭借低延时、低成本不可替代;机柜间光互联随带宽需求提升加速渗透[7] - 长飞在OFC展示单盘91.2km、衰减0.04dB/km的空芯光纤,可显著提升算力利用率、降低传输时延[7] - 康宁展示多芯光纤解决方案,将光纤容量提升数倍,安装时间缩短60%[7] - 北美数据中心对光纤需求大幅提振,国内厂商份额有望快速提升,光纤价格有望延续上行趋势[7][9] 通信硬件产业链迎来全栈式机遇 - AI推理从云端向边缘设备扩散,结合云端算力高景气,通信硬件迎来“云端+边缘”双轮驱动[9] - 北美五大CSP 2026年资本开支合计预计达7295亿美元,同比增速超60%[9] - 光模块、高速铜缆、光纤光缆作为算力基础设施核心部件,需求确定性强[9] - 边缘推理将带动边缘数据中心的光互联需求,以及端侧设备与云端之间的网络升级[9] - 国产供应链迎来机遇,北美数据中心光纤需求外溢至国内厂商,国内算力基建同步开启[9] 通信ETF作为AI算力投资工具 - 通信ETF国泰(515880)覆盖光模块、铜连接、光纤光缆等算力核心环节[1] - 该ETF超过45%的权重集中于光模块,算力核心环节合计占比超75%[11] - 通信ETF国泰(515880)2025年内涨幅125.81%,居全市场ETF第一名[11] - 截至2026/4/2,该ETF规模为143.64亿,在同类15只产品中排名第一[12]
2B开源模型手机养虾!谷歌Gemini 3技术下放:支持语音视频多模态,全免费可商用
量子位· 2026-04-03 08:19
文章核心观点 - 谷歌最新发布的Gemma 4系列开源模型,凭借31B的参数量,在竞技场榜单中超越了参数量大10-20倍的对手,并跻身开源模型前三,展现了卓越的性能与效率 [1][3] - Gemma 4系列模型全系支持多模态,并采用Apache 2.0开源协议,其设计核心是“效率优先”,通过不同尺寸模型满足从云端到手机、树莓派等边缘设备的多样化部署需求,显著降低了AI应用的门槛 [5][9][29] 模型性能与排名 - **竞技场排名表现**:Gemma 4的31B密集模型在竞技场中排名第27位,其Elo评分为1452 ±9,击败了参数量达397B的Qwen3.5和671B的DeepSeek v3.2等对手 [1][3][5] - **领先的竞争对手**:目前排名在Gemma 4之前的模型是参数量为745B的GLM-5和1T的Kimi K2.5,均为2026年的最新旗舰模型 [4] - **开源模型地位**:该31B模型在全球开源模型中排名第三,其26B MoE模型排名全球开源第六 [1][11] 模型系列与架构特点 - **全系多模态**:Gemma 4系列包含四个尺寸模型:2B、4B、26B MoE和31B Dense,全部基于Gemini 3同款技术打造,并原生支持多模态处理 [5][6] - **效率优先设计**:31B Dense模型适合微调;26B MoE模型在推理时仅激活3.8B参数,以追求最快的推理速度 [9][10][11] - **小模型大能力**:专为端侧设计的E2B和E4B模型,采用低激活率MoE架构,推理时分别仅激活2B和4B参数,却能在手机、树莓派等设备上离线运行,原生处理音频和视觉任务 [7][17][18][19] 技术能力与强化重点 - **六大核心能力**:Gemma 4家族重点强化了高级推理、Agent工作流原生支持、高质量离线代码生成、视觉和音频原生处理、长上下文支持(最高256K)以及对140多种语言的原生支持 [16] - **端侧突破**:手机等设备可完全不联网,直接通过摄像头和麦克风进行多模态交互,实现零延迟、零云端依赖的体验 [8][20][21] - **硬件门槛低**:未量化的bfloat16权重版本,单张80GB的H100 GPU即可运行;量化后的版本可在普通消费级GPU上本地运行 [12][13] 开源协议与社区影响 - **协议变更**:Gemma 4全面采用Apache 2.0开源协议,允许免费商用,并可部署在任何环境,此举回应了社区长期以来的呼声 [29][30][31] - **社区反响**:Hugging Face CEO认为此举是开源AI社区的“一个分水岭”和“巨大的里程碑” [32][33] - **社区生态**:截至目前,Gemma系列模型累计下载量已超过4亿次,社区贡献的模型变体超过10万个 [34] 应用价值与行业影响 - **降低创新成本**:开源模型使开发者无需支付高昂的API调用费用,例如耶鲁大学的研究团队利用Gemma作为基座模型进行癌症治疗靶点发现,节省了数百万美元的成本 [40][41] - **推动边缘计算**:通过与高通、联发科及自家Pixel手机的深度优化,谷歌打通了从芯片、模型到设备的全链路,推动了AI在边缘设备和物联网上的普及 [21] - **模型演进**:与仅支持纯文本的Gemma 1(2024年2月)、Gemma 2(2024年6月)以及多模态能力有限的Gemma 3(2025年3月)相比,Gemma 4将强大的多模态与智能体能力带入了端侧小模型,标志着能力的重大飞跃 [22][23][24][25][26]
谷歌重磅开源Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决
AI前线· 2026-04-03 01:40
Gemma 4 模型发布与核心特性 - 谷歌正式发布Gemma 4系列,称其为“迄今为止最智能的开放模型系列”,采用商业许可的Apache 2.0许可证开源 [2] - 模型提供四种规格:Effective 2B (E2B)、Effective 4B (E4B)、26B混合专家模型(MoE)和31B稠密模型(Dense) [3] - 该系列建立在与Gemini 3相同的架构基础上,旨在处理复杂推理任务,并支持在低功耗设备上本地运行的自主AI Agent [4] 模型规格与性能表现 - 端侧模型E2B和E4B针对移动和物联网设备优化,推理时分别激活约20亿和40亿参数,以降低内存和电量消耗 [3] - 26B MoE模型在推理任务中只会激活38亿参数,以平衡运行速度与知识储备 [3] - 31B Dense版本在Arena AI文本排行榜(截至2026年2月1日)中排名全球开放模型第3位,26B MoE模型排名第6位 [8] - 谷歌表示,Gemma 4在部分基准测试中表现优于参数大20倍的模型 [10] - 有网友测算Qwen3.5-27B在MMLU-Pro (86.1 vs 85.2)和GPQA Diamond (85.5 vs 84.3)等基准上略优于Gemma 4 31B [13][14] 关键性能提升与能力 - 推理能力更强:所有模型面向复杂推理任务优化,并提供可配置的“思考”模式 [4] - 多模态能力扩展:所有模型支持文本和图像输入,E2B和E4B还原生支持视频与音频输入 [4] - 上下文窗口更大:端侧模型为128K,较大模型(26B/31B)最高256K [4] - 编码与智能体能力增强:代码能力基准测试有明显提升,内置函数调用支持以驱动自主Agent [4] - 原生支持系统提示词:内置system role支持,使对话结构更清晰且易于控制模型行为 [4] 针对AI Agent与本地运行的优化 - 每个Gemma 4模型都更适合用于运行AI Agent,原生支持函数调用、结构化JSON输出、系统指令及超过140种语言 [6] - 端侧模型已与谷歌Pixel团队、高通和联发科等硬件厂商合作,可在手机、Raspberry Pi、NVIDIA Jetson Nano等设备上离线运行,延迟接近零 [3] - 26B和31B模型针对消费级GPU优化,使学生、研究人员和开发者能将工作站变成以本地优先为核心的AI服务器 [3] - 有网友评价称,四种尺寸全部为Agent场景做好准备且可在本地运行,满足了无需云端“思考”的需求 [14] 开源许可与部署支持 - 继续采用Apache 2.0许可证,允许商业使用、自由修改和部署,旨在给予开发者对数据、基础设施和模型的完全控制权 [15] - 提供了使用不同精度运行推理所需的大致GPU/TPU内存估算,例如31B模型在BF16精度下需58.3 GB,在Q4_0量化下需17.4 GB [16] - 开发者可通过谷歌云、Hugging Face、Kaggle和Ollama等平台获取模型及开放权重,Android开发者可在AICore Developer Preview中试用智能体工作流原型 [18] - 提供了多种推理和微调路径支持,包括Hugging Face、vLLM、NVIDIA NIM等,并开箱支持NVIDIA、AMD GPU及Google Cloud TPU [19] 架构设计与效率考量 - E2B和E4B中的“E”指“有效参数”,采用PLE(每层嵌入)技术提升端侧部署时的参数利用效率,但实际加载到内存中的静态权重会高于有效参数规模对应的占用 [17] - 26B MoE版本生成时每个token实际激活约40亿参数,但全部260亿参数需提前载入内存,因此实际显存需求更接近稠密26B模型 [17] - 官方内存估算通常只覆盖静态模型权重,不包含运行框架、上下文窗口、KV Cache的额外开销,微调需求会明显高于推理阶段 [17] 行业影响与战略意义 - 此次发布凸显了谷歌想要主导“本地AI”产业的雄心,模型小到足以在单张图形处理器上运行,适合边缘场景及对低延迟和数字主权有高要求的应用 [18] - 行业分析师认为,谷歌正通过Gemma 4这样的开放模型扩大在AI领域的领先优势,这些模型对构建AI开发生态及切入不同设备形态下的应用场景非常重要 [18] - 新模型采用与谷歌专有模型相同等级的基础设施安全协议,适用于企业和主权机构的高标准安全与可靠性要求 [19]