谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快
机器之心·2026-06-11 12:33

产品发布与核心定位 - 谷歌发布了名为DiffusionGemma的新模型,这是一个探索文本扩散的实验性开源模型,在文本生成任务上速度极快 [1] - 该模型是Gemma家族的新成员,采用Apache 2.0许可证发布,是一个260亿参数规模的混合专家模型 [1] - 该模型定位为实验性模型,旨在为研究人员和开发者探索对速度要求极高、强调本地交互体验的工作流,如行内编辑、快速迭代及生成非线性文本结构 [4] - 谷歌CEO皮查伊表示,DiffusionGemma是一款开放的实验性模型,将文本扩散研究带到了Gemma 4上 [9] 技术架构与核心优势 - 该模型未沿用典型自回归大语言模型逐token生成的方式,而是可以同时生成整块文本,在GPU上文本生成速度最高可提升至4倍 [2][9] - 该模型建立在Gemma 4家族业界领先的“每参数智能水平”之上,并吸收了Gemini Diffusion的前沿研究成果,引入了一种全新的扩散式输出头以尽可能提高生成速度 [4] - 该模型将解码瓶颈从内存带宽转向计算本身,因此在专用GPU上,token输出速度最高可提升至4倍 [11] - 在单张NVIDIA H100上,该模型可以达到每秒1000+ tokens的生成速度;在NVIDIA GeForce RTX 5090上,也能达到每秒700+ tokens [11] - 该模型是一个总规模为260亿的MoE模型,但推理时只激活38亿参数,经过量化后可以较轻松地运行在18GB显存以内的高端消费级独立显卡上 [12] - 该模型支持双向注意力,每次前向计算可以并行生成256个token,并且每个token都能看到其他token,使其在非线性场景中更有优势 [13] - 该模型具备一定的自我修正能力,会通过多轮迭代不断精炼输出,并可以一次性查看整个文本块以实时发现并修正错误 [14] 应用场景与性能权衡 - 该模型主要面向本地推理和低并发推理场景,其吞吐优势主要体现在单个加速器上的低到中等batch size场景 [25][26] - 在高QPS的云端服务中,自回归模型可通过批处理充分利用算力,因此该模型的并行解码优势会被削弱,甚至可能带来更高的服务成本 [25] - 该模型更重视速度和并行布局生成,整体输出质量低于标准版Gemma 4,对于质量要求最高的应用场景,官方仍建议部署标准版Gemma 4 [4][14] - 开发者可以通过微调让该模型在特定任务上表现更好,例如经过微调后,该模型可以学会解数独,这得益于其双向注意力机制 [16][19] 技术原理与硬件利用 - 该模型改变了模型使用硬件的方式,传统语言模型在本地运行、只有单个用户请求时,逐词生成的方式会让独立GPU或TPU处于低利用率状态 [22][23] - 该模型一次性起草整个256-token文本块,让处理器每次都能拿到更大块的计算任务,从而提高了硬件利用率 [23] - 该模型将模型推理从顺序敲字的打字机,升级成了可以同时印出整块文本的高速印刷机 [24]

谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快 - Reportify