谷歌开源26B文本扩散MoE，劈柴：生成速度像赛马一样快

产品发布与核心定位 - 谷歌发布了名为DiffusionGemma的新模型，这是一个探索文本扩散的实验性开源模型，在文本生成任务上速度极快 [1] - 该模型是Gemma家族的新成员，采用Apache 2.0许可证发布，是一个260亿参数规模的混合专家模型 [1] - 该模型定位为实验性模型，旨在为研究人员和开发者探索对速度要求极高、强调本地交互体验的工作流，如行内编辑、快速迭代及生成非线性文本结构 [4] - 谷歌CEO皮查伊表示，DiffusionGemma是一款开放的实验性模型，将文本扩散研究带到了Gemma 4上 [9] 技术架构与核心优势 - 该模型未沿用典型自回归大语言模型逐token生成的方式，而是可以同时生成整块文本，在GPU上文本生成速度最高可提升至4倍 [2][9] - 该模型建立在Gemma 4家族业界领先的“每参数智能水平”之上，并吸收了Gemini Diffusion的前沿研究成果，引入了一种全新的扩散式输出头以尽可能提高生成速度 [4] - 该模型将解码瓶颈从内存带宽转向计算本身，因此在专用GPU上，token输出速度最高可提升至4倍 [11] - 在单张NVIDIA H100上，该模型可以达到每秒1000+ tokens的生成速度；在NVIDIA GeForce RTX 5090上，也能达到每秒700+ tokens [11] - 该模型是一个总规模为260亿的MoE模型，但推理时只激活38亿参数，经过量化后可以较轻松地运行在18GB显存以内的高端消费级独立显卡上 [12] - 该模型支持双向注意力，每次前向计算可以并行生成256个token，并且每个token都能看到其他token，使其在非线性场景中更有优势 [13] - 该模型具备一定的自我修正能力，会通过多轮迭代不断精炼输出，并可以一次性查看整个文本块以实时发现并修正错误 [14] 应用场景与性能权衡 - 该模型主要面向本地推理和低并发推理场景，其吞吐优势主要体现在单个加速器上的低到中等batch size场景 [25][26] - 在高QPS的云端服务中，自回归模型可通过批处理充分利用算力，因此该模型的并行解码优势会被削弱，甚至可能带来更高的服务成本 [25] - 该模型更重视速度和并行布局生成，整体输出质量低于标准版Gemma 4，对于质量要求最高的应用场景，官方仍建议部署标准版Gemma 4 [4][14] - 开发者可以通过微调让该模型在特定任务上表现更好，例如经过微调后，该模型可以学会解数独，这得益于其双向注意力机制 [16][19] 技术原理与硬件利用 - 该模型改变了模型使用硬件的方式，传统语言模型在本地运行、只有单个用户请求时，逐词生成的方式会让独立GPU或TPU处于低利用率状态 [22][23] - 该模型一次性起草整个256-token文本块，让处理器每次都能拿到更大块的计算任务，从而提高了硬件利用率 [23] - 该模型将模型推理从顺序敲字的打字机，升级成了可以同时印出整块文本的高速印刷机 [24]