Mythos阴影里谷歌悄悄发模型，速度暴涨4倍

核心观点 - 谷歌发布名为DiffusionGemma的新型文本生成模型，其采用扩散模型架构替代传统的自回归架构，在单块H100上实现了每秒1000+ tokens的生成速度，比同规格自回归模型快近4倍，主要面向速度敏感的本地交互场景[1][5][6][30] 模型架构与性能 - 架构创新：模型抛弃自回归“逐Token生成”模式，采用扩散模型原理，一次性对256个token的“画布”进行多轮去噪，实现整段文字同时生成，工作模式从“打字机”升级为“印刷机”[1][14][15] - 速度优势：在单块H100上（fp8，batch size=1），DiffusionGemma生成速度超过1000 tokens/s，而同规格自回归模型Gemma 4 26B A4B（加MTP加速）仅为300+ tokens/s，速度提升近4倍[1][6] - 硬件要求与效率：模型总参数量为260亿（26B），采用混合专家（MoE）设计，推理时仅激活38亿（3.8B）参数，量化后仅需18GB显存，可在消费级显卡如RTX 4090上本地运行[2][3] - 质量对比：在多项基准测试中，DiffusionGemma的质量表现与同参数量（260亿）的自回归模型Gemma 4 26B A4B相比存在差距[29] 技术原理与优势 - 解决内存带宽瓶颈：传统自回归模型在本地运行时，因逐token生成导致GPU算力空转，受限于内存带宽；DiffusionGemma通过一次性并行处理大量token，使计算瓶颈转向GPU算力，从而充分利用GPU的Tensor Core[10][11][13] - 双向注意力机制：由于所有token同时生成，模型具备双向注意力，每个token都能看到画布上所有其他token，实现了前后文同时可见，这带来了实时自我纠错的能力[17][19][20] - 复杂任务潜力：双向注意力使模型在需要前后文协调的任务上具有结构性优势，例如在微调后，解决数独问题的成功率从0%提升至80%[25][26] 生态定位与行业背景 - 开源与商用：模型采用允许商用的Apache 2.0协议开源，权重可在Hugging Face直接下载[4] - 场景定位：谷歌明确表示，生产环境推荐使用标准Gemma 4，而DiffusionGemma主要面向对生成速度有极高要求的本地交互场景[30] - 行业实验：谷歌将DiffusionGemma视为对下一代模型形态的一次实验，旨在探索通过充分利用GPU并行算力来提升大模型速度上限的可能性[33] - 生态支持：模型获得了广泛的硬件与软件生态支持，包括从NVIDIA RTX 4090到H100及DGX Spark的硬件覆盖，以及vLLM、MLX、Unsloth、NeMo等推理框架的支持，llama.cpp也即将支持[37][38] - 行业动态：谷歌并非首个探索扩散文本模型的公司，初创公司Inception Labs在今年2月发布了扩散文本模型Mercury 2，号称比Claude、Gemini快5到10倍；谷歌自身也在去年I/O大会上展示过采样速度达每秒1479 token的Gemini Diffusion实验[35][36]