核心观点 - 谷歌发布名为DiffusionGemma的新型文本生成模型,其采用扩散模型架构替代传统的自回归架构,在单块H100上实现了每秒1000+ tokens的生成速度,比同规格自回归模型快近4倍,主要面向速度敏感的本地交互场景[1][5][6][30] 模型架构与性能 - 架构创新:模型抛弃自回归“逐Token生成”模式,采用扩散模型原理,一次性对256个token的“画布”进行多轮去噪,实现整段文字同时生成,工作模式从“打字机”升级为“印刷机”[1][14][15] - 速度优势:在单块H100上(fp8,batch size=1),DiffusionGemma生成速度超过1000 tokens/s,而同规格自回归模型Gemma 4 26B A4B(加MTP加速)仅为300+ tokens/s,速度提升近4倍[1][6] - 硬件要求与效率:模型总参数量为260亿(26B),采用混合专家(MoE)设计,推理时仅激活38亿(3.8B)参数,量化后仅需18GB显存,可在消费级显卡如RTX 4090上本地运行[2][3] - 质量对比:在多项基准测试中,DiffusionGemma的质量表现与同参数量(260亿)的自回归模型Gemma 4 26B A4B相比存在差距[29] 技术原理与优势 - 解决内存带宽瓶颈:传统自回归模型在本地运行时,因逐token生成导致GPU算力空转,受限于内存带宽;DiffusionGemma通过一次性并行处理大量token,使计算瓶颈转向GPU算力,从而充分利用GPU的Tensor Core[10][11][13] - 双向注意力机制:由于所有token同时生成,模型具备双向注意力,每个token都能看到画布上所有其他token,实现了前后文同时可见,这带来了实时自我纠错的能力[17][19][20] - 复杂任务潜力:双向注意力使模型在需要前后文协调的任务上具有结构性优势,例如在微调后,解决数独问题的成功率从0%提升至80%[25][26] 生态定位与行业背景 - 开源与商用:模型采用允许商用的Apache 2.0协议开源,权重可在Hugging Face直接下载[4] - 场景定位:谷歌明确表示,生产环境推荐使用标准Gemma 4,而DiffusionGemma主要面向对生成速度有极高要求的本地交互场景[30] - 行业实验:谷歌将DiffusionGemma视为对下一代模型形态的一次实验,旨在探索通过充分利用GPU并行算力来提升大模型速度上限的可能性[33] - 生态支持:模型获得了广泛的硬件与软件生态支持,包括从NVIDIA RTX 4090到H100及DGX Spark的硬件覆盖,以及vLLM、MLX、Unsloth、NeMo等推理框架的支持,llama.cpp也即将支持[37][38] - 行业动态:谷歌并非首个探索扩散文本模型的公司,初创公司Inception Labs在今年2月发布了扩散文本模型Mercury 2,号称比Claude、Gemini快5到10倍;谷歌自身也在去年I/O大会上展示过采样速度达每秒1479 token的Gemini Diffusion实验[35][36]
Mythos阴影里谷歌悄悄发模型,速度暴涨4倍