12秒生成1万token！谷歌推出文本「扩散模型」Gemini Diffusion，研究员：演示都得降速看

技术突破 - Google DeepMind推出Gemini Diffusion，将图像生成常用的"扩散技术"引入语言模型，通过逐步优化噪声来学习生成输出，不同于传统自回归模型[4][9] - Gemini Diffusion生成速度达2000token/秒，12秒可生成1万tokens，比Gemini 2.0 Flash-Lite更快[1][7][11] - 演示过程中需要放慢视频速度才能看清生成过程，显示其极快的生成速度[3] 性能优势 - 基准测试显示Gemini Diffusion表现可与更大的Gemini 2.0 Flash-Lite相媲美，在多项测试中表现接近或更好[7][8] - Code测试：30.9% vs 28.5%[8] - BigCodeBench：56.8% vs 56.0%[8] - HumanEval：76.0% vs 75.8%[8] - 能够一次生成整个标记块，比自回归模型做出更连贯的响应[14] - 在迭代细化中能够纠正生成过程中的错误，获得更一致的输出[10][15] 技术特点 - 采用并行或迭代式去噪实现数据生成，可以进行非因果推理[16][17] - 解决了自回归模型难以处理的数学问题，如"(√(81) * (2/3))^2 + (15 - 3) / (2^2))"等于多少的问题[17] - 在代码生成任务中表现良好，包括token化、预填充、安全过滤器等开销情况下仍保持高速生成[11] 行业影响 - 表明自回归不是LLM的唯一路径，人大高瓴人工智能研究院、蚂蚁也提出了类似研究LLaDA[19] - 语言模型逐步引入扩散技术，未来可能出现更多混合模型[20]