字节会师何恺明！开源连续扩散语言模型Cola DLM

核心观点 - 字节跳动推出的Cola DLM模型，挑战了传统大语言模型基于离散token进行“预测下一个token”的范式，主张在连续语义空间中建模语言，其根本动机是表征（representation）而非扩散（diffusion）本身[1][2][5][9] - 该模型通过将生成过程分解为“潜在语义生成”和“语义翻译成文字”两个独立部分，实现了比自回归模型和主流离散扩散语言模型更稳定的规模扩展（scaling）趋势[6][15][45] - 这项研究不仅是一次技术路径探索，更旨在为语言模型构建一座桥梁，使其能够接入连续的多模态世界，解决文本（离散）与图像、视频、音频（连续）统一表征的核心障碍[56][57][58][68] 模型方法论与核心设计 - 动机与核心理念：模型认为Token是人类语言的表层载体而非语义本身，其核心是学习更稳定、抽象的“语义状态”，使本质相同但表述不同的句子在模型内部收敛到相近的表示[9][10][11][13] - 生成过程分层：模型生成分为两部分，一个潜在先验（latent prior）负责生成“潜在语义”，一个解码器（decoder）负责将语义翻译成具体文字，整个扩散/流匹配过程发生在连续的潜在语义空间，而非token空间[15][16][19] - 与主流扩散语言模型的本质区别：许多扩散语言模型（DLM）仍在token层面进行“修补”，而Cola DLM将扩散过程从“文字层”移至“语义层”，使其负责“组织语义”而非“生成token”[20][21] 关键技术细节 - 潜在表示来源：采用专门的文本变分自编码器（Text VAE）来获得可连续变化、可被概率建模的随机变量作为潜在表示，而非简单的词嵌入（word embedding）替代[23][24][25] - 先验模型设计：采用块因果DiT与流匹配（block-causal DiT+Flow Matching）的组合，学习一条“最优路径”将噪声平滑导向有意义的语义，并在语义路径上引入块结构以实现局部并行与整体因果[27][28][32] - 训练角色分工：将编码器/解码器与先验模型的训练任务彻底分开，训练扩散先验时冻结编码器，防止语义表示退化为“穿了马甲的token”，并加入BERT风格的掩码损失作为语义约束[34][35][36][37] - 训练目标分解：将训练目标拆分为三个可单独诊断的子任务：解码器重建能力、编码器压缩能力、先验模型拟合能力，这使得模型能实现稳定的规模扩展趋势[39][40][42][44][45] 行业趋势与定位 - 挑战传统假设：研究挑战了“语言模型必须建立在离散token上”这一持续二十年的默认假设，反映了自回归模型在推理速度、长程依赖等方面瓶颈日益明显，以及扩散模型在连续域成功带来的反思[47] - 连续路线的验证：与何恺明团队的ELF模型几乎同期出现，共同证明了语言建模“不必绑在token上”的可行性，标志着“连续路线”开始以严肃、可对比、可复现的姿态登上舞台[4][46][48][56] - 多模态统一愿景：模型的核心价值在于为文本提供了一个映射到连续语义潜在空间的接口，这有助于解决文本（离散）与图像、视频、音频（连续）在多模态统一中的核心障碍，旨在将语言模型接入连续多模态世界[56][57][58][68][69] 团队背景与资源 - 团队构成：项目由字节跳动Seed团队主导，集结了来自港大、人大、北大、北邮、澳国立等多所高校的研究者，覆盖语言建模、扩散模型、视频生成等多个方向[60] - 核心成员：第一作者为北邮本科生郭泓灿，通讯作者为字节Seed团队视频生成模型Seedance系列研发负责人曾妍，团队还包括离散扩散语言模型LLaDA的第一作者Shen Nie等跨界研究者[61][63][64] - 开源程度：公司此次开源非常彻底，发布了论文、代码、模型权重及中文博客[3] - 技术传承：模型中“分层潜变量+扩散先验”的思路与视频生成领域长期采用的潜在扩散路线明显相通，体现了团队将视觉/视频生成的核心思路带入语言建模领域的特点[64][67]