Workflow
扩散语言模型
icon
搜索文档
Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解
机器之心· 2025-11-16 12:01
上海人 工智能实 验室 推出了一款革新的多模态生成理解一体化的扩散语言模型 —— Lumina-DiMOO 。基于离散扩散建模(Discrete Diffusion Modeling), Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。 从 Chameleon 到 Lumina-mGPT,再到 Janus-Pro—— 主流 "多模态统一模型",几乎都基于 自回归(AR)架构。这些模型的架构存在显著缺陷: 1. 生成太慢:逐 token 生成,导致图像生成通常需要几分钟; 2. 生成质量受限:图像细节的表现力较弱,尤其是在高分辨率生成时,精细度无法保证; 3. 任务间无法无缝衔接:多模态的生成和理解任务往往分开处理,导致模型的通用性和效率受到制约。 过 去:自回归生成 的瓶颈 然而,Lumina-DiMOO 采用了纯离散扩散框架,彻底解决了上述问题。在这个全新的架构中,我们通过并行化的双向注意力机制和灵活的采样策略,实现了跨多 任务的高效融合,不仅加速了生成过程,还提升了生成质量。 现在:扩散语言模型的崛起 Lumina-Di ...
用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升
机器之心· 2025-11-05 12:15
行业技术发展动态 - 扩散大语言模型在2025年得到快速发展,2月Inception Labs推出首个商业级模型Mercury,同期中国人民大学发布首个开源8B模型LLaDA,5月出现Gemini Diffusion,该技术被视为下一代大语言模型基础范式的有力竞争者[2] - 针对扩散大语言模型的解码策略和强化学习算法领域仍处于探索不足的状态[2] 核心技术问题识别 - 掩码扩散大语言模型具备并行解码、灵活生成顺序和潜在少步推理等优势,但其完全扩散式解码策略存在性能大幅逊色于分块解码的痛点[7] - 完全扩散式解码存在三个关键问题:解码早期token置信度变化由平缓到陡升;<EOS> token置信度始终显著高于其他token;导致模型在早期解码时易陷入<EOS>陷阱而提前终止生成[9] - 将自回归模型的强化学习算法直接迁移至MDLM会遇到rollout轨迹和优化轨迹不一致的问题,因MDLM采用双向注意力机制,与自回归模型的因果性掩码不同[11] 方法论创新 - 研究团队提出<EOS>早期拒绝机制,在解码早期主动抑制<EOS>置信度避免过早终止,后期恢复置信度确保句子正常结束,显著提升全扩散式解码性能[15] - 基于token置信度变化观察,设计幂次递增解码步长调度器,将推理步数从O(L)降至O(logL),大幅加速推理过程[15] - 提出一致性轨迹分组策略优化,通过存储每一步解码的中间状态来优化相邻状态间的转变,缓解轨迹不一致带来的优化误差[16] - 将<EOS>早期拒绝机制、递增步长调度器和CJ-GRPO算法结合,削减训练时中间状态存储开销,实现训练和解码的时间/空间复杂度从O(L)降至O(logL)[16] 实验性能表现 - 在数学推理任务GSM8K上,CJ-GRPO + Semi-AR方法在128生成长度、64步设置下达到77.48%性能,在256长度、128步时提升至84.29%[18] - 在规划任务Sudoku上,CJ-GRPO + EOSER方法在128生成长度、32步设置下达到85.25%性能,显著优于基线方法[18] - 在Countdown任务上,CJ-GRPO + EOSER + ASS方法在仅使用log(L)步数情况下,256生成长度时达到59.38%性能[19] - 实验显示规划任务适合并行推理,数学问题更适合顺序推理,装配并行解码的MDLM在规划类任务中表现更佳[23][25] 技术应用前景 - 该方法实现了用更少步数、更快地完成复杂推理任务,推动扩散语言模型的全扩散式解码、少步数解码和强化学习算法发展[21] - 在仅使用log(L)步数情况下,EOSER + ASS性能仍优于分块解码和全扩散式解码策略,真正实现“又快又好”的推理效果[24] - 未来可探索混合推理模式,结合扩散与自回归优势,适应多样化任务需求[26]
从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思
机器之心· 2025-10-16 10:20
文章核心观点 - 西湖大学MAPLE实验室开发了具备“再掩码”能力的扩散语言模型RemeDi 9B,该模型能在文本生成过程中识别并修正错误,从而提升生成质量 [2] - RemeDi模型通过双流协同结构为每个token输出置信度分数,实现对不确定内容的动态再掩码,超越了现有扩散语言模型的性能 [2][5][8] - 模型具备可变长生成能力,通过分块自回归生成打破了现有模型仅支持定长生成的限制 [2][9] 技术原理与创新 - 采用TPS(Token Prediction Stream)和UPS(Unmasking Policy Stream)双流结构,TPS负责预测token分布,UPS输出每个位置的置信度分数 [8][10] - 置信度分数用于决定token是否需要被再掩码,得分低的位置会被重新掩码以便后续依据更丰富上下文重写 [8][10] - 通过分块自回归生成实现可变长生成,每次生成L=32的序列块,采用分块因果注意力掩码机制 [9] 训练方法 - 采用两阶段训练策略:Remask SFT(监督微调)和Remask RL(强化学习) [12][13][17] - Remask SFT阶段同时训练模型从掩码token恢复文本和识别需要再掩码的不正确token的能力 [13] - Remask RL阶段基于Plackett-Luce模型构造解掩码策略,优化整个生成轨迹以提升生成正确答案的概率 [17][18][19] 性能表现 - 在GSM8K数学推理任务上,Remask SFT将性能从80.3提升至83.6,Remask RL进一步提升 [11][22] - 在MATH-500任务上,从基线34.7提升至Remask SFT的42.7 [11] - 在代码生成任务HumanEval上,从41.5提升至50.0 [11] - 在通用基准Hellaswag和ARC-C上,RemeDi(+Remask RL)分别达到72.2和87.7,超过其他扩散模型 [24] - 在IFEval和AlpacaEval基准上,RemeDi(+Remask RL)达到85.4和24.8,显著优于LLaDA 1.5的73.5和13.9 [24]
推理速度10倍提升,蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
机器之心· 2025-10-13 17:24
技术突破与性能表现 - 蚂蚁集团开源业界首个高性能扩散语言模型推理框架dInfer,在基准测试中将dLLM推理速度相比Fast-dLLM提升10倍以上[2] - dInfer在关键的单批次推理场景下,作为首个开源框架实现大幅超越高度优化的自回归模型的性能里程碑,在HumanEval上达到1011 tokens/秒的吞吐量[2] - 在与Fast-dLLM对比中,dInfer平均推理速度实现10.7倍提升(681 TPS vs 63.6 TPS),与AR模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[29] 技术挑战与解决方案 - 传统自回归生成范式存在固有瓶颈,生成过程依赖前序结果,必须逐词串行生成,导致推理延时难以降低[6] - dLLM高效推理面临三大核心挑战:高昂的多步迭代计算成本、KV缓存技术因双向注意力机制失效、并行解码易引发语义错配[7][12] - dInfer通过四大核心模块(模型接入、KV缓存管理器、扩散迭代管理器、解码策略)集成针对性解决方案,采用模块化与可扩展性设计[9][11][13] 核心优化技术细节 - 采用邻近KV缓存刷新策略,基于语义局部性原理选择性重新计算区块及邻近区域KV,在计算开销和生成质量间取得平衡[15][16][17] - 进行系统优化,包括多卡并行(效率提升超100%)、编译优化(效率提升200%)、循环展开消除迭代间气泡(性能提升5-10%)、早停机制(减少5-40%不必要开销)[18][19] - 提出层级解码与信用解码算法,层级解码以近似对数级复杂度完成多点并行生成,信用解码通过累积信用机制避免冗余计算[18][19] - 引入迭代平滑算法,回收未解码位置信息,使单次迭代解码token数量平均提升30-40%[18][20] 行业影响与生态建设 - dInfer标志着扩散语言模型从理论可行迈向实践高效的关键一步,为开发者提供即刻可用的高效推理框架[3][26] - 该框架支持多种扩散语言模型,并率先支持基于轨迹蒸馏加速去噪过程的LLaDA-MoE-TD模型,推理性能更强[9][20] - 公司希望dInfer成为研究者的标准平台和开发者的加速引擎,邀请全球开发者共建下一代AI推理新生态[28][30]
推理性能提升10倍 蚂蚁集团开源高性能扩散语言模型推理框架dInfer
环球网· 2025-10-13 17:03
公司技术发布 - 蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架dInfer [1] - dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架,可支持LLaDA、LLaDA-MoE等多种模型 [2] - 该框架包含模型接入、KV缓存管理器、扩散迭代管理器和解码策略四大核心可插拔模块 [2] 技术性能表现 - 在基准测试中,dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍,平均推理速度达到681 TPS,而Fast-dLLM为63.6 TPS [1][4] - 在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011 Tokens/秒的速度 [1][4] - 与在vLLM上运行的AR模型Qwen2.5-3B相比,dInfer的平均推理速度是其2.5倍(681 TPS vs 277 TPS) [5] 技术优势与意义 - 此次开源标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [5] - dInfer的工作表明扩散语言模型具备显著的效率潜力,为通往AGI的架构路径提供极具竞争力的选项 [1] - 扩散语言模型具有高度并行、全局视野、结构灵活三大优势,以LLaDA-MoE为代表的模型已在多个基准测试中展现出与顶尖自回归模型相媲美的准确性 [1]
首次超越自回归模型!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
新浪科技· 2025-10-13 17:00
技术性能突破 - 公司开源业界首个高性能扩散语言模型推理框架dInfer [1] - 在基准测试中,dInfer将扩散语言模型的推理速度相比Fast-dLLM提升10.7倍(平均推理速度达681 TPS vs 63.6 TPS)[1] - 在代码生成任务HumanEval上,dInfer在单批次推理中速度达1011 Tokens/秒,首次在开源社区实现扩散语言模型单批次推理速度超越自回归模型 [1] 行业比较优势 - 在配备8块NVIDIA H800 GPU的节点上,dInfer与参数量和性能相当的自回归模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[1] - 该工作表明扩散语言模型具备显著效率潜力,可通过系统性创新工程兑现,为AGI架构路径提供极具竞争力的选项 [1] 战略意义与行业影响 - dInfer连接了前沿研究与产业落地,标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [2] - 公司开源此框架旨在邀请全球开发者与研究者共同探索扩散语言模型潜能,构建更高效、开放的AI新生态 [2]
扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
机器之心· 2025-09-12 19:31
模型技术突破 - 蚂蚁集团与中国人民大学联合团队开发业界首个原生MoE架构扩散语言模型LLaDA-MoE,使用20T训练数据实现技术验证[2][15] - 模型激活参数仅1.4B但性能对标自回归稠密模型Qwen2.5-3B,推理速度提升数倍[2][17] - 采用非自回归掩码扩散机制,突破自回归模型单向建模限制,支持并行解码和双向依赖关系捕捉[12][38] 架构与训练优势 - 总参数量7B的MoE架构显著提升计算效率,在代码、数学等结构化任务表现突出[26][29] - 复用蚂蚁百灵大模型20T高质量训练数据及自研ATorch训练框架,支持专家并行技术加速训练[26] - 扩散语言模型数据利用效率达自回归模型3倍以上,支持从重复数据中持续提取增量信息[40] 性能表现 - 在MMLU测评获67.18分超越LLaDA-8B的65.5分,在MATH数学任务达58.68分显著优于Dream-7B的39.2分[33] - 代码生成任务中HumanEval得分61.59分接近Qwen2.5-3B的60.37分,MultiPL-E达52.53分远超稠密扩散模型29分水平[33] - 在Agent对齐任务IFEval严格提示测试中获59.33分,优于同类扩散模型及Qwen2.5-3B的58.2分[33] 技术理论价值 - 扩散模型通过迭代去噪过程逼近数据分布,突破自回归模型链式法则概率分解的局限性[35] - 双向建模机制提升全局一致性,支持局部片段重新采样修正,适用于代码生成和文档编辑场景[38] - 理论证明最大似然估计准则可实现指令跟随、上下文学习等能力,非自回归模型独有特性[35] 战略意义与开源计划 - 项目突破自回归范式路径依赖,探索通过不确定性换取智能上限提升的战略选择[44] - 模型近期将完全开源技术报告与推理加速代码,推动全球AI社区扩散语言模型发展[19][33] - 蚂蚁集团持续布局前沿方向包括动态MoE架构创新与混合线性架构探索,以AGI为北极星指标[46][47]
蚂蚁联手人大,发布MoE扩散模型
华尔街见闻· 2025-09-12 14:02
核心观点 - 蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型LLaDA-MoE 在约20T数据上完成训练 性能接近或超越自回归模型Qwen2.5-3B-Instruct 并具备数倍推理速度优势 模型将完全开源 [1][2][3] 技术突破 - 采用非自回归掩码扩散机制 首次通过原生MoE架构实现与Qwen2.5相当的语言智能(上下文学习/指令遵循/代码数学推理) 挑战自回归生成范式的主流认知 [1][2] - 基于7B-A1B的MoE架构 仅激活1.4B参数即可实现等效3B稠密模型性能 在代码/数学/Agent等任务领先LLaDA1.0/1.5和Dream-7B [1][3] - 攻克负载均衡与噪声采样漂移难题 依托自研分布式框架ATorch的EP并行技术 实现工业级大规模训练的扩展性和稳定性 [2] 性能表现 - 在17项基准测试(HumanEval/MBPP/GSM8K/MATH等)平均提升8.4% 领先LLaDA-1.5达13.2% 与Qwen2.5-3B-Instruct持平 [3] - 验证"MoE放大器"定律在dLLM领域成立 为10B–100B稀疏模型提供可行路径 [3] 开源与生态 - 将完全开源模型权重及自研推理框架 深度优化dLLM并行特性 相比NVIDIA官方fast-dLLM实现显著加速 [2][3] - 相关代码与技术报告将于GitHub及Hugging Face社区同步发布 [3] 战略方向 - 公司将持续投入基于dLLM的AGI领域 联合学界与全球AI社区推动AGI新突破 [3] - 强调扩散模型可成为通向AGI的主干道 突破自回归范式的局限性 [2][3]
蚂蚁、中国人民大学发布行业首个原生MoE扩散语言模型
第一财经· 2025-09-12 11:08
技术研发突破 - 公司与中国人民大学联合研发原生MoE架构扩散语言模型LLaDA-MoE [1] - 模型在约20T数据上完成从零训练的MoE架构扩散语言模型开发 [1] - 验证工业级大规模训练的扩展性和稳定性 [1] 开源计划 - 该模型将在近期完全开源 [1]
阿里巴巴发布最强语言模型挑战者:扩散模型能否颠覆ChatGP
搜狐财经· 2025-08-20 10:41
技术原理 - 扩散语言模型采用非自回归生成方式,通过加噪和去噪两阶段处理文本,类似画家先勾勒轮廓再添加细节[2][3] - 该模型具备高度并行性,可同时处理多个位置词汇,相比传统逐词生成模型实现数倍速度提升[3] - 训练过程采用填空式策略,随机遮盖词汇让模型推断被遮盖内容,增强对双向关系的理解[4] 性能表现 - LLaDA-8B模型在多个标准测试中表现接近或超越同等规模LLaMA3-8B模型,显示性能已达传统模型水平[4] - Mercury系列模型实现每秒数千词汇生成速度,显著提升实时对话和大规模文本生成效率[7] - Gemini Diffusion模型在基准测试中展现与GPT-4相当的性能表现[7] 发展历程 - 技术演进从2021年D3PM模型起步,经历连续空间到离散空间的转化过程[3] - 早期Diffusion-LM将文字转换为连续数字表示进行处理,后期DiffusionBERT和LLaDA系列实现直接文字空间操作[4] - 训练策略创新性采用从自回归模型适应方法,可利用现有大型语言模型快速训练扩散模型[5] 应用领域 - 在代码生成任务中展现优势,能同时处理程序不同部分的复杂依赖关系[6] - 数学推理和文档摘要领域表现优秀,特别适合需要全局规划的结构化输出任务[6] - 多模态应用具有天然优势,MMaDA模型可同步处理文本理解、生成及图像生成任务[5] 技术挑战 - 面临并行生成诅咒问题,同时生成词汇时可能忽略依赖关系导致文本连贯性下降[6] - 基础设施支持不足,现有开发工具和部署平台主要针对自回归模型设计[6] - 长文本生成能力存在限制,处理超长文档时仍面临技术瓶颈[7] 发展方向 - 重点提升训练效率,解决当前扩散模型训练过程中的效率问题[7] - 开发更先进推理算法,进一步缩小与传统模型在生成质量上的差距[7] - 优化长文本处理能力,突破现有模型在长文档生成方面的限制[7]