LLaDA
搜索文档
用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升
机器之心· 2025-11-05 12:15
行业技术发展动态 - 扩散大语言模型在2025年得到快速发展,2月Inception Labs推出首个商业级模型Mercury,同期中国人民大学发布首个开源8B模型LLaDA,5月出现Gemini Diffusion,该技术被视为下一代大语言模型基础范式的有力竞争者[2] - 针对扩散大语言模型的解码策略和强化学习算法领域仍处于探索不足的状态[2] 核心技术问题识别 - 掩码扩散大语言模型具备并行解码、灵活生成顺序和潜在少步推理等优势,但其完全扩散式解码策略存在性能大幅逊色于分块解码的痛点[7] - 完全扩散式解码存在三个关键问题:解码早期token置信度变化由平缓到陡升;<EOS> token置信度始终显著高于其他token;导致模型在早期解码时易陷入<EOS>陷阱而提前终止生成[9] - 将自回归模型的强化学习算法直接迁移至MDLM会遇到rollout轨迹和优化轨迹不一致的问题,因MDLM采用双向注意力机制,与自回归模型的因果性掩码不同[11] 方法论创新 - 研究团队提出<EOS>早期拒绝机制,在解码早期主动抑制<EOS>置信度避免过早终止,后期恢复置信度确保句子正常结束,显著提升全扩散式解码性能[15] - 基于token置信度变化观察,设计幂次递增解码步长调度器,将推理步数从O(L)降至O(logL),大幅加速推理过程[15] - 提出一致性轨迹分组策略优化,通过存储每一步解码的中间状态来优化相邻状态间的转变,缓解轨迹不一致带来的优化误差[16] - 将<EOS>早期拒绝机制、递增步长调度器和CJ-GRPO算法结合,削减训练时中间状态存储开销,实现训练和解码的时间/空间复杂度从O(L)降至O(logL)[16] 实验性能表现 - 在数学推理任务GSM8K上,CJ-GRPO + Semi-AR方法在128生成长度、64步设置下达到77.48%性能,在256长度、128步时提升至84.29%[18] - 在规划任务Sudoku上,CJ-GRPO + EOSER方法在128生成长度、32步设置下达到85.25%性能,显著优于基线方法[18] - 在Countdown任务上,CJ-GRPO + EOSER + ASS方法在仅使用log(L)步数情况下,256生成长度时达到59.38%性能[19] - 实验显示规划任务适合并行推理,数学问题更适合顺序推理,装配并行解码的MDLM在规划类任务中表现更佳[23][25] 技术应用前景 - 该方法实现了用更少步数、更快地完成复杂推理任务,推动扩散语言模型的全扩散式解码、少步数解码和强化学习算法发展[21] - 在仅使用log(L)步数情况下,EOSER + ASS性能仍优于分块解码和全扩散式解码策略,真正实现“又快又好”的推理效果[24] - 未来可探索混合推理模式,结合扩散与自回归优势,适应多样化任务需求[26]
扩散语言模型新发现:其计算潜力正在被浪费?
机器之心· 2025-10-30 16:52
掩码扩散语言模型的技术特点 - 掩码扩散语言模型通过随机遮蔽序列中的位置并学习填充这些位置进行训练,与自回归语言模型不同 [1] - 该模型支持任意顺序解码和多token并行解码,在数独等逻辑谜题上表现显著提升 [1] - 模型提供了对所有掩码位置条件分布的访问权限,具备填充能力 [6] MDLM在推理任务中的性能表现 - 在数学和编码任务中,任意顺序算法的性能往往不如或仅相似于从左到右采样 [1] - 标准的多token解码会显著降低性能,即使仅并行解码两个token也会导致主流基准任务性能显著下降 [1] - 并行解码2个token使GSM8K准确率从76.95%降至62.31%,MATH500从33.4%降至19.6%,HumanEval从16.46%降至4.87% [4] 推理即填充框架的创新应用 - 提出"推理即填充"框架,通过预构造包含推理位置与答案位置的显式推理模板 [6] - 该方法允许在输出序列中预填用户指定的token,显式区分推理token与答案token [17][18] - 通过衡量答案区块的熵值实现提前退出机制,在GSM8K上减少24%函数调用且准确率无下降 [8][20] 多Token熵解码的技术突破 - 提出自适应多token解码器MED,仅在附加位置条件熵低于设定阈值时进行并行解码 [10] - MED方法能实现2-3倍函数调用减少,显著降低推理计算量,同时保持性能几乎不变 [11] - 在HumanEval上实现2.2倍速度提升且准确率不变,在GSM8K上实现1.5倍速度提升且无性能损失 [26] 后训练能力的显著提升 - MDLM框架下对后验分布进行便捷采样的能力可生成高质量事后推理轨迹用于模型微调 [8] - 在GSM8K测试集上,使用后验数据微调的模型准确率从51.2%提升至66.1%,提升14.9个百分点 [32] - 测量答案块的对数概率有助于过滤低质量推理链,与最终答案正确性的相关性优于70亿参数预训练奖励模型 [36] 模型性能比较数据 - LLaDA模型在GSM8K上的基准准确率为76.95%,Dream模型为75.73% [4] - 使用MED方法后,LLaDA在GSM8K上准确率保持78.01%,函数调用从128.0次减少至84.8次 [30] - Dream模型在HumanEval上基准准确率为51.82%,使用MED后保持48.17%,函数调用从128.0次减少至60.4次 [30]
推理性能提升10倍 蚂蚁集团开源高性能扩散语言模型推理框架dInfer
环球网· 2025-10-13 17:03
公司技术发布 - 蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架dInfer [1] - dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架,可支持LLaDA、LLaDA-MoE等多种模型 [2] - 该框架包含模型接入、KV缓存管理器、扩散迭代管理器和解码策略四大核心可插拔模块 [2] 技术性能表现 - 在基准测试中,dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍,平均推理速度达到681 TPS,而Fast-dLLM为63.6 TPS [1][4] - 在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011 Tokens/秒的速度 [1][4] - 与在vLLM上运行的AR模型Qwen2.5-3B相比,dInfer的平均推理速度是其2.5倍(681 TPS vs 277 TPS) [5] 技术优势与意义 - 此次开源标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步 [5] - dInfer的工作表明扩散语言模型具备显著的效率潜力,为通往AGI的架构路径提供极具竞争力的选项 [1] - 扩散语言模型具有高度并行、全局视野、结构灵活三大优势,以LLaDA-MoE为代表的模型已在多个基准测试中展现出与顶尖自回归模型相媲美的准确性 [1]
冲破 AGI 迷雾,蚂蚁看到了一个新路标
雷峰网· 2025-09-16 18:20
大模型发展瓶颈 - 数据压榨已到尽头 AGI实现面临突破难题 [2][4] - 自回归范式存在单向建模缺陷 导致模型无法逆向推理和修正错误 [16][17][18] - 出现人名截断 语义颠倒 医疗诊断左右混淆等基础错误 [13][15] 当前技术迭代方向 - 马斯克提出提纯数据方案 尝试打开AGI大门 [5] - 多模态成为重点研究方向 Open AI发布GPT-4o实现多模态感知 [7][8] - 斯坦福李飞飞提出视觉是智能基石的观点 [8] 扩散模型新范式突破 - 蓝振忠与李崇轩合作推出LLaDA-MoE模型 基于扩散理论架构 [12][50] - 扩散模型具备并行解码 双向建模和迭代修正三大优势 [32][33][34][35] - 模型在20T高质量数据上训练 总参数量7B 激活参数量1.4B [63][66] 技术性能表现 - LLaDA-MoE在MMLU测试中获得67.18分 超越LLaDA1.0的65.50分 [71] - 在数学任务GSM8K测试中获得82.41分 接近Qwen2.5-3B的86.28分 [71] - 代码任务MultiPL-E测试中获得52.53分 显著优于LLaDA1.0的29.08分 [71] 行业发展意义 - 首次验证MoE架构在扩散语言模型上的放大效应 [71] - 为行业提供全新技术路径 打破自回归范式垄断 [54][72] - 蚂蚁集团开源模型权重和推理引擎 推动社区共同发展 [74][77] 未来挑战 - 生成速度需提升 当前扩散模型每秒仅50token 远低于自回归300token [72] - 更大规模扩展仍需突破 包括block diffusion等技术难题 [72] - 需要更多研究人员参与 加速扩散语言模型生态建设 [73][78]
扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
机器之心· 2025-09-12 19:31
模型技术突破 - 蚂蚁集团与中国人民大学联合团队开发业界首个原生MoE架构扩散语言模型LLaDA-MoE,使用20T训练数据实现技术验证[2][15] - 模型激活参数仅1.4B但性能对标自回归稠密模型Qwen2.5-3B,推理速度提升数倍[2][17] - 采用非自回归掩码扩散机制,突破自回归模型单向建模限制,支持并行解码和双向依赖关系捕捉[12][38] 架构与训练优势 - 总参数量7B的MoE架构显著提升计算效率,在代码、数学等结构化任务表现突出[26][29] - 复用蚂蚁百灵大模型20T高质量训练数据及自研ATorch训练框架,支持专家并行技术加速训练[26] - 扩散语言模型数据利用效率达自回归模型3倍以上,支持从重复数据中持续提取增量信息[40] 性能表现 - 在MMLU测评获67.18分超越LLaDA-8B的65.5分,在MATH数学任务达58.68分显著优于Dream-7B的39.2分[33] - 代码生成任务中HumanEval得分61.59分接近Qwen2.5-3B的60.37分,MultiPL-E达52.53分远超稠密扩散模型29分水平[33] - 在Agent对齐任务IFEval严格提示测试中获59.33分,优于同类扩散模型及Qwen2.5-3B的58.2分[33] 技术理论价值 - 扩散模型通过迭代去噪过程逼近数据分布,突破自回归模型链式法则概率分解的局限性[35] - 双向建模机制提升全局一致性,支持局部片段重新采样修正,适用于代码生成和文档编辑场景[38] - 理论证明最大似然估计准则可实现指令跟随、上下文学习等能力,非自回归模型独有特性[35] 战略意义与开源计划 - 项目突破自回归范式路径依赖,探索通过不确定性换取智能上限提升的战略选择[44] - 模型近期将完全开源技术报告与推理加速代码,推动全球AI社区扩散语言模型发展[19][33] - 蚂蚁集团持续布局前沿方向包括动态MoE架构创新与混合线性架构探索,以AGI为北极星指标[46][47]
全新范式!LLaDA-VLA:首个基于大语言扩散模型的VLA模型
具身智能之心· 2025-09-12 08:05
技术突破 - 首次将掩码扩散模型引入机器人动作生成领域 基于预训练多模态大语言扩散模型微调 支持并行化动作轨迹预测[5] - 提出局部化特殊Token分类技术 将连续动作空间离散化为32个动作Token 仅在动作相关Token集合计算交叉熵损失 非动作Token被屏蔽[8][12] - 开发层级化动作结构解码策略 显式建模动作间与动作内依赖关系 采用先粗后细生成方式提升轨迹连续性[9][13] 性能表现 - 在SimplerEnv环境平均成功率55.5% 超越CogACT模型4.2个百分点[14][21] - 在CALVIN环境平均任务长度4.01 超越OpenVLA模型0.74[14][21] - 真实机械臂WidowX测试平均成功率58% 较π0模型提升23个百分点 较CogACT提升28个百分点[15][21] 模型架构 - 输入为自然语言指令和场景RGB图像 输出多步离散动作序列 每步动作由7个Token表示三维位置变化 三维旋转变化和夹爪状态[7] - 采用SigLIP-2视觉编码器提取特征 基于LLaDA扩散式大语言模型融合多模态信息 通过投影器实现跨模态统一[10] - 通过动作级置信度估计和重采样机制 优先保留高置信度动作 对低置信度动作进行Token级精细重采样[16] 实验验证 - 在SimplerEnv高拟真仿真平台测试精准操作任务 在CALVIN长时序仿真评估多步骤任务 使用ABC-D设置验证泛化能力[17] - 消融实验显示单独使用LSC技术使平均任务长度提升0.79 叠加HAD技术后进一步提升0.58至4.01[18] - 真实机器人测试包含8个操作任务 涵盖域内任务如"将草莓放入碗中"和域外任务如"将立方体放入未知容器"[17]
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 10:11
挑战 next token prediction,Diffusion LLM 够格吗? - Gemini Diffusion 采用扩散架构进行文本生成,平均采样速度达1479 TPS,编码任务中可达2000 TPS,比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成,与自回归架构不同,采用"从粗到细"的生成方法,具备并行处理能力 [6] - 扩散模型能并行优化整个序列,显著减少计算开销,有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索,近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token,极大提升文本生成效率 [8] - 具备文本插值能力,可生成句子间衔接内容,提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型,优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 09:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 12:16
模型技术 - LaViDa是一种基于扩散模型的视觉-语言模型(VLM),能够联合处理视觉和文本信息,继承了扩散语言模型高速且可控的优点[1] - 不同于流行的自回归VLM,LaViDa将文本生成视为在离散token上的扩散过程,通过前向过程将文本token序列退化为掩码token序列,再通过反向过程转换为有意义的文本[3] - 扩散模型相比自回归模型具有多项优势:可通过调整扩散步骤数量灵活控制速度与质量平衡,能够建模双向上下文,更适合文本填空等任务[4] 模型架构 - LaViDa由视觉编码器和扩散语言模型组成,通过MLP投射网络连接[10] - 视觉编码器使用SigLIP-400M,将输入图像调整为多个视图并独立编码,产生3645个嵌入,通过平均池化减少到980个以提高训练效率[12][13] - 扩散语言模型采用多层Transformer架构,注意力掩码为非因果式,使用扩散语言建模目标而非下一个token预测[13] 训练方法 - 采用两阶段训练流程:预训练阶段仅更新投射算子使视觉嵌入与DLM隐空间对齐,微调阶段对所有组件进行端到端联合训练以实现指令遵循[19] - 通过第三阶段训练得到专用模型:使用1.92万个CoT样本蒸馏得到推理模型LaViDa-Reason,在MathVision等基准上相对提升达18%[25][27] - 使用阶段2数据20%子集进行额外训练得到LaViDa-FIM,支持长度可变的文本填空,在约束诗歌生成任务中实现100%约束满足率[30][32] 性能表现 - 在一般视觉-语言理解任务中,LaViDa-L在MMMU上取得43.3分,优于所有同类模型[22] - 在科学任务中,LaViDa在ScienceQA上取得81.4和80.2分,在AI2D上与Open-Llava-Next表现相当[23] - 在OCR任务中表现尚可但落后于最新自回归模型,主要因平均池化导致细粒度空间信息丢失[23] - 通过控制离散化步数K实现速度与质量权衡:NFE=75%和50%时速度比自回归基线更快且质量更好,NFE=25%时速度明显更快但性能略逊[35]