Workflow
LLaDA
icon
搜索文档
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 10:11
机器之心PRO · 会员通讯 Week 23 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 挑战 next token prediction,Diffusion LLM 够格吗? 低成本下的高性能模型,是悖论还是可能? 为什么 Gemini Diffusion 是「被忽视的重大突破」?dLLM 有何底气冲击自回归模型?Diffusion 也可被视作无损数据压缩器?dLLM 还有哪 些潜在优势?兑现 dLLM 的潜力还需解决什么问题? ... 2. AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么? Mary Meeker 为何强调 AI 发展速度远超互联网时代?AI 模型训练成本与推理成本「剪刀差」将如何重塑行业竞争格局?企业 该如何平衡算力投入与商业化回报?中国开源模型崛起对全球供应链有何潜在影响?人机协作时代如何平衡劳动力结构转型与 技能重塑? ... 本期完整版通讯含 2 项专题解读 + 27 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 4 项,国外方面 12 项。 本期通讯总计 29595 字, ...
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 09:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 12:16
机器之心报道 编辑:Panda 近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我 们介绍的这个名叫 LaViDa ,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。 现目前,几乎所有流行的 VLM 都是基于大型语言模型(LLM)构建的,而这些模型采用的范式是自回归(AR),即按照从左到右的顺序逐一生成 token。 例如,生成一首每行都以特定音节开头的诗歌,或从预定义 JSON 格式的图像中提取结构化信息 —— 这些任务通常需要模型填充或协调整个序列中的内容。即使 使用精心设计的提示词和演示,自回归模型仍然难以稳定地满足此类约束。 近段时间,离散的扩散模型(DM)开始崛起,甚至被许多人认为是自回归 LLM 的一种有力替代,比如我们曾报道过的 首个 8B 扩散大语言模型 LLaDA 、 扩散 推理模型 Dream 7B 以及 首个商业级扩散 LLM Mercury 。 不同于自回归 LLM,扩散模型是将文本生成视为在离散 token 上的扩散过程。会有一个前向过程逐渐将离散文本 token 序列退 ...
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 11:23
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导 师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA 。 此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM) 。这项工作标志着对当前以自回归为 主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。 近年来,多模态大语言模型(MLLMs)在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而,现有的大多数方法依赖自回归模型。虽然有研究尝 试将扩散模型引入 MLLMs,但往往采用混合架构(自回归 + 扩散)或者受限于语言建模能力,导致性能不佳。 继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型(如 LLaMA3-8B)竞争后,一个关键问题随之而来:扩散语言模型能否在多模态任务中也达到与自 回归模型相当的性能?LLaDA-V 正是对这一问题的有力回答。 研究团队将 LLaDA 作为语言基座,通过引入视觉编 ...
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
机器之心· 2025-05-26 17:40
近年来,思维链在大模型训练和推理中愈发重要。近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的 新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大 化模型最终答案的正确率。不同于始终单向推理、线性生成的传统思维链(CoT),扩散式「发散思维链」允许模型以任意顺序非线性生成,且在生成过程中无需 严格遵从语法结构和可读性要求,能够鼓励模型以更加发散、创造性的方法开展推理。 扩散式「发散思维链」目前已成功应用于两种具有代表性的扩散语言模型中。在连续时间扩散语言模型中,该方法可以直接优化由模型输出的得分函数所确定的 策略分布;而在离散时间扩散语言模型中,团队将预测不同掩码 Token 的顺序当作模型决策的一部分,并基于 Plackett-Luce 模型设计去掩码策略。据此,团队成 功训练有序掩码生成扩散语言模型( L arge L anguage D iffusion with O rdered U nmasking, LLaDOU )。实验表明,仅用公开数据集和 16 张 ...