LLaDA - 财报，业绩电话会，研报，新闻

LLaDA

搜索文档

雷峰网· 2025-09-16 18:20

大模型发展瓶颈 - 数据压榨已到尽头 AGI实现面临突破难题 [2][4] - 自回归范式存在单向建模缺陷导致模型无法逆向推理和修正错误 [16][17][18] - 出现人名截断语义颠倒医疗诊断左右混淆等基础错误 [13][15] 当前技术迭代方向 - 马斯克提出提纯数据方案尝试打开AGI大门 [5] - 多模态成为重点研究方向 Open AI发布GPT-4o实现多模态感知 [7][8] - 斯坦福李飞飞提出视觉是智能基石的观点 [8] 扩散模型新范式突破 - 蓝振忠与李崇轩合作推出LLaDA-MoE模型基于扩散理论架构 [12][50] - 扩散模型具备并行解码双向建模和迭代修正三大优势 [32][33][34][35] - 模型在20T高质量数据上训练总参数量7B 激活参数量1.4B [63][66] 技术性能表现 - LLaDA-MoE在MMLU测试中获得67.18分超越LLaDA1.0的65.50分 [71] - 在数学任务GSM8K测试中获得82.41分接近Qwen2.5-3B的86.28分 [71] - 代码任务MultiPL-E测试中获得52.53分显著优于LLaDA1.0的29.08分 [71] 行业发展意义 - 首次验证MoE架构在扩散语言模型上的放大效应 [71] - 为行业提供全新技术路径打破自回归范式垄断 [54][72] - 蚂蚁集团开源模型权重和推理引擎推动社区共同发展 [74][77] 未来挑战 - 生成速度需提升当前扩散模型每秒仅50token 远低于自回归300token [72] - 更大规模扩展仍需突破包括block diffusion等技术难题 [72] - 需要更多研究人员参与加速扩散语言模型生态建设 [73][78]

Artificial Intelligence

Artificial Intelligence

LLaDA-MoE

扩散语言模型也有MoE版本了！蚂蚁&人大从头训练LLaDA-MoE，即将完全开源

机器之心· 2025-09-12 19:31

模型技术突破 - 蚂蚁集团与中国人民大学联合团队开发业界首个原生MoE架构扩散语言模型LLaDA-MoE，使用20T训练数据实现技术验证[2][15] - 模型激活参数仅1.4B但性能对标自回归稠密模型Qwen2.5-3B，推理速度提升数倍[2][17] - 采用非自回归掩码扩散机制，突破自回归模型单向建模限制，支持并行解码和双向依赖关系捕捉[12][38] 架构与训练优势 - 总参数量7B的MoE架构显著提升计算效率，在代码、数学等结构化任务表现突出[26][29] - 复用蚂蚁百灵大模型20T高质量训练数据及自研ATorch训练框架，支持专家并行技术加速训练[26] - 扩散语言模型数据利用效率达自回归模型3倍以上，支持从重复数据中持续提取增量信息[40] 性能表现 - 在MMLU测评获67.18分超越LLaDA-8B的65.5分，在MATH数学任务达58.68分显著优于Dream-7B的39.2分[33] - 代码生成任务中HumanEval得分61.59分接近Qwen2.5-3B的60.37分，MultiPL-E达52.53分远超稠密扩散模型29分水平[33] - 在Agent对齐任务IFEval严格提示测试中获59.33分，优于同类扩散模型及Qwen2.5-3B的58.2分[33] 技术理论价值 - 扩散模型通过迭代去噪过程逼近数据分布，突破自回归模型链式法则概率分解的局限性[35] - 双向建模机制提升全局一致性，支持局部片段重新采样修正，适用于代码生成和文档编辑场景[38] - 理论证明最大似然估计准则可实现指令跟随、上下文学习等能力，非自回归模型独有特性[35] 战略意义与开源计划 - 项目突破自回归范式路径依赖，探索通过不确定性换取智能上限提升的战略选择[44] - 模型近期将完全开源技术报告与推理加速代码，推动全球AI社区扩散语言模型发展[19][33] - 蚂蚁集团持续布局前沿方向包括动态MoE架构创新与混合线性架构探索，以AGI为北极星指标[46][47]

全新范式！LLaDA-VLA：首个基于大语言扩散模型的VLA模型

具身智能之心· 2025-09-12 08:05

技术突破 - 首次将掩码扩散模型引入机器人动作生成领域基于预训练多模态大语言扩散模型微调支持并行化动作轨迹预测[5] - 提出局部化特殊Token分类技术将连续动作空间离散化为32个动作Token 仅在动作相关Token集合计算交叉熵损失非动作Token被屏蔽[8][12] - 开发层级化动作结构解码策略显式建模动作间与动作内依赖关系采用先粗后细生成方式提升轨迹连续性[9][13] 性能表现 - 在SimplerEnv环境平均成功率55.5% 超越CogACT模型4.2个百分点[14][21] - 在CALVIN环境平均任务长度4.01 超越OpenVLA模型0.74[14][21] - 真实机械臂WidowX测试平均成功率58% 较π0模型提升23个百分点较CogACT提升28个百分点[15][21] 模型架构 - 输入为自然语言指令和场景RGB图像输出多步离散动作序列每步动作由7个Token表示三维位置变化三维旋转变化和夹爪状态[7] - 采用SigLIP-2视觉编码器提取特征基于LLaDA扩散式大语言模型融合多模态信息通过投影器实现跨模态统一[10] - 通过动作级置信度估计和重采样机制优先保留高置信度动作对低置信度动作进行Token级精细重采样[16] 实验验证 - 在SimplerEnv高拟真仿真平台测试精准操作任务在CALVIN长时序仿真评估多步骤任务使用ABC-D设置验证泛化能力[17] - 消融实验显示单独使用LSC技术使平均任务长度提升0.79 叠加HAD技术后进一步提升0.58至4.01[18] - 真实机器人测试包含8个操作任务涵盖域内任务如"将草莓放入碗中"和域外任务如"将立方体放入未知容器"[17]

挑战 next token prediction，Diffusion LLM 够格吗？

机器之心· 2025-06-08 10:11

挑战 next token prediction，Diffusion LLM 够格吗？ - Gemini Diffusion 采用扩散架构进行文本生成，平均采样速度达1479 TPS，编码任务中可达2000 TPS，比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成，与自回归架构不同，采用"从粗到细"的生成方法，具备并行处理能力 [6] - 扩散模型能并行优化整个序列，显著减少计算开销，有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索，近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token，极大提升文本生成效率 [8] - 具备文本插值能力，可生成句子间衔接内容，提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型，优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]

Artificial Intelligence

Diffusion Model

Self-Regressive Model

Artificial Intelligence

Gemini Diffusion

Diffusion LLM

Artificial Intelligence

Diffusion Model

Self-Regressive Model

Artificial Intelligence

Gemini Diffusion

Diffusion LLM

扩散语言模型扛把子LLaDA迎来新版本，数学、代码、对齐能力均提升

机器之心· 2025-06-07 11:59AI Processing

冲击自回归，扩散模型正在改写下一代通用模型范式

机器之心· 2025-06-04 09:59

Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion，提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍，采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异，如HumanEval(89.6%)、MBPP(76.0%)等，性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA，性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型，衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制，通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens，在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法，在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V，集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA，兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]

扩散模型

自回归模型

Artificial Intelligence

Artificial Intelligence

LLaDA

LLaDA-V

Gemini Diffusion

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

机器之心· 2025-05-30 12:16

模型技术 - LaViDa是一种基于扩散模型的视觉-语言模型(VLM)，能够联合处理视觉和文本信息，继承了扩散语言模型高速且可控的优点[1] - 不同于流行的自回归VLM，LaViDa将文本生成视为在离散token上的扩散过程，通过前向过程将文本token序列退化为掩码token序列，再通过反向过程转换为有意义的文本[3] - 扩散模型相比自回归模型具有多项优势：可通过调整扩散步骤数量灵活控制速度与质量平衡，能够建模双向上下文，更适合文本填空等任务[4] 模型架构 - LaViDa由视觉编码器和扩散语言模型组成，通过MLP投射网络连接[10] - 视觉编码器使用SigLIP-400M，将输入图像调整为多个视图并独立编码，产生3645个嵌入，通过平均池化减少到980个以提高训练效率[12][13] - 扩散语言模型采用多层Transformer架构，注意力掩码为非因果式，使用扩散语言建模目标而非下一个token预测[13] 训练方法 - 采用两阶段训练流程：预训练阶段仅更新投射算子使视觉嵌入与DLM隐空间对齐，微调阶段对所有组件进行端到端联合训练以实现指令遵循[19] - 通过第三阶段训练得到专用模型：使用1.92万个CoT样本蒸馏得到推理模型LaViDa-Reason，在MathVision等基准上相对提升达18%[25][27] - 使用阶段2数据20%子集进行额外训练得到LaViDa-FIM，支持长度可变的文本填空，在约束诗歌生成任务中实现100%约束满足率[30][32] 性能表现 - 在一般视觉-语言理解任务中，LaViDa-L在MMMU上取得43.3分，优于所有同类模型[22] - 在科学任务中，LaViDa在ScienceQA上取得81.4和80.2分，在AI2D上与Open-Llava-Next表现相当[23] - 在OCR任务中表现尚可但落后于最新自回归模型，主要因平均池化导致细粒度空间信息丢失[23] - 通过控制离散化步数K实现速度与质量权衡：NFE=75%和50%时速度比自回归基线更快且质量更好，NFE=25%时速度明显更快但性能略逊[35]

舍弃自回归！国内团队打造纯扩散多模态大模型LLaDA-V，理解任务新SOTA

机器之心· 2025-05-27 11:23

核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V，这是首个纯扩散多模态大语言模型（MLLM），挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态，采用视觉编码器（SigLIP 2）和MLP连接器实现多模态对齐，全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V，并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA，显著缩小与顶尖自回归模型Qwen2-VL的差距（MMStar基准60.1 vs 60.7） [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构，视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制，消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码，损失函数聚焦掩码区域；推理采用反向去噪过程，结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构（如MetaMorph、Show-o）和纯扩散模型，达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B，但LLaDA-V在多模态任务中反超，证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上，数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解，如精准描述阿尔卑斯山景的层次感与空间关系（绿色小路、行人、教堂、薄雾群山等细节） [13] - 支持多轮多模态对话，通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文（arXiv:2505.16933）和代码仓库（GitHub/ML-GSAI/LLaDA-V） [6]

多模态大语言模型

扩散模型

自回归模型

Artificial Intelligence

Artificial Intelligence

LLaDA-V

LLaDA