统一离散与连续扩散！人大 & 蚂蚁提出 LLaDA-o，高效达成多模态理解与生成

研究背景与问题 - 当前多模态大语言模型领域几乎全被自回归模型主导，扩散模型在图像生成和理解任务中展现出潜力，但缺乏一个能统一处理多模态理解和视觉生成的扩散模型[2] - 将离散文本扩散和连续图像扩散直接联合训练，会因状态空间和扩散过程的异构性导致优化冲突和性能下降[2] - 现有全能扩散模型通常只能生成固定长度的文本，限制了其在开放式对话中的应用[2] 解决方案与模型发布 - 中国人民大学与蚂蚁集团联合团队推出了LLaDA-o，一个高效且支持长度自适应的全能扩散模型[3] - LLaDA-o使用了混合扩散框架，在多模态理解和文生图任务上均实现了SOTA性能[3] - 团队预计近期将开源训练、推理代码以及LLaDA-o的模型权重[5] 模型性能亮点 - 在10个主流多模态理解基准测试中，LLaDA-o展现了优秀的能力，稳居扩散类MLLM的SOTA位置[7] - 在数学推理任务MathVista上取得66.1分，在图表理解任务ChartQA上取得87.9分，相较于现有扩散类全能模型优势显著[7] - 在文本到图像生成任务中，于DPG-Bench上取得了87.04的SOTA高分，超越了SD3-Medium、Show-o2和Lumina-DiMOO等模型[9] - 推理速度飙升5.9倍[6] 核心技术：混合扩散框架 - LLaDA-o采用混合扩散框架，配置了两个“扩散专家”以解耦不同模态的优化冲突[12] - “理解专家”采用离散的掩码扩散机制，负责处理文本和视觉编码器提取的token[14] - “生成专家”采用连续扩散机制，负责处理视觉潜在token[14] - 两个专家共享同一个注意力主干网络，确保了跨模态信息的深度交互[12] 核心技术：模态内双向注意力 - 团队设计了模态内双向注意力机制以解决全局注意力在推理时的重复计算问题[15] - 将输入序列划分为不同的模态块，在块内使用全连接注意力，在块间强制执行因果注意力[15] - 该机制允许前置条件的图像和提示词一次性计算并复用KV Cache，极大地避免了冗余计算[15] 核心技术：自适应长度增强 - 研究团队引入了自适应长度增强，这是一种纯数据驱动的训练策略[17] - 在训练时，对目标回复进行随机的“延长”或“截断”操作，使模型学会在推理时根据上下文动态决定输出长度[17] - 该方法无需修改底层架构，解决了变长文本生成的痛点[17] 总结与行业意义 - LLaDA-o将离散的语言理解与连续的视觉生成统一在混合扩散框架下，证明了扩散模型有能力在多模态“理解+生成”赛道上与自回归模型竞争[19] - 这项工作为非自回归架构的发展开辟了极具潜力的新路径[19] - 随着底层大语言扩散模型的持续进化，基于扩散架构的统一大模型有望在未来的通用人工智能版图中占据重要地位[20]