舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心·2025-05-27 11:23
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导 师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA 。 此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM) 。这项工作标志着对当前以自回归为 主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。 近年来,多模态大语言模型(MLLMs)在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而,现有的大多数方法依赖自回归模型。虽然有研究尝 试将扩散模型引入 MLLMs,但往往采用混合架构(自回归 + 扩散)或者受限于语言建模能力,导致性能不佳。 继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型(如 LLaMA3-8B)竞争后,一个关键问题随之而来:扩散语言模型能否在多模态任务中也达到与自 回归模型相当的性能?LLaDA-V 正是对这一问题的有力回答。 研究团队将 LLaDA 作为语言基座,通过引入视觉编 ...