谢赛宁等推出统一多模态模型!替代VAE实现图像理解/生成双SOTA,代码权重数据集全开源
量子位·2025-05-16 11:39
谢赛宁等团队推出了统一多模态模型 Blip3-o 。 与传统的基于VAE的表征不同,他们提出了一种新方法,使用扩散Transformer来生成语义丰富的CLIP图像特征。这种设计提高了训练效率, 又提升了生成质量。 白交 发自 凹非寺 量子位 | 公众号 QbitAI 统一图像理解和生成,还实现了新SOTA。 在这一背景下,团队又看到了自回归和扩散模型在高质量生成和可扩展性方面有强大的潜力。于是乎,他们开始对统一多模态模型进行了全面 研究,重点关注图像表示、建模目标和训练策略。 统一架构 这些基础上,他们提出了一种新的统一架构。同样包括两部分。 此外,他们还证明, 先进行图像理解训练,再进行图像生成训练 的统一模型顺序预训练策略,具有实用优势,既能保持图像理解能力,又能 培养强大的图像生成能力。 网页端可以免费体验Demo~ 统一多模态模型Blip3-o 在最近的多模态模型研究中,图像理解与生成的统一受到越来越多的关注。尽管研究人员们对图像理解的设计选择进行了广泛的研究,但对图 像生成统一框架的最佳模型架构和训练方法的研究仍然不足。 结果显示,CLIP+Flow Matching在GenEval和DPG-Be ...