Workflow
多模态图像生成
icon
搜索文档
自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
量子位· 2025-07-29 13:05
MENTOR团队 投稿 量子位 | 公众号 QbitAI 当下的AI图像生成领域,Diffusion模型无疑是绝对的王者,但在 精准控制 上却常常"心有余而力不足"。 在精确视觉控制、平衡多模态输入以及高昂的训练成本方面仍面临挑战。有没有一种 更高效、控制更精准 的范式? 近日,来自 伊利诺伊大学香槟分校(UIUC)、威斯康星大学麦迪逊分校、清华大学、北京大学、Adobe以及微软 的研究者们,将目光投向 了另一条技术路线—— 自回归(Autoregressive, AR)模型 ,并提出了一个全新的高效多模态微调框架 MENTOR ,仅用十分之一的训练数据和次优的模型组 件,就能够实现超越Diffusion方法(如Emu2、DreamEngine)的性能, 为复杂的多模态图像生成提供了一个更高效、更可控的新范式。 MENTOR巧妙地绕开了Diffusion模型中常见的复杂设计,通过独特的 两阶段训练法 ,让自回归模型也能高效地进行多模态条件下的图像生 成,实现了 像素级精准控制。 △ 多模态条件生成效果展示 解决多模态图像生成中的平衡难题 在真实世界的应用中,我们常常需要模型能够理解和处理比纯文本更复杂的指令, ...