从视觉出发统一多模态！颜水成团队最新研究：不再把图像编解码器塞进LLM｜ICLR'2026

文章核心观点 - AI大模型预训练范式可能正在发生第二次转移，从“预测下一个词”转向“预测下一个物理状态”或“世界建模” [5] - 多模态统一模型的构建基础可能从“语言优先”转向“视觉优先”，Muddit模型是这一路径的代表 [7][15] - Muddit通过一套完全离散扩散框架，实现了文生图、图生文和视觉问答任务的生成机制统一，挑战了多模态领域默认的“语言中心论” [19][23][37] 多模态模型发展路径与范式转移 - 过去几年行业最成功的预训练范式是围绕“预测下一个词”展开，多模态模型主流思路是“语言为骨架，其他模态为外挂” [3] - NVIDIA研究员提出AI正经历第二次预训练范式转移，从“next word prediction”转向“world modeling”，即预测世界在给定条件和动作后的演化 [5] - 未来基础模型若要更接近世界本身，其构建基础可能需要重新审视，不一定继续建立在语言优先的体系上 [7][16] 现有“统一”模型的局限 - 当前多数统一生成模型本质仍是“language-first”，视觉能力是围绕语言主干的拼装，并非真正的生成原理统一 [8][11] - 自回归建模将二维图像压扁成一维token序列，导致图像生成慢、推理成本高，且难以兼顾质量、效率和可控性 [10] - 许多模型使用不同机制处理文本和图像（如离散扩散与连续扩散），靠模板或额外token缝合，未形成真正统一的多模态生成范式 [11] Muddit模型的核心创新 - 核心思路翻转：不是让LLM学会画图，而是让一个具备强视觉先验的图像生成模型长出跨模态统一生成能力 [13][15] - 采用完全离散扩散框架：将文本和图像都表示为离散token，用同一套离散扩散框架建模，共享生成器、训练目标和采样逻辑 [19][24] - 实现生成机制统一：文生图、图生文、VQA任务切换仅改变条件信号，扩散过程、损失设计和引导逻辑全部共享 [21][22][23] - 模型骨干共享：核心backbone是共享的MM-DiT，由预训练的Meissonic文生图模型初始化，继承了其视觉先验能力 [20] 技术路径优势与评估结果 - 离散扩散优势：通过随机mask和逐步恢复学习，不强制固定生成顺序，支持并行预测，推理更灵活，适合统一建模 [24] - 文生图性能：1B参数、512×512的Muddit在GenEval上整体准确率达0.61，超过Monetico的0.44和Meissonic的0.54，接近2B参数的Stable Diffusion 3的0.62 [27] - 具体能力：在two objects任务上达0.72，在counting任务上达0.54，显示其在组合性和结构性要求上的竞争力 [27] - 图像理解与图生文性能：512×512模型在MS-COCO captioning上CIDEr达59.9，VQAv2达68.2%；1024×1024版本提升至60.1和70.2% [28] - 统一训练效果：联合训练将GenEval分数从单独任务的59.3和28.3提升至61.6，证明跨模态对齐能力通过统一优化得以增强 [29] 数据与训练效率 - 数据规模相对较小：1B的512×512版本基于10M数据训练，1024×1024版本基于16M数据，对比其他模型数据量更少 [30] - 训练效率高：强视觉先验带来了图文对齐能力，完全统一的建模范式避免了混合目标与复杂架构的优化负担 [30] - 前作对比：Meissonic模型使用210M图像，在8×A100 GPU上训练19天，相比其他模型（如SD-1.5用4800M图像训练781.2天）效率显著 [31] 行业意义与未来方向 - 切中多模态基础模型方向切换：从在语言体系内扩展视觉，转向要求模型更接近世界结构本身（如视频、3D、具身智能） [33] - 视觉更接近世界本质：未来模型处理的核心是状态、空间、变化和反馈，这些天然更靠近视觉而非语言 [34] - 提供新基座可能：下一代统一模型可以从视觉出发，利用图像生成模型已学到的空间、语义和组合知识重新搭建生成框架 [40] - 引发根本性思考：统一生成模型的下一站不应只是“让LLM多会一点”，而应重新思考什么是多模态基础模型真正的基座 [41][42]