Workflow
多模态统一模型
icon
搜索文档
从视觉出发统一多模态!颜水成团队最新研究:不再把图像编解码器塞进LLM|ICLR'2026
量子位· 2026-03-10 16:00
文章核心观点 - AI大模型预训练范式可能正在发生第二次转移,从“预测下一个词”转向“预测下一个物理状态”或“世界建模” [5] - 多模态统一模型的构建基础可能从“语言优先”转向“视觉优先”,Muddit模型是这一路径的代表 [7][15] - Muddit通过一套完全离散扩散框架,实现了文生图、图生文和视觉问答任务的生成机制统一,挑战了多模态领域默认的“语言中心论” [19][23][37] 多模态模型发展路径与范式转移 - 过去几年行业最成功的预训练范式是围绕“预测下一个词”展开,多模态模型主流思路是“语言为骨架,其他模态为外挂” [3] - NVIDIA研究员提出AI正经历第二次预训练范式转移,从“next word prediction”转向“world modeling”,即预测世界在给定条件和动作后的演化 [5] - 未来基础模型若要更接近世界本身,其构建基础可能需要重新审视,不一定继续建立在语言优先的体系上 [7][16] 现有“统一”模型的局限 - 当前多数统一生成模型本质仍是“language-first”,视觉能力是围绕语言主干的拼装,并非真正的生成原理统一 [8][11] - 自回归建模将二维图像压扁成一维token序列,导致图像生成慢、推理成本高,且难以兼顾质量、效率和可控性 [10] - 许多模型使用不同机制处理文本和图像(如离散扩散与连续扩散),靠模板或额外token缝合,未形成真正统一的多模态生成范式 [11] Muddit模型的核心创新 - 核心思路翻转:不是让LLM学会画图,而是让一个具备强视觉先验的图像生成模型长出跨模态统一生成能力 [13][15] - 采用完全离散扩散框架:将文本和图像都表示为离散token,用同一套离散扩散框架建模,共享生成器、训练目标和采样逻辑 [19][24] - 实现生成机制统一:文生图、图生文、VQA任务切换仅改变条件信号,扩散过程、损失设计和引导逻辑全部共享 [21][22][23] - 模型骨干共享:核心backbone是共享的MM-DiT,由预训练的Meissonic文生图模型初始化,继承了其视觉先验能力 [20] 技术路径优势与评估结果 - 离散扩散优势:通过随机mask和逐步恢复学习,不强制固定生成顺序,支持并行预测,推理更灵活,适合统一建模 [24] - 文生图性能:1B参数、512×512的Muddit在GenEval上整体准确率达0.61,超过Monetico的0.44和Meissonic的0.54,接近2B参数的Stable Diffusion 3的0.62 [27] - 具体能力:在two objects任务上达0.72,在counting任务上达0.54,显示其在组合性和结构性要求上的竞争力 [27] - 图像理解与图生文性能:512×512模型在MS-COCO captioning上CIDEr达59.9,VQAv2达68.2%;1024×1024版本提升至60.1和70.2% [28] - 统一训练效果:联合训练将GenEval分数从单独任务的59.3和28.3提升至61.6,证明跨模态对齐能力通过统一优化得以增强 [29] 数据与训练效率 - 数据规模相对较小:1B的512×512版本基于10M数据训练,1024×1024版本基于16M数据,对比其他模型数据量更少 [30] - 训练效率高:强视觉先验带来了图文对齐能力,完全统一的建模范式避免了混合目标与复杂架构的优化负担 [30] - 前作对比:Meissonic模型使用210M图像,在8×A100 GPU上训练19天,相比其他模型(如SD-1.5用4800M图像训练781.2天)效率显著 [31] 行业意义与未来方向 - 切中多模态基础模型方向切换:从在语言体系内扩展视觉,转向要求模型更接近世界结构本身(如视频、3D、具身智能) [33] - 视觉更接近世界本质:未来模型处理的核心是状态、空间、变化和反馈,这些天然更靠近视觉而非语言 [34] - 提供新基座可能:下一代统一模型可以从视觉出发,利用图像生成模型已学到的空间、语义和组合知识重新搭建生成框架 [40] - 引发根本性思考:统一生成模型的下一站不应只是“让LLM多会一点”,而应重新思考什么是多模态基础模型真正的基座 [41][42]
LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好
机器之心· 2026-01-24 09:53
文章核心观点 - 表征自编码器(RAE)作为一种新的文生图模型基础架构,在多个方面系统性超越了当前主流的变分自编码器(VAE)方案,为大规模文生图提供了更优的范式[4] - RAE通过耦合冻结的预训练视觉编码器与轻量化解码器,在从5亿到近百亿参数的多个尺度上,展现出比VAE更快的收敛速度、更高的训练稳定性以及更强的防过拟合能力[4][19][28] - 该技术路径让视觉理解与生成共享同一套高维语义表征空间,不仅简化了模型设计,也为构建多模态统一模型开辟了新的可能性[4][29][34] 架构设计与技术原理 - RAE采用与VAE截然不同的逻辑:直接使用预训练且冻结的视觉表征编码器(如SigLIP-2)将图像转化为高维语义token,仅训练一个轻量化的ViT解码器进行像素重建[6] - 以SigLIP-2 So400M为例,它将图像转化为16×16个token,每个token维度高达1152,远高于主流VAE方案的通道数(通常小于64),为生成提供了高保真度的语义起点[6] - 针对RAE操作极高维度语义表征的特点,研究团队引入了维度敏感的噪声调度平移(Noise Schedule Shift)以解决传统扩散模型噪声调度因维度灾难而失效的数学难题[14][15] - 当扩散Transformer(DiT)规模扩展至十亿参数以上时,RAE框架中原先为增强小模型能力而设计的复杂结构(如宽扩散头、噪声增强解码)被证明是冗余的,可以进行简化[17][21] 数据策略与模型表现 - 研究团队构建了一个约7300万条数据的大规模数据集,涵盖Web图像、高美感合成图像及专门的文本渲染数据,实验发现数据组成比例对模型性能至关重要[9] - 缺乏针对性文本渲染数据时,模型无法还原清晰字形细节;引入文本专项数据后,其在Text域的rFID分数出现质的飞跃(例如,从2.406降至1.621)[9][10] - 在ImageNet、YFCC和文本三个维度的重建保真度评测中,RAE方案已全面超越文生图领域的标杆SDXL VAE,虽稍逊于顶尖的FLUX VAE,但证明了其框架能适配不同预训练目标的视觉编码器[11][13] - 在从0.5B到9.8B参数的多个DiT尺度上,RAE均稳定且大幅度地优于VAE方案,并且在1.5B LLM与2.4B DiT的基准测试中,达到同等生成质量所需时间仅为VAE的四分之一左右[19][23][25] 训练稳定性与扩展性 - RAE展现出显著的收敛速度优势,在GenEval评测中实现了4.0倍加速,在DPG-Bench上达到4.6倍加速[23] - 在对高质量数据集进行精细化微调时,VAE模型在约64个epoch后出现灾难性过拟合,性能断崖式下跌,而RAE即使微调至256甚至512个epoch仍能保持稳定的生成质量,表现出极强的鲁棒性[4][25][28] - 当语言模型骨干从1.5B升级至7B时,RAE模型能更好地利用更丰富的文本表征,获得进一步的性能跨越,这证明了当生成与理解在同一个语义潜空间中对齐时,更大的语言模型能释放更强的生成潜力[25] 潜在影响与未来展望 - RAE的成功标志着潜向扩散模型正从繁复的结构堆砌回归到更简洁、更本质的语义建模[35] - 理解与生成在同一套语义特征空间中运行,为多模态统一模型打开了想象空间,例如,语言模型无需将图像解码为像素即可直接对扩散模型生成的潜变量进行理解和打分[4][29][36] - 实验显示,在加入生成训练后,模型在MME、MMMU等视觉理解榜单上的性能保持完好甚至略有提升,体现了其“理解能力保全”的特性[36]
昆仑万维推出并开源Skywork UniPic
证券日报网· 2025-07-30 15:14
核心观点 - 昆仑万维推出并开源多模态统一预训练模型Skywork UniPic 该模型在单一架构中深度融合图像理解、文本到图像生成和图像编辑三大核心能力 通过自回归路线和端到端预训练实现通用性与可迁移性 [1] 技术架构创新 - 采用MAR编码器作为图像生成路径的视觉表征基础 同时引入SigLIP2作为图像理解路径主干 突破传统VQ或VAE编码器侧重视觉细节而弱化语义信息的局限性 [1] - 借鉴Harmon架构设计并在表征方式做出关键调整 构建真正统一的多模态模型架构 [1] - 通过共享编码器实现跨任务深度协同 保持自回归模型简洁高效的同时完成端到端优化流程 实现生成、理解、编辑三大能力的协同训练和相互促进 [2] 性能表现 - 以1.5B紧凑参数规模在无思维链(CoT)情况下取得SOTA分数 逼近部分较大模型带CoT的0.88分 [2] - 在DPG-Bench复杂指令生图基准上达到85.5分的行业当前最佳水平 [2] 数据与训练 - 基于大规模高质量数据进行端到端预训练 具备良好通用性与可迁移性 [1]
1.5B参数撬动“吉卜力级”全能体验,国产开源之光多模态统一模型,来了
量子位· 2025-07-30 12:48
多模态AI技术趋势 - GPT-4o引发的"吉卜力风暴"成为上半年最热AI事件,证明多模态融合(文本、图像、声音)已成为AIGC新范式,更接近人类认知方式[2][4] - 行业技术方向从割裂的单模态处理转向统一模型,满足用户"看图+生图+改图"一体化需求[4][62] - 原生多模态统一模型实现"一次训练,处处生效",推动AIGC从拼规模转向拼效率与体验[63] Skywork UniPic模型特性 - 昆仑万维开源1.5B参数多模态统一模型Skywork UniPic,实现图像理解、文本生成图像、图像编辑三大能力深度融合[5][13] - 模型性能密度高:1.5B参数效果接近/超越百亿参数专用模型,可在RTX 4090等消费级显卡运行[10][12][27] - 完整开源模型权重、技术报告及全流程代码,推动技术社区协作[11][65] 技术性能表现 - 在GenEval指令遵循评估中得分0.86,超越多数同类模型,逼近7B参数BAGEL带CoT的0.88分[25] - DPG-Bench复杂指令生图基准达85.5分SOTA水平,与14B参数BAGEL(85.07分)相当[26] - 图像编辑能力:GEditBench-EN得分5.83,ImgEdit-Bench得分3.49,可精准执行跨区域编辑指令[27][51] 模型架构创新 - 采用自回归模型架构(与GPT-4o同路线),深度整合图像生成至多模态框架,区别于主流扩散模型[30] - 双路径设计:MAR编码器用于图像生成路径,SigLIP2编码器用于图像理解路径[34] - MAR编码器通过Diffusion Loss替代传统VQ离散化,实现高质量生成与低延迟响应[36] 训练策略优化 - 渐进式多任务训练:先聚焦文本生成图像,再逐步引入理解与编辑任务,避免能力失衡[56][57] - 分层分辨率训练:从512×512微调基础特征,逐步提升至1024×1024强化细节捕捉[55] - 分阶段参数解冻策略:先对齐视觉与语言特征,再优化视觉主干,最终端到端联合训练[55] 数据体系构建 - 亿级精选预训练语料+百万级SFT样本,远低于行业百亿级数据需求但性能相当[40][42] - 自研两套奖励模型:Skywork-ImgReward优化文生图质量,Skywork-EditReward筛选编辑样本[48][50] - 数据提纯三大策略:均衡任务分布、多样化指令模板、多层质检机制[49] 行业影响与开源生态 - 昆仑万维持续开源布局:从百亿参数大模型到视频生成模型SkyReels系列,覆盖多模态全领域[68] - 开源推动技术平民化,降低AI应用门槛,加速创意生态发展[66][69] - 中国技术力量引领多模态创新,开源社区贡献获全球关注[65][69]