Workflow
统一多模态模型
icon
搜索文档
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑
机器之心· 2025-11-02 16:01
核心观点 - UniLIP模型通过创新的两阶段重建训练与自蒸馏损失,解决了统一多模态模型中语义理解与像素重建能力的内在权衡矛盾,在保持甚至提升理解性能的同时实现了卓越的图像重建、生成和编辑能力 [4][5][32] 方法创新 - 提出两阶段训练方案:第一阶段冻结CLIP,仅训练像素解码器和投影层进行解码器对齐;第二阶段通过自蒸馏方法共同训练CLIP,在注入像素细节的同时保留原始语义特征 [9][11] - 训练目标函数结合了MSE损失、LPIPS损失和自蒸馏约束,确保特征不偏离原始分布 [9][11] - 设计双条件架构,在查询嵌入之外引入MLLM的多模态隐藏状态作为第二个条件,共同引导DiT的交叉注意力模块,有效补充像素级信息 [17][18] 技术优势 - 实现32倍高保真图像压缩,并能通过轻量级解码器高质量恢复 [12] - 继承CLIP的强文本对齐能力,确保对文本指令的精准响应 [12] - 特征表示同时编码高级语义与像素细节,为高保真编辑提供完整信息 [13] - 在256x256分辨率下取得rFID 0.79、PSNR 22.99、SSIM 0.747;在448x448分辨率下取得rFID 0.31、PSNR 24.62、SSIM 0.788,超越此前量化方法 [22] 模型性能 多模态理解 - UniLIP-1B在MME-P基准得分1499,MMBench得分72.6,MMVP得分68.7,AI2D得分70.7,TextVOA得分74.7 [14][24] - UniLIP-3B在MME-P基准得分1636,MMBench得分80.7,MMVP得分73.0,实现同规模最好理解性能,超越Tar(7B)和VILA-U(7B)等更大模型 [24] 图像生成 - UniLIP-1B在GenEval基准Overall得分0.88,Counting得分0.83,Position得分0.83;WISE基准Overall得分0.56,Cultural得分0.54,Biology得分0.50 [25] - UniLIP-3B在GenEval基准Overall得分0.90,Counting得分0.84,Position得分0.86;WISE基准Overall得分0.63,Cultural得分0.66,Biology得分0.60,达到与BAGEL等更大模型相当水平 [25][26] 图像编辑 - UniLIP-1B在ImgEdit-Bench总体得分3.81,在Add、Adjust、Replace、Remove等子任务表现优异 [27] - UniLIP-3B总体得分3.94,超越OmniGen2(3.44)等先进模型,归功于特征的丰富细节与精准语义对齐能力 [27] 模型架构与训练 - 包括1B和3B两个参数变体,分别由InternVL3与SANA集成而来 [20] - 采用InternVL3的InternViT作为CLIP编码器,结合DC-AE像素解码器,连接器设计为6层 [20] - 生成训练数据来自BLIP3-o的38M预训练数据和60k指令微调数据;编辑预训练数据来自GPT-Image-Edit-1.5M,指令微调数据来自46K的ShareGPT-4o-Image [21] 行业意义 - 为下一代统一多模态模型提供了新的技术范式,成功解决了理解与生成任务间的固有矛盾 [32] - 仅用较小参数规模即实现超越更大模型的性能,在计算效率和应用部署方面具有显著优势 [5][24]
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
量子位· 2025-10-11 17:01
行业现状与核心问题 - AI视觉生成模型在自然图像上表现卓越,但在生成柱状图、函数图等结构化图像时频繁出错,存在逻辑混乱、数据错误和标签错位等问题 [1] - 视觉生成领域长期偏向追求自然图像的美学效果,忽视了结构化图像对事实准确性的核心需求 [2] - 现有视觉理解模型已能精准解析图表数值和公式逻辑,但生成/编辑模型难以匹配这种理解能力,形成显著的能力鸿沟,阻碍了统一多模态模型的发展 [2] 结构化图像的刚性需求与发展瓶颈 - 结构化非自然图像是教育、科研和办公领域的核心工具,其生成与编辑需满足三大刚性要求:精准文本渲染、复杂布局规划和多模态推理 [6][8][9] - 现有方案无法满足需求,数据端缺乏代码-图像严格对齐的结构化样本,模型端缺乏对细粒度结构化语义的理解,评估端无法衡量数值正确性等细粒度准确性 [10] - 视觉理解与生成的能力鸿沟持续扩大,模型能看懂图表数值却画不出数值准确的同类图表,成为统一多模态模型发展的关键卡点 [10] 全链条解决方案:数据层 - 构建了130万代码对齐的结构化样本库,采用代码驱动思路,覆盖数学函数、图表、表格等6类场景 [11][14] - 利用GPT-5生成双指令,确保编辑前后的图像与代码严格对齐,并为每个样本添加思维链标注以解决指令模糊问题 [14] - 最终筛选出130万高质量样本,为模型训练提供坚实基础 [14] 全链条解决方案:模型层 - 基于FLUX.1 Kontext设计轻量级VLM整合方案,引入Qwen-VL增强对结构化图像输入的理解能力 [13] - 通过轻量MLP连接器将Qwen-VL提取的高层语义对齐到FLUX.1的特征空间,仅训练少量参数即可实现能力迁移 [13] - 采用三阶段渐进训练策略,先对齐特征,再混合数据训练,最后用带思维链的样本提升推理能力,确保不丢失自然图像生成能力 [15] 全链条解决方案:基准层 - 提出StructBench基准,包含1714个分层抽样样本,覆盖6类任务,每个样本附带细粒度Q&A对以验证事实准确性 [17] - 提出StructScore指标,通过原子化Q&A加开放回答评分评估图像属性,该指标与人类偏好的皮尔逊相关系数超0.9,远优于传统指标 [19] - 评估编辑任务时采用0.1×视觉一致性+0.9×指令遵循的加权方式,优先保证编辑有效性 [19] 实验结果与行业影响 - 方案在15个主流开源闭源模型对比中展现出明显优势,在生成任务上总体准确率达到55.98%,在编辑任务上达到28.80% [21] - 实验表明数据比架构更关键,高质量、严格对齐、含推理标注的数据是决定性因素,推理能力在复杂任务上尤为关键 [21] - 该研究旨在推动多模态AI向精准理解和可靠生成迈进,为教育、科研和办公领域提供准确可靠的AI工具,推动AI从美化工具走向生产力工具 [23][24][25]
谢赛宁等推出统一多模态模型!替代VAE实现图像理解/生成双SOTA,代码权重数据集全开源
量子位· 2025-05-16 11:39
核心观点 - 谢赛宁等团队推出统一多模态模型Blip3-o,采用扩散Transformer生成语义丰富的CLIP图像特征,提升训练效率和生成质量 [2][3] - 提出先图像理解训练再图像生成训练的顺序预训练策略,兼顾理解与生成能力 [3] - 在GenEval、DPG-Bench等基准测试中取得SOTA性能,BLIP3-o 8B版本得分0.84/81.60/0.62 [20] 技术架构 - **统一设计**:图像理解部分使用CLIP编码器计算交叉熵损失,生成部分通过自回归模型生成中间特征并输入扩散Transformer逼近CLIP特征 [6][8] - **共享语义空间**:CLIP编码器使图像理解与生成共享同一语义空间,实现任务统一 [9] - **生成方案对比**:CLIP+Flow Matching在提示对齐上最优(GenEval 0.84),VAE+Flow Matching的FID最低(美学质量最佳)[13][16] 训练策略 - **顺序训练优势**:冻结自回归骨干保留理解能力,集中训练资源提升生成效果,优于联合训练 [17][18] - **数据优化**:使用60k指令调整数据集BLIP3o-60k增强模型,显著提升提示对齐和视觉美感 [20] 性能表现 - **基准测试**:BLIP3-o 8B在GenEval(0.84)、DPG-Bench(81.60)、WISE(0.62)超越EMU3 8B(0.66/80.60/0.39)等竞品 [20] - **评估局限**:FID分数可能误导(如GPT-4o在MJHQ-30k得30.0),需结合生成质量综合判断 [14] 应用与开源 - **应用开发**:迭代图像编辑、视觉对话、逐步视觉推理等场景正在推进 [22] - **开源资源**:完整公开代码、模型权重、训练脚本及预训练数据集 [21] 团队背景 - **机构合作**:Salesforce、马里兰大学、弗吉尼亚理工等联合完成,团队以华人为主 [23][24] - **核心成员**:四位共同一作包括谢赛宁学生Xichen Pan(上海交大本科),项目Lead为Salesforce科学家Le Xue [25][26] 体验链接 - 网页端Demo可免费体验 [4][26]