UniLIP
搜索文档
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑
机器之心· 2025-11-02 16:01
核心观点 - UniLIP模型通过创新的两阶段重建训练与自蒸馏损失,解决了统一多模态模型中语义理解与像素重建能力的内在权衡矛盾,在保持甚至提升理解性能的同时实现了卓越的图像重建、生成和编辑能力 [4][5][32] 方法创新 - 提出两阶段训练方案:第一阶段冻结CLIP,仅训练像素解码器和投影层进行解码器对齐;第二阶段通过自蒸馏方法共同训练CLIP,在注入像素细节的同时保留原始语义特征 [9][11] - 训练目标函数结合了MSE损失、LPIPS损失和自蒸馏约束,确保特征不偏离原始分布 [9][11] - 设计双条件架构,在查询嵌入之外引入MLLM的多模态隐藏状态作为第二个条件,共同引导DiT的交叉注意力模块,有效补充像素级信息 [17][18] 技术优势 - 实现32倍高保真图像压缩,并能通过轻量级解码器高质量恢复 [12] - 继承CLIP的强文本对齐能力,确保对文本指令的精准响应 [12] - 特征表示同时编码高级语义与像素细节,为高保真编辑提供完整信息 [13] - 在256x256分辨率下取得rFID 0.79、PSNR 22.99、SSIM 0.747;在448x448分辨率下取得rFID 0.31、PSNR 24.62、SSIM 0.788,超越此前量化方法 [22] 模型性能 多模态理解 - UniLIP-1B在MME-P基准得分1499,MMBench得分72.6,MMVP得分68.7,AI2D得分70.7,TextVOA得分74.7 [14][24] - UniLIP-3B在MME-P基准得分1636,MMBench得分80.7,MMVP得分73.0,实现同规模最好理解性能,超越Tar(7B)和VILA-U(7B)等更大模型 [24] 图像生成 - UniLIP-1B在GenEval基准Overall得分0.88,Counting得分0.83,Position得分0.83;WISE基准Overall得分0.56,Cultural得分0.54,Biology得分0.50 [25] - UniLIP-3B在GenEval基准Overall得分0.90,Counting得分0.84,Position得分0.86;WISE基准Overall得分0.63,Cultural得分0.66,Biology得分0.60,达到与BAGEL等更大模型相当水平 [25][26] 图像编辑 - UniLIP-1B在ImgEdit-Bench总体得分3.81,在Add、Adjust、Replace、Remove等子任务表现优异 [27] - UniLIP-3B总体得分3.94,超越OmniGen2(3.44)等先进模型,归功于特征的丰富细节与精准语义对齐能力 [27] 模型架构与训练 - 包括1B和3B两个参数变体,分别由InternVL3与SANA集成而来 [20] - 采用InternVL3的InternViT作为CLIP编码器,结合DC-AE像素解码器,连接器设计为6层 [20] - 生成训练数据来自BLIP3-o的38M预训练数据和60k指令微调数据;编辑预训练数据来自GPT-Image-Edit-1.5M,指令微调数据来自46K的ShareGPT-4o-Image [21] 行业意义 - 为下一代统一多模态模型提供了新的技术范式,成功解决了理解与生成任务间的固有矛盾 [32] - 仅用较小参数规模即实现超越更大模型的性能,在计算效率和应用部署方面具有显著优势 [5][24]