Workflow
图像理解与生成统一
icon
搜索文档
谢赛宁等推出统一多模态模型!替代VAE实现图像理解/生成双SOTA,代码权重数据集全开源
量子位· 2025-05-16 11:39
核心观点 - 谢赛宁等团队推出统一多模态模型Blip3-o,采用扩散Transformer生成语义丰富的CLIP图像特征,提升训练效率和生成质量 [2][3] - 提出先图像理解训练再图像生成训练的顺序预训练策略,兼顾理解与生成能力 [3] - 在GenEval、DPG-Bench等基准测试中取得SOTA性能,BLIP3-o 8B版本得分0.84/81.60/0.62 [20] 技术架构 - **统一设计**:图像理解部分使用CLIP编码器计算交叉熵损失,生成部分通过自回归模型生成中间特征并输入扩散Transformer逼近CLIP特征 [6][8] - **共享语义空间**:CLIP编码器使图像理解与生成共享同一语义空间,实现任务统一 [9] - **生成方案对比**:CLIP+Flow Matching在提示对齐上最优(GenEval 0.84),VAE+Flow Matching的FID最低(美学质量最佳)[13][16] 训练策略 - **顺序训练优势**:冻结自回归骨干保留理解能力,集中训练资源提升生成效果,优于联合训练 [17][18] - **数据优化**:使用60k指令调整数据集BLIP3o-60k增强模型,显著提升提示对齐和视觉美感 [20] 性能表现 - **基准测试**:BLIP3-o 8B在GenEval(0.84)、DPG-Bench(81.60)、WISE(0.62)超越EMU3 8B(0.66/80.60/0.39)等竞品 [20] - **评估局限**:FID分数可能误导(如GPT-4o在MJHQ-30k得30.0),需结合生成质量综合判断 [14] 应用与开源 - **应用开发**:迭代图像编辑、视觉对话、逐步视觉推理等场景正在推进 [22] - **开源资源**:完整公开代码、模型权重、训练脚本及预训练数据集 [21] 团队背景 - **机构合作**:Salesforce、马里兰大学、弗吉尼亚理工等联合完成,团队以华人为主 [23][24] - **核心成员**:四位共同一作包括谢赛宁学生Xichen Pan(上海交大本科),项目Lead为Salesforce科学家Le Xue [25][26] 体验链接 - 网页端Demo可免费体验 [4][26]