Workflow
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位·2025-06-20 11:28

核心观点 - 当前主流AI图像生成模型在复杂逻辑推理和多模态信息融合方面存在局限,难以理解隐含语义(如"(3+6)条命=猫")[3][6] - 清华大学等机构联合开发的MindOmni模型通过三阶段训练框架显著提升AI的推理生成能力,支持多模态输入下的逻辑链生成[7][9][32] - MindOmni在MMMU等视觉理解基准测试中比Janus-Pro提升10.6%,在GenEval生成任务中取得83%总体分数[38][40] 模型架构 - 基于Qwen2.5-VL构建视觉语言模型,通过ViT提取图像特征并与文本标记序列对齐[14] - 采用OmniGen扩散解码器实现高质量图像生成,通过Transformer层连接器融合视觉与文本特征[15][16] - 支持视觉理解、多模态推理生成和视觉编辑的统一任务处理框架[18] 训练策略 - 基础预训练阶段:利用图像-文本对训练连接器,通过扩散损失和KL散度优化语义对齐[20][21] - 监督微调阶段:构建粗细粒度指令数据,结合高性能生成图像提升推理文本生成能力[23][24][25] - RGPO强化学习:引入格式奖励和一致性奖励机制,通过KL散度蒸馏避免策略偏移[26][29][30] 性能表现 - 视觉理解:MMBench测试得分83.2,超越MetaMorph的75.2;RealworldQA得分68.1[37][38][42] - 图像生成:GenEval基准单物体生成准确率99%,全局关系任务得分89.7,总体分数超越SDXL 2.6B模型[43] - 推理任务:WISE基准文化知识类得分0.71,时空推理任务可视化结果符合物理规律[45][46][47] 技术验证 - 消融实验证实三阶段训练缺一不可,RGPO算法使WISE基准性能提升12%[50] - 连接器设计和KL系数(0.1-0.3范围)对特征对齐效果影响显著[51]