MindOmni

搜索文档
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-21 11:57
核心观点 - 清华大学、腾讯ARC Lab、香港中文大学和香港大学联合推出新大模型MindOmni,显著增强AI的推理生成能力,能理解复杂指令并基于图文内容展开连贯的"思维链"(Chain-of-Thought, CoT),生成具备逻辑性与语义一致性的图像或文本输出 [7][9] - MindOmni基于Qwen2.5-VL构建,通过预训练的ViT提取图像特征并编码文本,结合扩散解码器OmniGen实现高质量图像生成 [14][15] - 采用三阶段训练框架(基础预训练、监督微调、推理生成策略优化RGPO),通过强化学习显式生成逻辑推理链,在MMMU、MMBench等基准测试中性能领先 [20][26][36][38] 模型架构 - 视觉语言模型部分基于Qwen2.5-VL,处理图像和文本输入,通过ViT提取图像特征并编码文本标记序列 [14] - 扩散解码器基于OmniGen构建,通过去噪过程将噪声信号转化为图像,在序列维度合并视觉/文本特征与噪声标记 [15][16] - 使用双层Transformer连接器对齐VLM输出特征与生成模块输入维度 [16] 训练框架 - **基础预训练阶段**:利用开源图像-文本对和X2I数据训练连接器,通过扩散损失和KL散度蒸馏损失优化生成过程 [20][21] - **监督微调阶段**:构建推理生成指令数据(粗/细粒度描述),结合高性能文生图模型生成的高质量图像提升生成质量 [23][24][25] - **RGPO阶段**:引入强化学习算法,设计格式奖励和一致性奖励函数(CLIP余弦相似度),优化推理链生成 [26][29][30] 性能表现 - **视觉理解**:在MMMU基准比Janus-Pro提升10.6%,在MMBench比MetaMorph提升9.8% [38] - **图像生成**:GenEval基准总体分数83%,DPG-Bench得分83.0,单对象生成任务准确率97% [40][41][43] - **推理生成**:WISE基准总体分数0.71,在文化知识、时空推理等子类超越FLUX、PixArt等模型 [45] 应用案例 - 正确生成"(3+6)条命的动物"对应的猫图像,理解数学表达式背后的语义 [46] - 生成"悉尼歌剧院在纽约中午时的场景"时能计算时差并匹配场景 [47] - 在多模态输入场景下保持图文语义一致性 [48]
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-20 11:28
核心观点 - 当前主流AI图像生成模型在复杂逻辑推理和多模态信息融合方面存在局限,难以理解隐含语义(如"(3+6)条命=猫")[3][6] - 清华大学等机构联合开发的MindOmni模型通过三阶段训练框架显著提升AI的推理生成能力,支持多模态输入下的逻辑链生成[7][9][32] - MindOmni在MMMU等视觉理解基准测试中比Janus-Pro提升10.6%,在GenEval生成任务中取得83%总体分数[38][40] 模型架构 - 基于Qwen2.5-VL构建视觉语言模型,通过ViT提取图像特征并与文本标记序列对齐[14] - 采用OmniGen扩散解码器实现高质量图像生成,通过Transformer层连接器融合视觉与文本特征[15][16] - 支持视觉理解、多模态推理生成和视觉编辑的统一任务处理框架[18] 训练策略 - **基础预训练阶段**:利用图像-文本对训练连接器,通过扩散损失和KL散度优化语义对齐[20][21] - **监督微调阶段**:构建粗细粒度指令数据,结合高性能生成图像提升推理文本生成能力[23][24][25] - **RGPO强化学习**:引入格式奖励和一致性奖励机制,通过KL散度蒸馏避免策略偏移[26][29][30] 性能表现 - **视觉理解**:MMBench测试得分83.2,超越MetaMorph的75.2;RealworldQA得分68.1[37][38][42] - **图像生成**:GenEval基准单物体生成准确率99%,全局关系任务得分89.7,总体分数超越SDXL 2.6B模型[43] - **推理任务**:WISE基准文化知识类得分0.71,时空推理任务可视化结果符合物理规律[45][46][47] 技术验证 - 消融实验证实三阶段训练缺一不可,RGPO算法使WISE基准性能提升12%[50] - 连接器设计和KL系数(0.1-0.3范围)对特征对齐效果影响显著[51]