人工智能推理生成

搜索文档
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-21 11:57
核心观点 - 清华大学、腾讯ARC Lab、香港中文大学和香港大学联合推出新大模型MindOmni,显著增强AI的推理生成能力,能理解复杂指令并基于图文内容展开连贯的"思维链"(Chain-of-Thought, CoT),生成具备逻辑性与语义一致性的图像或文本输出 [7][9] - MindOmni基于Qwen2.5-VL构建,通过预训练的ViT提取图像特征并编码文本,结合扩散解码器OmniGen实现高质量图像生成 [14][15] - 采用三阶段训练框架(基础预训练、监督微调、推理生成策略优化RGPO),通过强化学习显式生成逻辑推理链,在MMMU、MMBench等基准测试中性能领先 [20][26][36][38] 模型架构 - 视觉语言模型部分基于Qwen2.5-VL,处理图像和文本输入,通过ViT提取图像特征并编码文本标记序列 [14] - 扩散解码器基于OmniGen构建,通过去噪过程将噪声信号转化为图像,在序列维度合并视觉/文本特征与噪声标记 [15][16] - 使用双层Transformer连接器对齐VLM输出特征与生成模块输入维度 [16] 训练框架 - **基础预训练阶段**:利用开源图像-文本对和X2I数据训练连接器,通过扩散损失和KL散度蒸馏损失优化生成过程 [20][21] - **监督微调阶段**:构建推理生成指令数据(粗/细粒度描述),结合高性能文生图模型生成的高质量图像提升生成质量 [23][24][25] - **RGPO阶段**:引入强化学习算法,设计格式奖励和一致性奖励函数(CLIP余弦相似度),优化推理链生成 [26][29][30] 性能表现 - **视觉理解**:在MMMU基准比Janus-Pro提升10.6%,在MMBench比MetaMorph提升9.8% [38] - **图像生成**:GenEval基准总体分数83%,DPG-Bench得分83.0,单对象生成任务准确率97% [40][41][43] - **推理生成**:WISE基准总体分数0.71,在文化知识、时空推理等子类超越FLUX、PixArt等模型 [45] 应用案例 - 正确生成"(3+6)条命的动物"对应的猫图像,理解数学表达式背后的语义 [46] - 生成"悉尼歌剧院在纽约中午时的场景"时能计算时差并匹配场景 [47] - 在多模态输入场景下保持图文语义一致性 [48]