OmniGen

搜索文档
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-20 11:28
核心观点 - 当前主流AI图像生成模型在复杂逻辑推理和多模态信息融合方面存在局限,难以理解隐含语义(如"(3+6)条命=猫")[3][6] - 清华大学等机构联合开发的MindOmni模型通过三阶段训练框架显著提升AI的推理生成能力,支持多模态输入下的逻辑链生成[7][9][32] - MindOmni在MMMU等视觉理解基准测试中比Janus-Pro提升10.6%,在GenEval生成任务中取得83%总体分数[38][40] 模型架构 - 基于Qwen2.5-VL构建视觉语言模型,通过ViT提取图像特征并与文本标记序列对齐[14] - 采用OmniGen扩散解码器实现高质量图像生成,通过Transformer层连接器融合视觉与文本特征[15][16] - 支持视觉理解、多模态推理生成和视觉编辑的统一任务处理框架[18] 训练策略 - **基础预训练阶段**:利用图像-文本对训练连接器,通过扩散损失和KL散度优化语义对齐[20][21] - **监督微调阶段**:构建粗细粒度指令数据,结合高性能生成图像提升推理文本生成能力[23][24][25] - **RGPO强化学习**:引入格式奖励和一致性奖励机制,通过KL散度蒸馏避免策略偏移[26][29][30] 性能表现 - **视觉理解**:MMBench测试得分83.2,超越MetaMorph的75.2;RealworldQA得分68.1[37][38][42] - **图像生成**:GenEval基准单物体生成准确率99%,全局关系任务得分89.7,总体分数超越SDXL 2.6B模型[43] - **推理任务**:WISE基准文化知识类得分0.71,时空推理任务可视化结果符合物理规律[45][46][47] 技术验证 - 消融实验证实三阶段训练缺一不可,RGPO算法使WISE基准性能提升12%[50] - 连接器设计和KL系数(0.1-0.3范围)对特征对齐效果影响显著[51]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测框架设计 - 基于三大知识范畴:事实性知识(颜色、数量等)、概念性知识(物理化学常识)、程序性知识(多步推理) [8] - 细分为7大推理维度和22种编辑任务覆盖全谱系难度 [6] - 样本总量1267对图像-指令由专家手工打磨数据来源多样化 [12] 评估指标与方法 - 首创四维度自动化评估:视觉一致性、视觉质量、指令跟随、知识合理性 [10][11][13] - 深度知识任务附带手工知识提示以验证模型理解能力 [11] - 评测10款模型包含3款闭源(GPT-Image-1等)和7款开源(OmniGen等) [14] 评测结果 - 闭源旗舰GPT-Image-1表现领先开源黑马BAGEL-Think在知识合理性上有提升但仍有差距 [17] - 多数模型在事实性知识(如数量变化)基础任务上表现欠佳 [17] - 所有模型在程序性推理、自然科学及多步骤合成任务上普遍失分 [17] 行业意义 - 推动图像编辑模型从像素搬运向具备认知能力的视觉智者进化 [16] - 未来目标是在模型中植入物理化学常识与因果推理实现真正的理解 [16]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测体系设计 - 基于三大知识范畴构建评测框架:事实性知识(颜色/数量/空间/时间)、概念性知识(物理/化学/生物常识)、程序性知识(多步操作与规则推理) [8] - 细分为7大推理维度和22种典型编辑任务覆盖全谱系难度包括物体计数变化、化学反应预测、多元素合成等 [6] - 样本总量1,267对图像-指令由专家团队手工打磨数据来源包含真实照片、开源基准、模型生成、3D渲染等多样分布 [12] 评估方法创新 - 首创四维度自动化评估指标:视觉一致性(非目标区域保持)、视觉质量(自然度)、指令跟随(完整性)、知识合理性(常识符合度) [10][11][13] - 深度知识任务附带手工知识提示辅助判断模型理解程度 [11] 模型评测结果 - 评估10款模型包含3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen/Emu2/BAGEL/Step1X-Edit等) [14] - 闭源旗舰GPT-Image-1表现领先开源模型BAGEL-Think通过引入推理过程提升知识合理性但仍落后闭源模型 [18] - 所有模型在程序性推理、自然科学及多步骤合成任务上表现不佳显示深层推理能力不足 [18] 行业影响 - 推动图像编辑模型从像素搬运向具备人类认知能力的视觉智者演进 [16] - 未来目标是在AI编辑中植入物理/化学/社会常识与因果推理实现真正的理解与预测 [16]
智源发布“悟界”系列大模型,含全球首个原生多模态世界模型Emu3
凤凰网· 2025-06-06 22:32
大模型技术突破 - 智源研究院推出"悟界"系列大模型 包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 实现文本、图像、视频的任意组合理解与生成 [2] - Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据 完成了超过100万单位的神经信号预训练 在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中性能显著超越现有专有模型 [2][3] 具身智能系统升级 - RoboOS 2 0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架 整体性能提升达30% 全链路平均响应时延低至3ms以下 端云通信效率提升27倍 [3][4] - RoboBrain 2 0任务规划准确率相较1 0版本实现74%的效果提升 在空间智能方面实现17%的性能提升 新增空间推理能力和闭环反馈机制 [5][6] - 系统已全面开源 包括框架代码、模型权重、数据集与评测基准 与全球20多家具身智能企业建立战略合作关系 [6] 生物分子建模创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的重大突破 能够表征生物分子系统的连续演化能量景观 在原子分辨率层面捕捉分子相互作用及平衡构象分布 [6][7] - 模型基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新 有效突破动态构象分布预测瓶颈 在生物分子动态特性预测、柔性系统及超大型复合物建模等任务中性能卓越 [7] 开源生态建设 - 智源已开源约200个模型和160个数据集 FlagOS系统新增统一编译器FlagTree、统一通信库FlagCX等板块 实现对11家厂商18款异构AI硬件的统一支持 [8] - 通用向量模型BGE系列发展为门类齐全的生态系统 近期发布BGE-code-v1、BGE-VL-v1 5和BGE-VL-screenshot三款模型 在代码检索和多模态检索任务中取得领先表现 [9] - 开源轻量长视频理解模型Video-XL-2实现单GPU处理万帧视频的能力 编码2048帧视频仅需12秒 推理效率大幅领先同类别竞品模型 [9][10] 应用场景展示 - 基于RoboOS 2 0和RoboBrain 2 0的机器人展示了餐饮互动、抓娃娃游戏和家居物品收纳等技能 融合视觉、听觉、思考、语音交互等能力实现"心有灵犀"互动游戏 [11] - Brainμ与脑机接口设备结合 在消费级便携式脑电设备上实现接近医用级设备数据采集的稳定解析能力 降低脑机接口应用门槛 [11] - 数字孪生心脏药物安全性评价平台将全尺度药物毒性仿真时间由近90天减少到一天之内 无感智能坐垫系统可对心率、心率变异性、呼吸频率等指标进行高精度实时监测 [12][13]