统一图像生成模型

搜索文档
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
机器之心· 2025-07-03 12:14
核心观点 - 智源研究院发布统一图像生成模型OmniGen2,支持文本生成图像、图像编辑和主题驱动图像生成等多种任务,仅需自然语言指令即可实现,无需额外提示或插件[1][2] - OmniGen2在保持简洁架构的基础上,显著提升上下文理解能力、指令遵循能力和图像生成质量,同时支持图像和文字生成,打通多模态技术生态[2] - 模型权重、训练代码及训练数据全面开源,推动统一图像生成模型从构想向现实转变[2][30] 技术架构 - 采用分离式架构解耦文本和图像,结合ViT和VAE双编码器策略,独立作用于MLLM和Diffusion Transformer中,提高图像一致性同时保留文字生成能力[3][4] - 开发从视频和图像数据中生成图像编辑和上下文参考数据的构造流程,解决开源数据集质量缺陷问题[6] - 引入反思能力,构建由文本和图像交错序列组成的反思数据,分析生成图像的缺陷并提出解决方案[8][9] - 未来计划通过强化学习进一步训练模型的反思能力[11] 功能特性 - 支持基于自然语言指令的图片编辑,包括物体增删、颜色调整、人物表情修改、背景替换等[21][22] - 可从输入图像中提取指定元素并生成新图像,更擅长保持物体相似度而非人脸相似度[24] - 能够生成任意比例的图片[26] 性能优化与基准 - 依托FlagScale框架优化推理部署,通过重构推理链路和TeaCache缓存加速策略,实现32%的推理效率提升[29] - 引入OmniContext基准,包含8个任务类别,专门评估个人、物体和场景的一致性,采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法构建[28] 应用与体验 - 科研体验版已开放,支持图像编辑、上下文参照的图像生成等功能,用户可通过提示词解锁丰富能力[19][20] - 提供模型、论文及体验版链接,方便开发者访问和使用[31]