Workflow
GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”
量子位·2025-07-03 12:26

核心观点 - 智源研究院发布国产开源统一图像生成模型OmniGen2 0版本 支持文生图、图像编辑、主题驱动图像生成等多模态功能 [1] - 模型在保持简洁架构的同时显著提升上下文理解能力、指令遵循能力和图像生成质量 并继承基座多模态大模型的生成能力 [2] - 发布一周内GitHub星标突破2000 X平台相关话题浏览量达数十万次 [3] - 科研体验版已开放 支持图像编辑和上下文参照生成等特色功能 [4] - 承诺全面开源模型权重、训练代码及训练数据 为开发者提供优化基础 [5][29] 技术升级 架构创新 - 采用分离式架构解耦文本和图像 结合ViT和VAE双编码器策略 独立作用于MLLM和Diffusion Transformer [14][15] - 通过重构数据生成流程解决开源数据集质量缺陷问题 开发从视频/图像数据生成编辑和上下文参考数据的构造流程 [17][18] 生成机制 - 引入图像生成反思机制 构建文本与图像交错的反思数据序列 包含缺陷分析和解决方案 [20][21][22][23] - 目标是通过强化学习进一步训练模型的反思能力 [24] 功能特性 图像编辑 - 支持基于自然语言指令的局部修改 包括物体增删、颜色调整、表情修改、背景替换等 [7] - 可从输入图像提取指定元素生成新图像 更擅长保持物体相似度而非人脸相似度 [8] 多模态生成 - 支持文生图功能 可生成任意比例图片 [11] - 实现多模态上下文参考的图像生成 打通多模态技术生态 [2][9] 性能表现 - 在文生图和图像编辑基准测试中取得竞争力结果 [25] - 针对缺乏评估标准的上下文参考生成任务 推出OmniContext基准 包含8个任务类别 专注评估个人/物体/场景一致性 [26][27] - 在OmniContext基准总体得分7.18 超越BAGEL等开源模型 平衡提示词遵循与主体一致性 [28] 部署优化 - 基于FlagScale框架优化推理链路 结合TeaCache缓存策略实现32%推理效率提升 [28] - 支持跨机多实例弹性部署 提升集群资源利用率 [29]