Workflow
多实例图像生成
icon
搜索文档
对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA
36氪· 2025-12-22 16:12
文章核心观点 - 浙江大学ReLER团队开源了ContextGen框架,该框架基于Diffusion Transformer架构,通过双重注意力机制,攻克了多实例图像生成中布局控制与身份保真难以协同的行业难题,在基准测试中性能超越开源SOTA模型,并成功对标GPT-4o等闭源系统[1][2] 行业痛点与现有挑战 - 当前多实例生成模型面临协同控制挑战:宏观布局难以固化,生成的实例难以精确锚定到指定位置,导致构图混乱[5] - 当主体数量增加时,身份细节丢失的概率显著上升,模型难以忠实还原每个实例的独特身份特征[6] 技术框架与核心机制 - ContextGen框架基于Diffusion Transformer架构构建,将所有输入整合成统一Token序列[9] - 宏观布局控制模块采用上下文布局锚定机制,通过在DiT模块的前后层建立宏观约束,确保实例能鲁棒且精确地遵循用户指定的布局要求[10] - 微观身份隔离模块采用身份一致性注意力机制,通过隔离式注意力掩码,切断不同实例身份Token间的交叉通信,为每个实例创建“注意力孤岛”,从而保障多主体身份信息的高保真隔离注入[11] 性能优化与数据支持 - 引入直接偏好优化以增强生成图像的多样性和自然度,解决了监督微调可能导致的布局僵硬复制问题[14] - 团队同步发布了IMIG-100K数据集,这是首个包含详细布局与身份标注的大规模高质量多实例合成数据集[16] 实验结果与性能突破 - 在COCO-MIG基准测试中,ContextGen的空间准确性实现了+5.9%的提升[17] - 在LAMICBench++身份保持测试中,ContextGen在较多主体下的身份保真度比肩甚至超越了GPT-4o和Nano-Banana等闭源模型[18] - 定性结果显示,ContextGen能还原细粒度面部特征,灵活融合不同风格的参考图像,并遵循用户的布局设计要求[20] 应用与影响 - 团队开发了用户友好的前端界面,支持用户上传参考图像并设计布局,以定制化生成多实例图像[28] - 该工作为多实例生成提供了SOTA解决方案,突破了布局与身份的协同控制瓶颈,为DiT等基础扩散模型在高度定制化AIGC任务中的应用开辟了新的技术路径[30]
布局控制+身份一致:浙大提出ContextGen,实现布局锚定多实例生成新SOTA
机器之心· 2025-12-20 12:45
多实例图像生成(MIG)领域的技术瓶颈 - 当前多实例图像生成领域面临核心挑战:难以同时实现对多个对象的**空间布局控制**和**身份特征的良好保持**[2] - 主流方法存在明显缺陷:依赖文本和布局引导的模型难以实现高度实例定制化,且存在实例遗漏、属性泄露问题;而主体驱动方法在主体数量增加时,会出现严重的身份混淆和细节丢失[2] ContextGen框架的核心创新 - 浙江大学ReLER团队发布**ContextGen**,这是一个基于Diffusion Transformer的新型框架,旨在通过上下文学习可靠完成图像引导的多实例生成任务[5] - 该框架提出全新**上下文生成范式**,通过整合布局图像和多张参考图像,将布局控制与身份保持的挑战转化为统一的上下文建模问题[6] - 框架采用**双重核心机制**:上下文布局锚定聚焦全局上下文引导以提供精确布局控制;实例上下文对齐聚焦细粒度身份注入以保障多个实例的身份一致性[7][8][10][12] - 框架采用**层次化的双重注意力策略**,让模型兼具宏观布局控制和精细实例级身份保持,并采用增强的位置索引策略系统区分多图像关系[12] 配套数据集与训练优化 - 团队推出**IMIG-100K数据集**,这是首个为图像引导多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集[14] - 在训练中引入**基于偏好优化的强化学习阶段**,以解决监督微调导致的模型过度参考布局图像、缺乏多样性和灵活性的问题[17] 性能表现与基准测试 - 在LAMICBench++基准测试中,ContextGen超越所有开源模型,**平均得分提升+1.3%**,在身份一致性上比肩闭源商业巨头[21] - 具体数据:在Fewer Subjects场景下,模型平均得分66.78;在More Subjects场景下,平均得分63.21;总体平均得分64.66,与GPT-4o的63.71和Nano Banana的64.11相当[22] - 在COCO-MIG基准上,ContextGen在**实例级成功率提升+3.3%**,**空间准确性提升+5.9%**[25] - 具体数据:在COCO-MIG上,实例级成功率65.12,空间准确性69.72;在LayoutSAM-Eval中,颜色正确率87.44,材质正确率89.26,形状正确率88.36[26] 应用与未来展望 - 团队提供了简单易用的**前端交互界面**,支持用户上传参考图像、以文本添加素材、通过拖拽设计布局来生成多实例图像[32] - 未来计划进一步优化模型架构以提升生成效率,并探索更多样化的用户交互方式以满足更广泛的应用需求[36]
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队
量子位· 2025-12-19 15:20
文章核心观点 - 浙江大学ReLER团队发布基于DiT的新框架ContextGen,通过分层解耦上下文和双重注意力机制,解决了多实例图像生成中布局控制与身份保真度难以兼顾的难题,在多项关键指标上取得了SOTA突破 [4][5][52] 技术框架与创新 - 核心创新是提出了双重上下文注意力机制,将全局控制和局部注入任务在DiT的不同层级进行部署 [7] - **宏观布局锚定 (CLA)**:将包含实例位置信息的布局图像整合到上下文中,部署在DiT模块的前置和后置层,以实现对全局结构和位置的鲁棒锚定,保障精确的布局控制 [8][9][10] - **细节身份注入 (ICA)**:针对细节丢失问题,在DiT模块的中间层引入ICA,利用原始高保真参考图像和定制注意力掩码,约束每个实例区域仅与对应参考token交互,实现身份隔离式注入,保障多实例身份一致性 [11][12] 数据与优化策略 - 团队同步推出了**IMIG-100K数据集**,这是首个面向图像引导多实例生成任务设计的大规模、具备详细布局和身份标注的合成数据集,其构建代码和处理流程已开源 [13][14][15] - 为避免监督微调导致的布局僵硬复制问题,引入了基于偏好优化(DPO)的强化学习阶段,通过将布局图像作为非偏好输入,鼓励模型生成更具多样性的图像,在保持身份的同时提升生成自由度 [16][17] 性能表现与基准测试 - 在**COCO-MIG基准**上,模型在空间准确性 (mIoU) 提升**5.9%**,显著优于基线模型 [19][20] - 在**LayoutSAM-Eval基准**上,ContextGen在多项指标上均实现了SOTA,尤其在实例的属性保持(Color, Texture, Shape)方面表现出色 [20] - 在**LAMICBench++的身份保持能力测试**中,ContextGen超越了开源SOTA模型,展现了身份保持能力(IDS, IPS)和综合性能的显著提升 [24] - 在基准测试中,ContextGen在多主体任务中的身份保持能力,甚至相较于**GPT-4o、Nano Banana**这样的闭源模型仍保持显著优势 [25] 应用与展示 - 团队开发了一个简单易用的前端,支持多参考图上传、自动抠图、自定义布局设计等功能,方便用户体验ContextGen的功能 [50] - 文章通过多个复杂提示词(如包含多个特定物体和场景的描述)的效果图,展示了ContextGen与现有开源和闭源方法的对比效果,直观体现了其在复杂多实例生成任务上的优越性 [26][27][28][29][30][33][34][36][37][38][40][41][42][43][44][45][46]