ContextGen
搜索文档
布局控制+身份一致:浙大提出ContextGen,实现布局锚定多实例生成新SOTA
机器之心· 2025-12-20 12:45
多实例图像生成(MIG)领域的技术瓶颈 - 当前多实例图像生成领域面临核心挑战:难以同时实现对多个对象的**空间布局控制**和**身份特征的良好保持**[2] - 主流方法存在明显缺陷:依赖文本和布局引导的模型难以实现高度实例定制化,且存在实例遗漏、属性泄露问题;而主体驱动方法在主体数量增加时,会出现严重的身份混淆和细节丢失[2] ContextGen框架的核心创新 - 浙江大学ReLER团队发布**ContextGen**,这是一个基于Diffusion Transformer的新型框架,旨在通过上下文学习可靠完成图像引导的多实例生成任务[5] - 该框架提出全新**上下文生成范式**,通过整合布局图像和多张参考图像,将布局控制与身份保持的挑战转化为统一的上下文建模问题[6] - 框架采用**双重核心机制**:上下文布局锚定聚焦全局上下文引导以提供精确布局控制;实例上下文对齐聚焦细粒度身份注入以保障多个实例的身份一致性[7][8][10][12] - 框架采用**层次化的双重注意力策略**,让模型兼具宏观布局控制和精细实例级身份保持,并采用增强的位置索引策略系统区分多图像关系[12] 配套数据集与训练优化 - 团队推出**IMIG-100K数据集**,这是首个为图像引导多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集[14] - 在训练中引入**基于偏好优化的强化学习阶段**,以解决监督微调导致的模型过度参考布局图像、缺乏多样性和灵活性的问题[17] 性能表现与基准测试 - 在LAMICBench++基准测试中,ContextGen超越所有开源模型,**平均得分提升+1.3%**,在身份一致性上比肩闭源商业巨头[21] - 具体数据:在Fewer Subjects场景下,模型平均得分66.78;在More Subjects场景下,平均得分63.21;总体平均得分64.66,与GPT-4o的63.71和Nano Banana的64.11相当[22] - 在COCO-MIG基准上,ContextGen在**实例级成功率提升+3.3%**,**空间准确性提升+5.9%**[25] - 具体数据:在COCO-MIG上,实例级成功率65.12,空间准确性69.72;在LayoutSAM-Eval中,颜色正确率87.44,材质正确率89.26,形状正确率88.36[26] 应用与未来展望 - 团队提供了简单易用的**前端交互界面**,支持用户上传参考图像、以文本添加素材、通过拖拽设计布局来生成多实例图像[32] - 未来计划进一步优化模型架构以提升生成效率,并探索更多样化的用户交互方式以满足更广泛的应用需求[36]
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队
量子位· 2025-12-19 15:20
文章核心观点 - 浙江大学ReLER团队发布基于DiT的新框架ContextGen,通过分层解耦上下文和双重注意力机制,解决了多实例图像生成中布局控制与身份保真度难以兼顾的难题,在多项关键指标上取得了SOTA突破 [4][5][52] 技术框架与创新 - 核心创新是提出了双重上下文注意力机制,将全局控制和局部注入任务在DiT的不同层级进行部署 [7] - **宏观布局锚定 (CLA)**:将包含实例位置信息的布局图像整合到上下文中,部署在DiT模块的前置和后置层,以实现对全局结构和位置的鲁棒锚定,保障精确的布局控制 [8][9][10] - **细节身份注入 (ICA)**:针对细节丢失问题,在DiT模块的中间层引入ICA,利用原始高保真参考图像和定制注意力掩码,约束每个实例区域仅与对应参考token交互,实现身份隔离式注入,保障多实例身份一致性 [11][12] 数据与优化策略 - 团队同步推出了**IMIG-100K数据集**,这是首个面向图像引导多实例生成任务设计的大规模、具备详细布局和身份标注的合成数据集,其构建代码和处理流程已开源 [13][14][15] - 为避免监督微调导致的布局僵硬复制问题,引入了基于偏好优化(DPO)的强化学习阶段,通过将布局图像作为非偏好输入,鼓励模型生成更具多样性的图像,在保持身份的同时提升生成自由度 [16][17] 性能表现与基准测试 - 在**COCO-MIG基准**上,模型在空间准确性 (mIoU) 提升**5.9%**,显著优于基线模型 [19][20] - 在**LayoutSAM-Eval基准**上,ContextGen在多项指标上均实现了SOTA,尤其在实例的属性保持(Color, Texture, Shape)方面表现出色 [20] - 在**LAMICBench++的身份保持能力测试**中,ContextGen超越了开源SOTA模型,展现了身份保持能力(IDS, IPS)和综合性能的显著提升 [24] - 在基准测试中,ContextGen在多主体任务中的身份保持能力,甚至相较于**GPT-4o、Nano Banana**这样的闭源模型仍保持显著优势 [25] 应用与展示 - 团队开发了一个简单易用的前端,支持多参考图上传、自动抠图、自定义布局设计等功能,方便用户体验ContextGen的功能 [50] - 文章通过多个复杂提示词(如包含多个特定物体和场景的描述)的效果图,展示了ContextGen与现有开源和闭源方法的对比效果,直观体现了其在复杂多实例生成任务上的优越性 [26][27][28][29][30][33][34][36][37][38][40][41][42][43][44][45][46]