ContextGen - 财报，业绩电话会，研报，新闻

ContextGen

搜索文档

布局控制+身份一致：浙大提出ContextGen，实现布局锚定多实例生成新SOTA

机器之心· 2025-12-20 12:45

多实例图像生成（MIG）领域的技术瓶颈 - 当前多实例图像生成领域面临核心挑战：难以同时实现对多个对象的**空间布局控制**和**身份特征的良好保持**[2] - 主流方法存在明显缺陷：依赖文本和布局引导的模型难以实现高度实例定制化，且存在实例遗漏、属性泄露问题；而主体驱动方法在主体数量增加时，会出现严重的身份混淆和细节丢失[2] ContextGen框架的核心创新 - 浙江大学ReLER团队发布**ContextGen**，这是一个基于Diffusion Transformer的新型框架，旨在通过上下文学习可靠完成图像引导的多实例生成任务[5] - 该框架提出全新**上下文生成范式**，通过整合布局图像和多张参考图像，将布局控制与身份保持的挑战转化为统一的上下文建模问题[6] - 框架采用**双重核心机制**：上下文布局锚定聚焦全局上下文引导以提供精确布局控制；实例上下文对齐聚焦细粒度身份注入以保障多个实例的身份一致性[7][8][10][12] - 框架采用**层次化的双重注意力策略**，让模型兼具宏观布局控制和精细实例级身份保持，并采用增强的位置索引策略系统区分多图像关系[12] 配套数据集与训练优化 - 团队推出**IMIG-100K数据集**，这是首个为图像引导多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集[14] - 在训练中引入**基于偏好优化的强化学习阶段**，以解决监督微调导致的模型过度参考布局图像、缺乏多样性和灵活性的问题[17] 性能表现与基准测试 - 在LAMICBench++基准测试中，ContextGen超越所有开源模型，**平均得分提升+1.3%**，在身份一致性上比肩闭源商业巨头[21] - 具体数据：在Fewer Subjects场景下，模型平均得分66.78；在More Subjects场景下，平均得分63.21；总体平均得分64.66，与GPT-4o的63.71和Nano Banana的64.11相当[22] - 在COCO-MIG基准上，ContextGen在**实例级成功率提升+3.3%**，**空间准确性提升+5.9%**[25] - 具体数据：在COCO-MIG上，实例级成功率65.12，空间准确性69.72；在LayoutSAM-Eval中，颜色正确率87.44，材质正确率89.26，形状正确率88.36[26] 应用与未来展望 - 团队提供了简单易用的**前端交互界面**，支持用户上传参考图像、以文本添加素材、通过拖拽设计布局来生成多实例图像[32] - 未来计划进一步优化模型架构以提升生成效率，并探索更多样化的用户交互方式以满足更广泛的应用需求[36]

不靠死记布局也能按图生成，多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

量子位· 2025-12-19 15:20

文章核心观点 - 浙江大学ReLER团队发布基于DiT的新框架ContextGen，通过分层解耦上下文和双重注意力机制，解决了多实例图像生成中布局控制与身份保真度难以兼顾的难题，在多项关键指标上取得了SOTA突破 [4][5][52] 技术框架与创新 - 核心创新是提出了双重上下文注意力机制，将全局控制和局部注入任务在DiT的不同层级进行部署 [7] - **宏观布局锚定 (CLA)**：将包含实例位置信息的布局图像整合到上下文中，部署在DiT模块的前置和后置层，以实现对全局结构和位置的鲁棒锚定，保障精确的布局控制 [8][9][10] - **细节身份注入 (ICA)**：针对细节丢失问题，在DiT模块的中间层引入ICA，利用原始高保真参考图像和定制注意力掩码，约束每个实例区域仅与对应参考token交互，实现身份隔离式注入，保障多实例身份一致性 [11][12] 数据与优化策略 - 团队同步推出了**IMIG-100K数据集**，这是首个面向图像引导多实例生成任务设计的大规模、具备详细布局和身份标注的合成数据集，其构建代码和处理流程已开源 [13][14][15] - 为避免监督微调导致的布局僵硬复制问题，引入了基于偏好优化（DPO）的强化学习阶段，通过将布局图像作为非偏好输入，鼓励模型生成更具多样性的图像，在保持身份的同时提升生成自由度 [16][17] 性能表现与基准测试 - 在**COCO-MIG基准**上，模型在空间准确性 (mIoU) 提升**5.9%**，显著优于基线模型 [19][20] - 在**LayoutSAM-Eval基准**上，ContextGen在多项指标上均实现了SOTA，尤其在实例的属性保持（Color, Texture, Shape）方面表现出色 [20] - 在**LAMICBench++的身份保持能力测试**中，ContextGen超越了开源SOTA模型，展现了身份保持能力（IDS, IPS）和综合性能的显著提升 [24] - 在基准测试中，ContextGen在多主体任务中的身份保持能力，甚至相较于**GPT-4o、Nano Banana**这样的闭源模型仍保持显著优势 [25] 应用与展示 - 团队开发了一个简单易用的前端，支持多参考图上传、自动抠图、自定义布局设计等功能，方便用户体验ContextGen的功能 [50] - 文章通过多个复杂提示词（如包含多个特定物体和场景的描述）的效果图，展示了ContextGen与现有开源和闭源方法的对比效果，直观体现了其在复杂多实例生成任务上的优越性 [26][27][28][29][30][33][34][36][37][38][40][41][42][43][44][45][46]