布局控制+身份一致：浙大提出ContextGen，实现布局锚定多实例生成新SOTA

多实例图像生成（MIG）领域的技术瓶颈 - 当前多实例图像生成领域面临核心挑战：难以同时实现对多个对象的空间布局控制和身份特征的良好保持[2] - 主流方法存在明显缺陷：依赖文本和布局引导的模型难以实现高度实例定制化，且存在实例遗漏、属性泄露问题；而主体驱动方法在主体数量增加时，会出现严重的身份混淆和细节丢失[2] ContextGen框架的核心创新 - 浙江大学ReLER团队发布ContextGen，这是一个基于Diffusion Transformer的新型框架，旨在通过上下文学习可靠完成图像引导的多实例生成任务[5] - 该框架提出全新上下文生成范式，通过整合布局图像和多张参考图像，将布局控制与身份保持的挑战转化为统一的上下文建模问题[6] - 框架采用双重核心机制：上下文布局锚定聚焦全局上下文引导以提供精确布局控制；实例上下文对齐聚焦细粒度身份注入以保障多个实例的身份一致性[7][8][10][12] - 框架采用层次化的双重注意力策略，让模型兼具宏观布局控制和精细实例级身份保持，并采用增强的位置索引策略系统区分多图像关系[12] 配套数据集与训练优化 - 团队推出IMIG-100K数据集，这是首个为图像引导多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集[14] - 在训练中引入基于偏好优化的强化学习阶段，以解决监督微调导致的模型过度参考布局图像、缺乏多样性和灵活性的问题[17] 性能表现与基准测试 - 在LAMICBench++基准测试中，ContextGen超越所有开源模型，平均得分提升+1.3%，在身份一致性上比肩闭源商业巨头[21] - 具体数据：在Fewer Subjects场景下，模型平均得分66.78；在More Subjects场景下，平均得分63.21；总体平均得分64.66，与GPT-4o的63.71和Nano Banana的64.11相当[22] - 在COCO-MIG基准上，ContextGen在实例级成功率提升+3.3%，空间准确性提升+5.9%[25] - 具体数据：在COCO-MIG上，实例级成功率65.12，空间准确性69.72；在LayoutSAM-Eval中，颜色正确率87.44，材质正确率89.26，形状正确率88.36[26] 应用与未来展望 - 团队提供了简单易用的前端交互界面，支持用户上传参考图像、以文本添加素材、通过拖拽设计布局来生成多实例图像[32] - 未来计划进一步优化模型架构以提升生成效率，并探索更多样化的用户交互方式以满足更广泛的应用需求[36]