技术背景与挑战 - 当前布局到图像生成技术在复杂场景下面临精确对齐布局与保持高画质、确保去噪过程中目标位置与语义属性不偏离等核心挑战 [2] - 现有解决方案存在显著不足:无训练方法在复杂布局下效果差且推理慢,有训练方法则参数量大且训练成本高昂 [2] - 传统评估指标存在偏差,难以准确衡量生成图像与布局指令的对齐程度 [2] InstanceAssemble 核心创新 - 提出级联架构,分阶段处理全局文本提示和实例级布局条件,先由DiT生成全局背景,再通过新设计的实例组装注意力模块整合各实例信息 [9] - 实例组装注意力模块使每个目标的注意力计算仅在其对应图像区域内进行,有效处理重叠或小物体等复杂布局情形 [9][10] - 采用LoRA模块进行轻量级适配,仅增加基础模型约3%的参数量,在保留原有生成能力的同时高效学习布局控制,无需大规模重训 [10] - 支持多模态布局输入,每个实例可通过文本描述或参考图片、深度图等额外图像信息来指定 [11] 评估体系与性能表现 - 构建了包含5000张图像和约90000个实例的全新基准数据集DenseLayout,专门测试高密度布局场景 [14] - 提出了结合空间精度和语义一致性的新评测指标LGS,空间精度通过检测框IoU计算,语义一致性利用视觉问答模型判断属性匹配度 [14] - 在DenseLayout基准上,InstanceAssemble的布局对齐指标mIoU达到52.07,显著优于对比方法,LGS综合分数处于当前最优水平 [16] - 即使在平均每图18个目标的稠密布局场景下,模型仍能精确生成目标并呈现语义属性,展现了强泛化能力 [16] - 得益于LoRA轻量架构,该方法在参数开销和推理效率上优于其他有训练方法 [18] 应用潜力与行业影响 - 插件式的LoRA适配设计使其具备高兼容性,可方便加载不同画风微调的LoRA模块,实现跨风格的布局图像创作 [20] - 该技术主要应用于小红书文字发布等功能的图像素材生产,展现出在智能排版、虚拟内容创作、数据增强等领域的广阔应用潜力 [21][22] - 团队在AIGC领域技术积累深厚,近两年累积发表30余篇顶会/顶刊论文,并拥有InstantID、Storymaker等知名开源技术代表作 [22]
NIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble
机器之心·2025-11-03 16:45