背景与行业需求 - 生成式AI技术特别是文本到图像(T2I)模型如DALL・E、Stable Diffusion和Midjourney快速发展 实现根据文本提示生成高度逼真图像[3] - 图像定制化需求日益凸显 需在保持参考图像主体身份特征前提下生成新表现形式 应用于电子商务、数字内容创作和广告营销等领域[3] - 当前主流技术路线包括基于反演优化、多模态编码器以及新兴的基于注意力控制的方法[4] 现有技术瓶颈 - 可控性不足 主流文本驱动方法难以精确控制背景和布局等元素 新技术如PhotoSwap仍局限于单一功能无法实现统一控制[5] - 复杂视觉场景处理困难 多物体交互和遮挡场景常出现主体特征扩散问题 源于模型在高响应区域生成不准确[6] - 背景融合不自然 图像条件控制下生成结果与原始背景融合效果不佳[7] 方法创新 - 提出无需微调的通用图像定制方法MCA-Ctrl 利用扩散模型内部知识实现图像定制 核心创新在于结合条件图像/文本提示语义信息与主体图像内容[8] - 针对三类任务:主题替换、主题生成和主题添加[8] - 通过主体定位模块(SLM)进行精准定位 采用三个并行扩散过程中的自注意力注入与查询机制[10] - 自注意力局部查询(SALQ)从主体和条件中检索前景/背景内容 使用主题和背景掩码约束查询区域确保布局一致性和外观替换[13] - 自注意力全局注入(SAGI)通过计算完整注意力矩阵并掩码过滤 增强细节真实性与内容一致性 降低特征混淆[14] 性能表现 - 在主体编辑性能方面 包括主体替换、添加以及复杂视觉场景中的替换 展现高度一致性和真实感[15] - 零样本定制生成能力在物体、动物和人物等不同类别上实现高质量、高一致性且富有创意的再现效果[15] - 主题替换任务量化评估中 MCA-Ctrl在DINO sub(0.6433±0.005)、DINOback(0.6782±0.002)、CLIP-Isub(0.8113±0.004)、CLIP-Iback(0.8681±0.004)和ImageReward(0.3214+0.05)指标上均展现相当或更优性能[17][18] - 主题生成任务中 经过参数优化后MCA-Ctrl取得与BLIP-Diffusion和DreamBooth相当的结果[18] - 人工评估显示MCA-Ctrl在主体对齐度(0.92)、文本对齐度(0.89)、真实感(0.92)和总体评分(2.73)方面表现突出[19] - SAGI操作在去噪过程前期有效建立主体与背景语义关联 但超过总去噪步骤60%后提升效果趋于饱和 呈现边际效应递减特性[19] 应用与总结 - 构建图像定制化演示系统 用户可方便地根据需求使用该方法完成定制化任务[20] - MCA-Ctrl通过协同注意力控制实现高质量、高保真度的主体驱动编辑与生成 有效解决复杂视觉场景中的特征混淆问题[21] - 大量实验结果表明 相较于大多数同期工作 MCA-Ctrl在编辑和生成任务上表现更优[21]
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化
机器之心·2025-05-12 12:31