核心观点 - 提出自回归模型InstaManip解决few-shot图像编辑难题 通过分组自注意力机制将学习过程分解为学习阶段和应用阶段 显著提升性能 [1][3][26] - 创新引入关系正则化策略 有效减少示例图片噪声干扰 提高模型鲁棒性 [17][26] - 在in-distribution和out-of-distribution设定下 CLIP-Dir指标分别达19.81和18.27 超越此前最优方法2.68和2.86个点 [20][26] 技术方法 模型架构 - 采用分组自注意力机制 将输入序列分为学习组(文字指令+示例图片+manipulation tokens)和应用组(manipulation tokens+输入图片) 分别对应神经科学中的知识抽象和应用阶段 [16][11] - 通过manipulation tokens存储图像变换特征 实现跨样本知识迁移 公式化为 [10][13] 训练优化 - 关系正则化强制变换特征相似性与文字指令相似性一致 使用MSE损失函数 降低无关视觉特征干扰 [17] - 消融实验显示分组自注意力使CLIP-Vis指标提升3.12个点 结合正则化后总提升达3.43个点 [22] 性能表现 基准测试 - 在in-distribution设定下 CLIP-Vis指标达32.39 较次优PromptDiffusion提升4.7个点 在out-of-distribution设定下保持28.23 [20] - 可视化对比显示模型能准确实现"汽车变兰博基尼"等复杂编辑 保留输入图片结构同时注入新特征 [19][23] 扩展性分析 - 示例图片数量从1组增至5组时 CLIP-Dir指标提升15% 多样性增加可使指标额外提升8% [24][25] - 单独使用文字指令或视觉示例时性能下降明显 CLIP-Vis指标分别降低4.37和9.43个点 [23]
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心·2025-06-01 11:30