Workflow
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改 | 智象未来
量子位·2025-09-02 18:45

行业技术背景 - AI图像编辑技术发展迅猛 扩散模型成为行业主流但面临编辑精准度低和生成速度慢两大难题 [1] 公司技术方案 - 智象未来团队提出全新自回归图像编辑框架VAREdit 引入视觉自回归架构解决行业痛点 [2][3] - 将图像编辑定义为下一尺度预测问题 通过自回归生成多尺度目标特征残差实现精确编辑 [5] - 采用多尺度量化编码技术 将图像表征编码为空间规模递增的残差视觉令牌序列 [6] - 设计视觉自回归预测机制 使用VAR Transformer主干网络预测多尺度残差视觉令牌 [10] 技术创新亮点 - 提出尺度对齐参考模块 在第一层提供多尺度对齐参考 后续层仅关注最细尺度特征 [17] - 该混合方案解决了全尺度条件计算开销大和最大尺度条件尺度不匹配的问题 [13][14][17] - 自注意力分析显示浅层关注整体布局 深层转向局部优化 为模块设计提供理论依据 [15] 性能表现数据 - 在EMU-Edit基准测试中 VAREdit-8.4B的GPT-Balance指标达6.773 较ICEdit提升41.5% [17][19] - 在PIE-Bench测试中 VAREdit-8.4B的GPT-Balance指标达7.298 较UltraEdit提升30.8% [17][19] - 编辑速度显著提升 8.4B模型处理512×512图像仅需1.2秒 比扩散模型快2.2倍 [20] - 2.2B轻量模型仅需0.7秒 在保持高质量的同时实现即时编辑体验 [20] 技术优势 - 适用范围广泛 在大多数编辑类型上取得最佳效果 大模型有效弥补小模型在全局样式和文本编辑的不足 [23] - 编辑结果自然保真度高 过度修改更少 视觉对比显示明显优势 [25] - SAR模块带来显著优化 使EMU-Edit的GPT-Balance指标从5.248提升至5.565 [22] 发展计划 - 团队将继续探索新一代多模态图像编辑架构 推动技术向更高质量、更快速度、更强可控性发展 [27]