智象未来发布全新自回归图像编辑框架 VAREdit ,0.7 秒完成高保真图像编辑
格隆汇·2025-08-25 14:26
技术突破 - 推出全球首个纯自回归图像编辑框架VAREdit 实现局部精准修改与整体结构保持的统一[1] - 采用视觉自回归架构 将编辑定义为"下一尺度预测"并逐层生成多尺度残差特征[1] - 创新设计尺度对齐参考模块 有效解决尺度匹配难题提升编辑质量与效率[1] 性能表现 - 编辑速度提升至0.7秒级 轻量版VAREdit-2.2B可在0.7秒内完成512×512图像高保真编辑[1] - 在EMU-Edit与PIE-Bench测试中CLIP与GPT指标全面领先[1] - VAREdit-8.4B在GPT-Balance指标较ICEdit和UltraEdit分别提升41.5%和30.8%[1] 行业影响 - 突破扩散模型存在的局部修改牵动整体结构 编辑不够精准及多步迭代效率低等瓶颈[1] - 为实时交互与高效创作开辟新路径 推动AI图像编辑迈入高效可控实时新纪元[1][2] - 已在GitHub和Hugging Face平台全面开源 未来将探索视频编辑和多模态生成等应用场景[2]