Workflow
VAREdit
icon
搜索文档
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改 | 智象未来
量子位· 2025-09-02 18:45
行业技术背景 - AI图像编辑技术发展迅猛 扩散模型成为行业主流但面临编辑精准度低和生成速度慢两大难题 [1] 公司技术方案 - 智象未来团队提出全新自回归图像编辑框架VAREdit 引入视觉自回归架构解决行业痛点 [2][3] - 将图像编辑定义为下一尺度预测问题 通过自回归生成多尺度目标特征残差实现精确编辑 [5] - 采用多尺度量化编码技术 将图像表征编码为空间规模递增的残差视觉令牌序列 [6] - 设计视觉自回归预测机制 使用VAR Transformer主干网络预测多尺度残差视觉令牌 [10] 技术创新亮点 - 提出尺度对齐参考模块 在第一层提供多尺度对齐参考 后续层仅关注最细尺度特征 [17] - 该混合方案解决了全尺度条件计算开销大和最大尺度条件尺度不匹配的问题 [13][14][17] - 自注意力分析显示浅层关注整体布局 深层转向局部优化 为模块设计提供理论依据 [15] 性能表现数据 - 在EMU-Edit基准测试中 VAREdit-8.4B的GPT-Balance指标达6.773 较ICEdit提升41.5% [17][19] - 在PIE-Bench测试中 VAREdit-8.4B的GPT-Balance指标达7.298 较UltraEdit提升30.8% [17][19] - 编辑速度显著提升 8.4B模型处理512×512图像仅需1.2秒 比扩散模型快2.2倍 [20] - 2.2B轻量模型仅需0.7秒 在保持高质量的同时实现即时编辑体验 [20] 技术优势 - 适用范围广泛 在大多数编辑类型上取得最佳效果 大模型有效弥补小模型在全局样式和文本编辑的不足 [23] - 编辑结果自然保真度高 过度修改更少 视觉对比显示明显优势 [25] - SAR模块带来显著优化 使EMU-Edit的GPT-Balance指标从5.248提升至5.565 [22] 发展计划 - 团队将继续探索新一代多模态图像编辑架构 推动技术向更高质量、更快速度、更强可控性发展 [27]
智象未来发布全新自回归图像编辑框架VAREdit;豆包未成年人保护模式上线丨AIGC日报
创业邦· 2025-08-27 08:12
智象未来技术突破 - 公司发布全新自回归图像编辑框架VAREdit 能够精准执行用户指令并避免过度修改 [2] - 框架编辑速度提升至0.7秒级 显著提高图像处理效率 [2] 豆包产品功能更新 - 平台正式上线未成年人保护模式 家长可通过密码开启限制功能 [2] - 保护模式下默认关闭推荐视频 浏览第三方网页 外部智能体对话和AI创作功能 [2] - 翻译和深入研究等核心功能在保护模式下仍保持正常使用 [2] 沙特AI基础设施建设 - Humain公司首批数据中心已破土动工 计划2026年年初投入运营 [2] - 公司将从英伟达等美国供应商进口芯片 加强硬件资源配置 [2] - 沙特计划通过建设数据中心 AI基础设施和云算力 打造地区性AI中心 [2] 阿里云百炼服务定价调整 - 大模型服务平台对部分模型上下文缓存实施降价 命中缓存的输入Token按cached_token计费 [2] - 缓存命中Token单价从原input_token单价的40%降至20% 降幅达50% [2] - 未命中缓存的输入Token继续按标准input_token费率计费 [2]
马斯克正式起诉OpenAI和苹果,电商成为小红书一级入口 | 蓝媒GPT
搜狐财经· 2025-08-26 18:48
人工智能行业竞争与诉讼 - 马斯克旗下xAI在得克萨斯州联邦法院起诉OpenAI和苹果公司 指控其非法合谋阻挠人工智能竞争 [1] - 马斯克指控苹果通过应用商店排名偏袒OpenAI 使其他人工智能企业难以跻身前列 [1] - 马斯克质问苹果拒绝将X或Grok列入"必备应用"推荐区 [1] 社交媒体平台电商业务发展 - 小红书启动新版本测试 电商成为App主界面一级入口 [1] - App底部导航栏新增"市集"页面 邻近"首页"主页面 [1] - "市集"是小红书生活方式电商的具象化、产品化呈现 [1] 人工智能技术突破 - 智象未来推出全新自回归图像编辑框架VAREdit 能够精准执行用户指令并避免过度修改 [1] - VAREdit编辑速度提升至0.7秒级 [1] 消费电子行业新赛道布局 - 手机厂商纷纷押注MR头显和AI眼镜新赛道 包括vivo进军MR领域、荣耀加紧研发、小米推出首款AI眼镜、华为和OPPO涉足AR眼镜 [2] - 苹果首款MR头显销量遇冷目前已停产 小米AI眼镜曾遭遇退货潮 [2] - 行业布局旨在提前抢占人机交互下半场机遇 同时反映行业整体增长焦虑 [2] 科技公司硬件产品发布 - Meta计划在Connect大会上推出带显示屏的新型智能眼镜 定价约800美元 [3] - 新款智能眼镜配备用于通知的数字显示屏 并通过腕带进行控制 [3] - 此次发布标志Meta在增强现实和可穿戴技术领域的持续扩张 [3]
0.7秒实现精准图像编辑!智象未来团队提出全新自回归图像编辑框架VAREdit
每日经济新闻· 2025-08-25 15:35
技术突破 - 公司引入视觉自回归架构开发全新指令引导编辑框架VAREdit 以攻克图像编辑效果失控与效率低下问题 [1] - 在EMU-Edit和PIE-Bench基准测试中 VAREdit在CLIP和GPT评价指标均取得显著优势 [1] - VAREdit-8.4B版本在GPT-Balance指标上较ICEdit和UltraEdit分别提升41.5%和30.8% [1] 产品性能 - 轻量版VAREdit-2.2B可在0.7秒内完成512×512图像高保真编辑 [1] - 技术成果已在GitHub和Hugging Face平台全面开源 [1]
智象未来发布全新自回归图像编辑框架 VAREdit ,0.7 秒完成高保真图像编辑
格隆汇· 2025-08-25 14:26
技术突破 - 推出全球首个纯自回归图像编辑框架VAREdit 实现局部精准修改与整体结构保持的统一[1] - 采用视觉自回归架构 将编辑定义为"下一尺度预测"并逐层生成多尺度残差特征[1] - 创新设计尺度对齐参考模块 有效解决尺度匹配难题提升编辑质量与效率[1] 性能表现 - 编辑速度提升至0.7秒级 轻量版VAREdit-2.2B可在0.7秒内完成512×512图像高保真编辑[1] - 在EMU-Edit与PIE-Bench测试中CLIP与GPT指标全面领先[1] - VAREdit-8.4B在GPT-Balance指标较ICEdit和UltraEdit分别提升41.5%和30.8%[1] 行业影响 - 突破扩散模型存在的局部修改牵动整体结构 编辑不够精准及多步迭代效率低等瓶颈[1] - 为实时交互与高效创作开辟新路径 推动AI图像编辑迈入高效可控实时新纪元[1][2] - 已在GitHub和Hugging Face平台全面开源 未来将探索视频编辑和多模态生成等应用场景[2]