AI图像编辑

搜索文档
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改 | 智象未来
量子位· 2025-09-02 18:45
行业技术背景 - AI图像编辑技术发展迅猛 扩散模型成为行业主流但面临编辑精准度低和生成速度慢两大难题 [1] 公司技术方案 - 智象未来团队提出全新自回归图像编辑框架VAREdit 引入视觉自回归架构解决行业痛点 [2][3] - 将图像编辑定义为下一尺度预测问题 通过自回归生成多尺度目标特征残差实现精确编辑 [5] - 采用多尺度量化编码技术 将图像表征编码为空间规模递增的残差视觉令牌序列 [6] - 设计视觉自回归预测机制 使用VAR Transformer主干网络预测多尺度残差视觉令牌 [10] 技术创新亮点 - 提出尺度对齐参考模块 在第一层提供多尺度对齐参考 后续层仅关注最细尺度特征 [17] - 该混合方案解决了全尺度条件计算开销大和最大尺度条件尺度不匹配的问题 [13][14][17] - 自注意力分析显示浅层关注整体布局 深层转向局部优化 为模块设计提供理论依据 [15] 性能表现数据 - 在EMU-Edit基准测试中 VAREdit-8.4B的GPT-Balance指标达6.773 较ICEdit提升41.5% [17][19] - 在PIE-Bench测试中 VAREdit-8.4B的GPT-Balance指标达7.298 较UltraEdit提升30.8% [17][19] - 编辑速度显著提升 8.4B模型处理512×512图像仅需1.2秒 比扩散模型快2.2倍 [20] - 2.2B轻量模型仅需0.7秒 在保持高质量的同时实现即时编辑体验 [20] 技术优势 - 适用范围广泛 在大多数编辑类型上取得最佳效果 大模型有效弥补小模型在全局样式和文本编辑的不足 [23] - 编辑结果自然保真度高 过度修改更少 视觉对比显示明显优势 [25] - SAR模块带来显著优化 使EMU-Edit的GPT-Balance指标从5.248提升至5.565 [22] 发展计划 - 团队将继续探索新一代多模态图像编辑架构 推动技术向更高质量、更快速度、更强可控性发展 [27]
阿里云收入增26%创三年新高,计算机ETF(159998)年内份额增长率居同标的第一,云计算ETF沪港深(517390)盘中大涨超4%
21世纪经济报道· 2025-09-01 10:25
ETF表现与资金流向 - 云计算ETF沪港深(517390)9月1日早盘一度涨超4.5% 收盘涨1.55% 成交额超1900万元 溢折率0.13% 盘中频现溢价交易 [1] - 计算机ETF(159998)同日涨0.09% 成交额超2200万元 [1] - 云计算ETF上周五个交易日有4日获资金净流入 计算机ETF上一交易日获超3600万元资金净流入 [1] - 计算机ETF年内份额增长率达44.58% 居同标的第一 [1] 成分股表现 - 云计算ETF成分股中阿里巴巴-W涨超15% 数据港涨停 中际旭创和润和软件跟涨 [1] - 中证计算机主题指数前十大重仓股包括科大讯飞 中科曙光 海康威视 金山办公和同花顺等龙头 [2] 行业基本面 - 计算机行业2025H1营收同比增速中位数3.17% 归母利润同比增速中位数7.6% 扣非利润同比增速中位数6.28% [3] - 行业业绩延续2025Q1回暖趋势 上行趋势预计具有持续性 [3] 企业动态与AI进展 - 阿里巴巴美股上周五涨近13% 创2023年3月以来最佳单日表现 [2] - 公司2026财年一季度AI+云资本支出达386亿元创历史新高 阿里云收入增长加速至26%创三年新高 [2] - AI相关产品收入连续8个季度实现三位数同比增长 [2] - 谷歌推出最新图像生成与编辑模型Gemini 2.5 Flash Image 在LMArena基准测试中位列AI图像编辑模型榜首 [3] ETF产品特性 - 云计算ETF沪港深紧密跟踪中证沪港深云计算产业指数 同时布局港股互联网企业 A股算力企业和计算机龙头 [1] - 计算机ETF跟踪中证计算机主题指数 选取信息技术服务 应用软件 系统软件和电脑硬件等业务上市公司 [2] - 两只ETF均配有场外联接基金 云计算ETF场外代码为A类019171/C类019170 计算机ETF场外代码为A类001629/C类001630 [1][2]
谷歌又赢了,nano banana「被迫」改名后,网友搞出7种神仙玩法
机器之心· 2025-08-28 18:40
模型发布与性能 - 谷歌推出Gemini-2.5-flash-image模型 原名为nano banana 生成速度更快 成本更低 图像生成与编辑能力更强 被网友称为世界上最好的AI照片编辑器[2][5] - 模型已在Gemini应用和Google AI Studio上线 用户可免费体验 开发者可通过Gemini API调用[5] 功能与应用场景 - 制作等距模型:将建筑或物体转化为等距模型 自动补全建筑细节如墙皮和电线 但存在人物数量不一致的问题[7][8][9] - 生成六视图:在白色背景上展示主体多个角度视图 保持主体一致和等距视角效果[12] - 标注现实世界:识别建筑并标注相关信息 经ChatGPT验证基本正确 仅少数细节不准确[15][18] - 红箭头视角生成:根据地图截图和箭头标记 生成指定位置和方向的真实景观图像 包括虚构混合城市地图[20][22][23] - 地形视图生成:先绘制带等高线的DEM 再从指定位置生成对应自然景观 高度还原湖泊山脉等地形特征[24][25][26] - 时尚穿搭识别:上传穿搭照片生成OOTD清单 支持真人和动漫角色 整体效果惊艳但存在配件遗漏或颜色错误[27][28][31][32] - 人物换衣:复杂图案T恤也能1:1复刻 褶皱逼真[33] - 电影分镜生成:上传肖像生成多帧电影镜头 支持多种风格 还能识别手绘姿势生成复杂战斗场景[37][40] - 漫画生成:将真实照片转为黑白漫画风格 添加动态效果和故事连贯性 如自动驾驶汽车照片出现猫和对话框[43][44] - 风格转换与照片修复:将照片转为《辛普森一家》等卡通风格 支持老照片修复和黑白照片上色[46][48][50] 市场反响与热度 - 模型热度居高不下 火爆程度不亚于GPT-4o掀起的吉卜力热潮[2] - 网友开发出多种新奇玩法 谷歌官方账号在X平台推荐使用方式[6][9]
谷歌发布图像生成模型纳米香蕉;白宫宣布持股英特尔;京东官宣进军团播
观察者网· 2025-08-27 09:04
AI技术发展 - 谷歌发布先进图像生成与编辑模型Gemini 2 5 Flash Image 代号纳米香蕉 在LMArena基准测试中位列AI图像编辑模型榜首 具备角色一致性保持 自然语言精准修图 多图融合能力 利用Gemini世界知识提升智能表现 API定价为每百万输出token 30美元 生成单张图片约消耗1290个输出token 折算成本约0 039美元 [1] - 阿里云大模型服务平台百炼宣布部分模型上下文缓存降价 命中缓存时输入Token按cached_token计费 单价从input_token单价的40%调整到20% [2] - 苹果宣布将于北京时间9月10日凌晨举行秋季发布会 主题为Awe dropping 预计发布新一代iPhone 17系列 展示AI技术最新进展 整合AI功能进Siri等服务 [4] 公司财务与战略 - 寒武纪上半年营业收入28 81亿元 同比增长4347 82% 归属于母公司所有者的净利润10 38亿元 上年同期净亏损5 3亿元 同比扭亏为盈 截至收盘股价报1329元/股 总市值5560亿元 [5] - 白宫投资89亿美元持有芯片制造商英特尔9 9%股份 投资资金来源于《芯片法案》等已承诺补贴 特朗普称交易价值约110亿美元 所有收益归美国 并计划推动政府持有更多私营企业股份 [5] - 比亚迪泰国工厂首次出口电动车至欧洲市场 共计超过900辆 目的地包括英国 德国和比利时 泰国工厂于去年7月投产 涵盖冲压 涂装 焊接和总装全流程 [6][7] 产品与市场动态 - 豆包正式上线未成年人保护模式 家长输入密码开启后 推荐视频 浏览第三方网页 和豆包以外的智能体对话 AI创作功能默认关闭 翻译 深入研究等功能仍能正常使用 [3] - 京东全球购宣布于七夕活动期间首次开启团播试水 定于8月28日晚8点开启 邀请业内知名男团与女团进驻直播间 分别扮演古装侄女 西装牛郎 以同步PK形式进行团播 团播模式最早可追溯至秀场直播时代 2023年伴随专业偶像入场复兴 融入秀粉打投 饭圈经济等元素 具有较强综艺化互动效果 [8][9] - 小红书启动新版本测试 电商入口位于App主界面 将成为一级入口 底部导航栏出现市集选项 紧靠首页选项 市集是小红书生活方式电商的具象化 产品化呈现 页面上部设置市集直播 买手橱窗 新品首发等频道 [10] 企业声明与回应 - 抖音集团副总裁李亮辟谣人均7个月就走 称是谣言 并表示相关评论文章充满AI幻觉 疑似AI创作 回应称抖音2016年9月上线 不可能在当年春节上线拜年特效 也从未因跨部门协调延迟错失窗口 [8]
智象未来发布全新自回归图像编辑框架 VAREdit ,0.7 秒完成高保真图像编辑
格隆汇· 2025-08-25 14:26
技术突破 - 推出全球首个纯自回归图像编辑框架VAREdit 实现局部精准修改与整体结构保持的统一[1] - 采用视觉自回归架构 将编辑定义为"下一尺度预测"并逐层生成多尺度残差特征[1] - 创新设计尺度对齐参考模块 有效解决尺度匹配难题提升编辑质量与效率[1] 性能表现 - 编辑速度提升至0.7秒级 轻量版VAREdit-2.2B可在0.7秒内完成512×512图像高保真编辑[1] - 在EMU-Edit与PIE-Bench测试中CLIP与GPT指标全面领先[1] - VAREdit-8.4B在GPT-Balance指标较ICEdit和UltraEdit分别提升41.5%和30.8%[1] 行业影响 - 突破扩散模型存在的局部修改牵动整体结构 编辑不够精准及多步迭代效率低等瓶颈[1] - 为实时交互与高效创作开辟新路径 推动AI图像编辑迈入高效可控实时新纪元[1][2] - 已在GitHub和Hugging Face平台全面开源 未来将探索视频编辑和多模态生成等应用场景[2]