AI图像编辑 - 财报，业绩电话会，研报，新闻

AI图像编辑

搜索文档

量子位· 2025-09-02 18:45

行业技术背景 - AI图像编辑技术发展迅猛扩散模型成为行业主流但面临编辑精准度低和生成速度慢两大难题 [1] 公司技术方案 - 智象未来团队提出全新自回归图像编辑框架VAREdit 引入视觉自回归架构解决行业痛点 [2][3] - 将图像编辑定义为下一尺度预测问题通过自回归生成多尺度目标特征残差实现精确编辑 [5] - 采用多尺度量化编码技术将图像表征编码为空间规模递增的残差视觉令牌序列 [6] - 设计视觉自回归预测机制使用VAR Transformer主干网络预测多尺度残差视觉令牌 [10] 技术创新亮点 - 提出尺度对齐参考模块在第一层提供多尺度对齐参考后续层仅关注最细尺度特征 [17] - 该混合方案解决了全尺度条件计算开销大和最大尺度条件尺度不匹配的问题 [13][14][17] - 自注意力分析显示浅层关注整体布局深层转向局部优化为模块设计提供理论依据 [15] 性能表现数据 - 在EMU-Edit基准测试中 VAREdit-8.4B的GPT-Balance指标达6.773 较ICEdit提升41.5% [17][19] - 在PIE-Bench测试中 VAREdit-8.4B的GPT-Balance指标达7.298 较UltraEdit提升30.8% [17][19] - 编辑速度显著提升 8.4B模型处理512×512图像仅需1.2秒比扩散模型快2.2倍 [20] - 2.2B轻量模型仅需0.7秒在保持高质量的同时实现即时编辑体验 [20] 技术优势 - 适用范围广泛在大多数编辑类型上取得最佳效果大模型有效弥补小模型在全局样式和文本编辑的不足 [23] - 编辑结果自然保真度高过度修改更少视觉对比显示明显优势 [25] - SAR模块带来显著优化使EMU-Edit的GPT-Balance指标从5.248提升至5.565 [22] 发展计划 - 团队将继续探索新一代多模态图像编辑架构推动技术向更高质量、更快速度、更强可控性发展 [27]

阿里云收入增26%创三年新高，计算机ETF（159998）年内份额增长率居同标的第一，云计算ETF沪港深（517390）盘中大涨超4%

21世纪经济报道· 2025-09-01 10:25

ETF表现与资金流向 - 云计算ETF沪港深(517390)9月1日早盘一度涨超4.5% 收盘涨1.55% 成交额超1900万元溢折率0.13% 盘中频现溢价交易 [1] - 计算机ETF(159998)同日涨0.09% 成交额超2200万元 [1] - 云计算ETF上周五个交易日有4日获资金净流入计算机ETF上一交易日获超3600万元资金净流入 [1] - 计算机ETF年内份额增长率达44.58% 居同标的第一 [1] 成分股表现 - 云计算ETF成分股中阿里巴巴-W涨超15% 数据港涨停中际旭创和润和软件跟涨 [1] - 中证计算机主题指数前十大重仓股包括科大讯飞中科曙光海康威视金山办公和同花顺等龙头 [2] 行业基本面 - 计算机行业2025H1营收同比增速中位数3.17% 归母利润同比增速中位数7.6% 扣非利润同比增速中位数6.28% [3] - 行业业绩延续2025Q1回暖趋势上行趋势预计具有持续性 [3] 企业动态与AI进展 - 阿里巴巴美股上周五涨近13% 创2023年3月以来最佳单日表现 [2] - 公司2026财年一季度AI+云资本支出达386亿元创历史新高阿里云收入增长加速至26%创三年新高 [2] - AI相关产品收入连续8个季度实现三位数同比增长 [2] - 谷歌推出最新图像生成与编辑模型Gemini 2.5 Flash Image 在LMArena基准测试中位列AI图像编辑模型榜首 [3] ETF产品特性 - 云计算ETF沪港深紧密跟踪中证沪港深云计算产业指数同时布局港股互联网企业 A股算力企业和计算机龙头 [1] - 计算机ETF跟踪中证计算机主题指数选取信息技术服务应用软件系统软件和电脑硬件等业务上市公司 [2] - 两只ETF均配有场外联接基金云计算ETF场外代码为A类019171/C类019170 计算机ETF场外代码为A类001629/C类001630 [1][2]

谷歌又赢了，nano banana「被迫」改名后，网友搞出7种神仙玩法

机器之心· 2025-08-28 18:40

模型发布与性能 - 谷歌推出Gemini-2.5-flash-image模型原名为nano banana 生成速度更快成本更低图像生成与编辑能力更强被网友称为世界上最好的AI照片编辑器[2][5] - 模型已在Gemini应用和Google AI Studio上线用户可免费体验开发者可通过Gemini API调用[5] 功能与应用场景 - 制作等距模型：将建筑或物体转化为等距模型自动补全建筑细节如墙皮和电线但存在人物数量不一致的问题[7][8][9] - 生成六视图：在白色背景上展示主体多个角度视图保持主体一致和等距视角效果[12] - 标注现实世界：识别建筑并标注相关信息经ChatGPT验证基本正确仅少数细节不准确[15][18] - 红箭头视角生成：根据地图截图和箭头标记生成指定位置和方向的真实景观图像包括虚构混合城市地图[20][22][23] - 地形视图生成：先绘制带等高线的DEM 再从指定位置生成对应自然景观高度还原湖泊山脉等地形特征[24][25][26] - 时尚穿搭识别：上传穿搭照片生成OOTD清单支持真人和动漫角色整体效果惊艳但存在配件遗漏或颜色错误[27][28][31][32] - 人物换衣：复杂图案T恤也能1:1复刻褶皱逼真[33] - 电影分镜生成：上传肖像生成多帧电影镜头支持多种风格还能识别手绘姿势生成复杂战斗场景[37][40] - 漫画生成：将真实照片转为黑白漫画风格添加动态效果和故事连贯性如自动驾驶汽车照片出现猫和对话框[43][44] - 风格转换与照片修复：将照片转为《辛普森一家》等卡通风格支持老照片修复和黑白照片上色[46][48][50] 市场反响与热度 - 模型热度居高不下火爆程度不亚于GPT-4o掀起的吉卜力热潮[2] - 网友开发出多种新奇玩法谷歌官方账号在X平台推荐使用方式[6][9]

AI图像编辑

人工智能

nano banana（Gemini - 2.5 - flash - image）

GPT - 4o

AI图像编辑

人工智能

nano banana（Gemini - 2.5 - flash - image）

GPT - 4o

谷歌发布图像生成模型纳米香蕉；白宫宣布持股英特尔；京东官宣进军团播

观察者网· 2025-08-27 09:04

AI技术发展 - 谷歌发布先进图像生成与编辑模型Gemini 2 5 Flash Image 代号纳米香蕉在LMArena基准测试中位列AI图像编辑模型榜首具备角色一致性保持自然语言精准修图多图融合能力利用Gemini世界知识提升智能表现 API定价为每百万输出token 30美元生成单张图片约消耗1290个输出token 折算成本约0 039美元 [1] - 阿里云大模型服务平台百炼宣布部分模型上下文缓存降价命中缓存时输入Token按cached_token计费单价从input_token单价的40%调整到20% [2] - 苹果宣布将于北京时间9月10日凌晨举行秋季发布会主题为Awe dropping 预计发布新一代iPhone 17系列展示AI技术最新进展整合AI功能进Siri等服务 [4] 公司财务与战略 - 寒武纪上半年营业收入28 81亿元同比增长4347 82% 归属于母公司所有者的净利润10 38亿元上年同期净亏损5 3亿元同比扭亏为盈截至收盘股价报1329元/股总市值5560亿元 [5] - 白宫投资89亿美元持有芯片制造商英特尔9 9%股份投资资金来源于《芯片法案》等已承诺补贴特朗普称交易价值约110亿美元所有收益归美国并计划推动政府持有更多私营企业股份 [5] - 比亚迪泰国工厂首次出口电动车至欧洲市场共计超过900辆目的地包括英国德国和比利时泰国工厂于去年7月投产涵盖冲压涂装焊接和总装全流程 [6][7] 产品与市场动态 - 豆包正式上线未成年人保护模式家长输入密码开启后推荐视频浏览第三方网页和豆包以外的智能体对话 AI创作功能默认关闭翻译深入研究等功能仍能正常使用 [3] - 京东全球购宣布于七夕活动期间首次开启团播试水定于8月28日晚8点开启邀请业内知名男团与女团进驻直播间分别扮演古装侄女西装牛郎以同步PK形式进行团播团播模式最早可追溯至秀场直播时代 2023年伴随专业偶像入场复兴融入秀粉打投饭圈经济等元素具有较强综艺化互动效果 [8][9] - 小红书启动新版本测试电商入口位于App主界面将成为一级入口底部导航栏出现市集选项紧靠首页选项市集是小红书生活方式电商的具象化产品化呈现页面上部设置市集直播买手橱窗新品首发等频道 [10] 企业声明与回应 - 抖音集团副总裁李亮辟谣人均7个月就走称是谣言并表示相关评论文章充满AI幻觉疑似AI创作回应称抖音2016年9月上线不可能在当年春节上线拜年特效也从未因跨部门协调延迟错失窗口 [8]

Gemini 2.5 Flash Image

Gemini 2.5 Flash Image

智象未来发布全新自回归图像编辑框架 VAREdit ，0.7 秒完成高保真图像编辑

格隆汇· 2025-08-25 14:26

技术突破 - 推出全球首个纯自回归图像编辑框架VAREdit 实现局部精准修改与整体结构保持的统一[1] - 采用视觉自回归架构将编辑定义为"下一尺度预测"并逐层生成多尺度残差特征[1] - 创新设计尺度对齐参考模块有效解决尺度匹配难题提升编辑质量与效率[1] 性能表现 - 编辑速度提升至0.7秒级轻量版VAREdit-2.2B可在0.7秒内完成512×512图像高保真编辑[1] - 在EMU-Edit与PIE-Bench测试中CLIP与GPT指标全面领先[1] - VAREdit-8.4B在GPT-Balance指标较ICEdit和UltraEdit分别提升41.5%和30.8%[1] 行业影响 - 突破扩散模型存在的局部修改牵动整体结构编辑不够精准及多步迭代效率低等瓶颈[1] - 为实时交互与高效创作开辟新路径推动AI图像编辑迈入高效可控实时新纪元[1][2] - 已在GitHub和Hugging Face平台全面开源未来将探索视频编辑和多模态生成等应用场景[2]

AI图像编辑

Artificial Intelligence

VAREdit

AI图像编辑

Artificial Intelligence

VAREdit