Workflow
图像编辑模型
icon
搜索文档
谷歌认领最强AI版Photoshop!现在人人可用,效果确实强悍
量子位· 2025-08-27 13:49
不圆 时令 发自 凹非寺 量子位 | 公众号 QbitAI 爆火的神秘图像编辑模型 nano-banana ,终于脱掉了"香蕉皮"! 就在今天,谷歌官方认领,并表明这个模型其实是 Gemini 2.5 Flash Image 。 最新一波官方Demo也来了: 还展现出了高超的图像推理能力: 现在该模型可以在Gemini和Google AI Studio上免费使用,同时API以每张图像0.039$(折合人民币0.28¥)的价格开放。 模型的具体表现如何?一起来看~ 出色的图像编辑能力 官方给出了很多有趣的用法。 除了常规的修图方式,它还可以 合并最多三张图片 来创造新事物。 生成超现实艺术,组合不同的照片元素,或无缝融合物体、颜色和纹理。 而在官方实锤之前,网友们也早就被nano-banana的各种私家case吸引,开启疯狂讨论。 比如说精准改变面部表情和天气。 或者让秃头男人重新拥有不同发型。 网友表示:PhotoShop岌岌可危。 或者轻松实现设计想法。 还可以用几张照片生成堪称电影画面的连贯剧情故事。 毕竟这个"香蕉"不仅可以完成平面图像的编辑,甚至还可以进行2D到3D的转换。用户只需提供一张普通的2D图 ...
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 15:12
阶跃星辰Step1X-Edit模型发布 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,性能达到开源体系SOTA水平,可与GPT-4o和Gemini 2 Flash等闭源模型媲美 [2] - Step1X-Edit由19B参数构成(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持和高精度区域级控制三项核心能力,支持11类高频图像编辑任务 [4] - 模型首次在开源体系中实现多模态语言理解与扩散图像生成的深度融合,通过自建高质量数据生成管道和GEdit-Bench基准评测,显著优于现有开源模型 [5] 技术架构与创新 - Step1X-Edit架构包含三大核心组件:多模态大型语言模型(MLLM)、连接模块以及扩散Transformer(DiT) [6] - 模型采用单次前向传递捕获文本与视觉语义关系,通过令牌精炼器重组嵌入特征,并引入全局视觉引导向量提升上下文感知能力 [10] - 训练阶段融合FLUX-Fill令牌连接机制,联合优化连接模块与DiT网络,采用Qwen与DiT预训练权重实现快速收敛 [10] 资源与赛事信息 - Step1X-Edit开源资源包括Github、HuggingFace和ModelScope平台,技术报告发布于arXiv [11][12][13] - AMD 2025 GPU挑战赛聚焦FP8 GEMM、MLA with ROPE和Fused MoE三大算子优化,总奖金10万美元,优胜者可受邀参加AMD Advancing AI Day活动 [14][15] - 赛事时间表显示注册截止为2025年4月30日,提交窗口分阶段开放,中国大陆参赛者需通过Github CLI工具提交 [17][18][19]