Workflow
图像编辑模型
icon
搜索文档
比NanoBanana更擅长中文和细节控制,兔展&北大Uniworld V2刷新SOTA
36氪· 2025-11-05 17:44
比Nano Banana更擅长P细节的图像编辑模型来了,还是更懂中文的那种。 就像这样,要求AI"把中间白色衣服戴口罩女生的手势改成OK",原图如下: UniWorld-V2在GEdit-Bench和ImgEdit等行业权威基准测试中取得了SOTA成绩,在综合表现上超越了如OpenAI的GPT-Image-1等顶尖闭源模型。 而Nano Banana则未能成功get到提示词的意图。 一起来看详细技术报告。 强大的中文字体掌握与精细化可控 这个名为UniWorld-V2的模型能做到完美修改。 模型背后,是兔展智能&北京大学的UniWorld团队的最新技术成果: 他们提出了一种名为UniWorld-R1的创新型图像编辑后期训练框架,该框架首次将强化学习(RL)策略优化应用于统一架构的图像编辑模型,是第一个视 觉强化学习框架。基于此,他们推出了新一代模型UniWorld-V2。 传统的图像编辑模型依赖监督微调(SFT),普遍存在对训练数据过拟合、泛化能力差的问题。此外,还存在面对编辑指令和任务的多样性,缺乏通用奖 励模型的瓶颈。 功能上,UniWorld-V2在实际应用中展现了SFT模型难以企及的精细化控制力。 中 ...
谷歌认领最强AI版Photoshop!现在人人可用,效果确实强悍
量子位· 2025-08-27 13:49
不圆 时令 发自 凹非寺 量子位 | 公众号 QbitAI 爆火的神秘图像编辑模型 nano-banana ,终于脱掉了"香蕉皮"! 就在今天,谷歌官方认领,并表明这个模型其实是 Gemini 2.5 Flash Image 。 最新一波官方Demo也来了: 还展现出了高超的图像推理能力: 现在该模型可以在Gemini和Google AI Studio上免费使用,同时API以每张图像0.039$(折合人民币0.28¥)的价格开放。 模型的具体表现如何?一起来看~ 出色的图像编辑能力 官方给出了很多有趣的用法。 除了常规的修图方式,它还可以 合并最多三张图片 来创造新事物。 生成超现实艺术,组合不同的照片元素,或无缝融合物体、颜色和纹理。 而在官方实锤之前,网友们也早就被nano-banana的各种私家case吸引,开启疯狂讨论。 比如说精准改变面部表情和天气。 或者让秃头男人重新拥有不同发型。 网友表示:PhotoShop岌岌可危。 或者轻松实现设计想法。 还可以用几张照片生成堪称电影画面的连贯剧情故事。 毕竟这个"香蕉"不仅可以完成平面图像的编辑,甚至还可以进行2D到3D的转换。用户只需提供一张普通的2D图 ...
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 15:12
阶跃星辰Step1X-Edit模型发布 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,性能达到开源体系SOTA水平,可与GPT-4o和Gemini 2 Flash等闭源模型媲美 [2] - Step1X-Edit由19B参数构成(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持和高精度区域级控制三项核心能力,支持11类高频图像编辑任务 [4] - 模型首次在开源体系中实现多模态语言理解与扩散图像生成的深度融合,通过自建高质量数据生成管道和GEdit-Bench基准评测,显著优于现有开源模型 [5] 技术架构与创新 - Step1X-Edit架构包含三大核心组件:多模态大型语言模型(MLLM)、连接模块以及扩散Transformer(DiT) [6] - 模型采用单次前向传递捕获文本与视觉语义关系,通过令牌精炼器重组嵌入特征,并引入全局视觉引导向量提升上下文感知能力 [10] - 训练阶段融合FLUX-Fill令牌连接机制,联合优化连接模块与DiT网络,采用Qwen与DiT预训练权重实现快速收敛 [10] 资源与赛事信息 - Step1X-Edit开源资源包括Github、HuggingFace和ModelScope平台,技术报告发布于arXiv [11][12][13] - AMD 2025 GPU挑战赛聚焦FP8 GEMM、MLA with ROPE和Fused MoE三大算子优化,总奖金10万美元,优胜者可受邀参加AMD Advancing AI Day活动 [14][15] - 赛事时间表显示注册截止为2025年4月30日,提交窗口分阶段开放,中国大陆参赛者需通过Github CLI工具提交 [17][18][19]