Workflow
比NanoBanana更擅长中文和细节控制,兔展&北大Uniworld V2刷新SOTA
36氪·2025-11-05 17:44

比Nano Banana更擅长P细节的图像编辑模型来了,还是更懂中文的那种。 就像这样,要求AI"把中间白色衣服戴口罩女生的手势改成OK",原图如下: UniWorld-V2在GEdit-Bench和ImgEdit等行业权威基准测试中取得了SOTA成绩,在综合表现上超越了如OpenAI的GPT-Image-1等顶尖闭源模型。 而Nano Banana则未能成功get到提示词的意图。 一起来看详细技术报告。 强大的中文字体掌握与精细化可控 这个名为UniWorld-V2的模型能做到完美修改。 模型背后,是兔展智能&北京大学的UniWorld团队的最新技术成果: 他们提出了一种名为UniWorld-R1的创新型图像编辑后期训练框架,该框架首次将强化学习(RL)策略优化应用于统一架构的图像编辑模型,是第一个视 觉强化学习框架。基于此,他们推出了新一代模型UniWorld-V2。 传统的图像编辑模型依赖监督微调(SFT),普遍存在对训练数据过拟合、泛化能力差的问题。此外,还存在面对编辑指令和任务的多样性,缺乏通用奖 励模型的瓶颈。 功能上,UniWorld-V2在实际应用中展现了SFT模型难以企及的精细化控制力。 中 ...