行业技术变革趋势 - 图像编辑与生成模型进入集中爆发期,对传统专业创意软件(如Photoshop)的市场地位构成显著冲击 [1] - 谷歌Nano Banana、字节Seedream4.0、阿里Qwen-Image-Edit-2509等模型引领多模态生图技术升级,涌现OOTD穿搭、文字渲染、生成电影分镜等新能力与玩法 [1] - 技术路线转向多模态指令融合,将语言理解、视觉识别与生成控制结合以实现更自然的创作体验,但语言指令描述不清、处理抽象概念乏力等局限仍存 [1] DreamOmni2技术突破与性能表现 - 港科大贾佳亚团队开源DreamOmni2,基于FLUX-Kontext训练,保留指令编辑与文生图能力,并拓展多参考图生成编辑能力 [2] - 在具体物体和抽象概念的编辑与生成任务中,DreamOmni2表现显著优于当前SOTA开源模型,部分方面甚至超越谷歌Nano Banana [2] - 实测显示DreamOmni2在换背景、风格迁移、物体替换等任务中效果精准,毛发细节保留完好,色彩氛围表现力强,生成时间短 [17][21][26][35][38] - 与主流模型对比中,GPT-4o生成结果AI痕迹明显且人物姿态失真,Nano Banana衣物颜色形态易变,DreamOmni2在细节保留与自然度上综合领先 [27][29][42] - 定量数据显示DreamOmni2在具体物体编辑任务中Human评分达0.6098,抽象属性任务中达0.6829,均高于GPT-4o和Nano Banana [44][45] 技术创新与架构优化 - 采用三阶段式数据构建范式:特征混合方案生成高质量数据对、多模态编辑数据构建、多模态生成数据整合,突破以往数据桎梏 [48][50][53] - 框架设计引入多参考图索引编码优化,通过索引编码与位置编码偏移解决像素混淆问题,提升多图像输入的区分精度 [55][56] - 训练策略上提出VLM与生成模型联合训练机制,结合LoRA模块分别优化编辑与生成功能,使模型能理解复杂用户指令并标准化输出 [56] 社区影响与行业意义 - DreamOmni2开源两周内GitHub获1.6k Star量,被海外创作者称为“King Bomb”,Youtube涌现大量使用分享视频 [6][10] - 该模型推动多模态生图能力进入深水区,为创作者提供语义理解更全面、创意延展性更强的智能引擎 [11] - 贾佳亚团队通过DreamOmni2及Mini-Gemini、ControlNeXt等系列开源工作,构建覆盖感知、理解与生成的全链路多模态技术栈,增强行业影响力 [59][60]
让海外创作者喊出「King Bomb」的P图大杀器来了
36氪·2025-10-23 14:57