谷歌最强AI,被港科大开源超了?让海外创作者喊出「King Bomb」的P图大杀器来了
机器之心·2025-10-23 13:09

行业趋势与竞争格局 - AI图像编辑与生成模型进入集中爆发期,对传统专业创意软件(如Photoshop)的市场地位构成冲击[2] - 谷歌Nano Banana、字节Seedream4.0、阿里Qwen-Image-Edit-2509等模型引领多模态生图技术升级,涌现出OOTD穿搭、文字渲染、生成电影分镜等新能力与玩法[2] - 行业技术路线正向多模态指令融合方向发展,旨在将语言理解、视觉识别与生成控制能力结合,实现更自然的创作体验[2] DreamOmni2模型核心优势 - 模型在开源两周内于GitHub上获得1.6k的Star量,显示开源社区的高度认可[12] - 在基于指令的多模态编辑任务中,DreamOmni2在具体物体和抽象属性处理上均显著优于当前SOTA开源模型,部分方面甚至超越谷歌Nano Banana[3][53] - 定量结果显示,DreamOmni2在具体物体任务上的人类评估得分达0.6098,在抽象属性任务上的人类评估得分达0.6829,全面领先于GPT-4o和Nano Banana等竞争对手[54][55] 技术突破与创新 - 公司独创三阶段式数据构建范式,通过特征混合方案创建包含具体物体与抽象属性的高质量数据对,解决了多模态训练中抽象概念稀缺及缺乏参考图像条件的结构性缺陷[58][60][65] - 框架设计实现了多参考图索引编码优化,通过将索引编码添加到位置通道并计算偏移,有效缓解了复制粘贴现象和参考图像之间的像素混淆[67][68] - 提出VLM与生成模型联合训练机制,使模型能更好地理解复杂且不规则的现实用户指令,并通过LoRA方法分别训练编辑与生成模块,在统一模型中无缝融合两项功能[68] 实际应用表现 - 在证件照背景替换任务中,模型能快速完成且保留毛发等细节,效果不输专业修图[16][20] - 在图像风格转换任务中,模型能精准还原参考图的色调与氛围,并将风格感无缝融入原图[22][25] - 在物体替换任务中,模型能准确识别主体与衣物的层级关系,自然保留人物脸部特征与姿态,其效果在对比测试中优于GPT-4o,与Nano Banana各有优势[28][31][37][52] 公司技术战略与影响 - DreamOmni2是公司过去两年深耕多模态领域的延续,团队已逐步构建起覆盖感知、理解与生成全链路的多模态技术栈[72] - 公司通过将多项研究成果(如Mini-Gemini、ControlNeXt、DreamOmni、MGM-Omni)向社区开放,增强了其多模态技术的影响力并推动生态演进[72][73] - 该模型的系统性创新为下一代AI视觉创作工具的智能进化提供了参考,使模型的多模态理解、编辑与生成能力能做到自然衔接与切换[72]