Workflow
谷歌Nano Banana
icon
搜索文档
谷歌最强AI,被港科大开源超了?让海外创作者喊出「King Bomb」的P图大杀器来了
机器之心· 2025-10-23 13:09
行业趋势与竞争格局 - AI图像编辑与生成模型进入集中爆发期,对传统专业创意软件(如Photoshop)的市场地位构成冲击[2] - 谷歌Nano Banana、字节Seedream4.0、阿里Qwen-Image-Edit-2509等模型引领多模态生图技术升级,涌现出OOTD穿搭、文字渲染、生成电影分镜等新能力与玩法[2] - 行业技术路线正向多模态指令融合方向发展,旨在将语言理解、视觉识别与生成控制能力结合,实现更自然的创作体验[2] DreamOmni2模型核心优势 - 模型在开源两周内于GitHub上获得1.6k的Star量,显示开源社区的高度认可[12] - 在基于指令的多模态编辑任务中,DreamOmni2在具体物体和抽象属性处理上均显著优于当前SOTA开源模型,部分方面甚至超越谷歌Nano Banana[3][53] - 定量结果显示,DreamOmni2在具体物体任务上的人类评估得分达0.6098,在抽象属性任务上的人类评估得分达0.6829,全面领先于GPT-4o和Nano Banana等竞争对手[54][55] 技术突破与创新 - 公司独创三阶段式数据构建范式,通过特征混合方案创建包含具体物体与抽象属性的高质量数据对,解决了多模态训练中抽象概念稀缺及缺乏参考图像条件的结构性缺陷[58][60][65] - 框架设计实现了多参考图索引编码优化,通过将索引编码添加到位置通道并计算偏移,有效缓解了复制粘贴现象和参考图像之间的像素混淆[67][68] - 提出VLM与生成模型联合训练机制,使模型能更好地理解复杂且不规则的现实用户指令,并通过LoRA方法分别训练编辑与生成模块,在统一模型中无缝融合两项功能[68] 实际应用表现 - 在证件照背景替换任务中,模型能快速完成且保留毛发等细节,效果不输专业修图[16][20] - 在图像风格转换任务中,模型能精准还原参考图的色调与氛围,并将风格感无缝融入原图[22][25] - 在物体替换任务中,模型能准确识别主体与衣物的层级关系,自然保留人物脸部特征与姿态,其效果在对比测试中优于GPT-4o,与Nano Banana各有优势[28][31][37][52] 公司技术战略与影响 - DreamOmni2是公司过去两年深耕多模态领域的延续,团队已逐步构建起覆盖感知、理解与生成全链路的多模态技术栈[72] - 公司通过将多项研究成果(如Mini-Gemini、ControlNeXt、DreamOmni、MGM-Omni)向社区开放,增强了其多模态技术的影响力并推动生态演进[72][73] - 该模型的系统性创新为下一代AI视觉创作工具的智能进化提供了参考,使模型的多模态理解、编辑与生成能力能做到自然衔接与切换[72]
刚刚,全球AI生图新王诞生!腾讯混元图像3.0登顶了
量子位· 2025-10-05 13:43
文章核心观点 - 腾讯混元图像3 0模型在LMArena文生图竞技场榜单中位列全球第一,超越了谷歌、字节跳动和OpenAI等公司的模型[1][7] - 该模型是业界首个开源的工业级原生多模态生图模型,参数规模高达800亿,展现了公司在AI领域的厚积薄发[10][13] - 模型采用创新的广义因果注意力和二维位置编码等技术,实现了文本和图像的统一理解与生成,在多项评测中媲美甚至超越行业顶尖闭源模型[12][40][63][65] 模型性能与排名 - 在LMArena文生图榜单中,腾讯混元图像3 0以1167分的成绩排名第一,谷歌Gemini 2 5 Flash Image Preview以1151分位列第二[1] - 该榜单由美国加州大学伯克利分校推出,采用基于人类真实偏好的盲测机制,累计总投票数达3,159,029次,被公认为国际权威的AI模型竞技场[4][5][6] - 模型在人工评测GSB中相较于Seedream 4 0胜率为1 17%,相较于Nano Banana胜率为2 64%,相较于GPT Image胜率为5 00%[65] 技术架构创新 - 模型采用原生多模态架构,能够通过单一模型处理文字、图片、视频与音频等多种模态的输入与输出,无需依赖多个组合模型[12][17] - 引入广义因果注意力机制,有效整合了文本的自回归生成特性和图像的全局上下文捕捉能力[41][42] - 实现广义二维RoPE位置编码,确保与预训练语言模型的向后兼容性,同时支持图像tokens的二维位置处理[46][48] - 创新自动分辨率预测功能,模型可根据上下文自动决定合适的图像形状,无需用户确定性输入[50][51] 模型能力展示 - 模型具备强大的语义理解能力,能够响应复杂长文本并利用世界知识进行推理,例如生成中秋节海报、十二生肖表情包等创意内容[19][22][24] - 可处理复杂概念和场景生成,如“林黛玉大战孙悟空”、完全由火焰构成的猫咪以及具有高级艺术感的香水广告大片[25][28][31][33] - 支持多任务处理,包括解方程并展示计算过程、生成复古票券拼贴画以及科技感和人物特写图像,细节处理精细[68][70][72][74] 数据构建与训练策略 - 采用三阶段过滤流程从超过100亿张原始图像中筛选出近50亿张高质量、多样化图像用于训练[53] - 构建中英双语、分层级的描述体系,并集成OCR和命名实体识别代理来保证描述的真实性[55] - 预训练过程分为四个渐进式阶段,数据从粗到精筛选,VAE编码器图像分辨率逐步提高,并引入思维链生图任务[56][59] - 通过SFT、DPO、MixGRPO、SRPO和ReDA等多阶段后训练优化模型,提升图像真实感与清晰度[59][60] 行业发展与影响 - 文生图领域正从传统DiT架构转向原生多模态模型架构,混元图像3 0的开源为行业提供了新的技术路径[16] - 模型登顶权威榜单标志着公司在AI生成式模型领域已达到全球领先水平,对行业竞争格局产生重要影响[1][67] - 模型开源发布可促进AI社区发展,开源仓库和Hugging Face平台已开放访问,助力行业技术普及与创新[78]