谷歌Nano Banana

搜索文档
刚刚,全球AI生图新王诞生!腾讯混元图像3.0登顶了
量子位· 2025-10-05 13:43
文章核心观点 - 腾讯混元图像3 0模型在LMArena文生图竞技场榜单中位列全球第一,超越了谷歌、字节跳动和OpenAI等公司的模型[1][7] - 该模型是业界首个开源的工业级原生多模态生图模型,参数规模高达800亿,展现了公司在AI领域的厚积薄发[10][13] - 模型采用创新的广义因果注意力和二维位置编码等技术,实现了文本和图像的统一理解与生成,在多项评测中媲美甚至超越行业顶尖闭源模型[12][40][63][65] 模型性能与排名 - 在LMArena文生图榜单中,腾讯混元图像3 0以1167分的成绩排名第一,谷歌Gemini 2 5 Flash Image Preview以1151分位列第二[1] - 该榜单由美国加州大学伯克利分校推出,采用基于人类真实偏好的盲测机制,累计总投票数达3,159,029次,被公认为国际权威的AI模型竞技场[4][5][6] - 模型在人工评测GSB中相较于Seedream 4 0胜率为1 17%,相较于Nano Banana胜率为2 64%,相较于GPT Image胜率为5 00%[65] 技术架构创新 - 模型采用原生多模态架构,能够通过单一模型处理文字、图片、视频与音频等多种模态的输入与输出,无需依赖多个组合模型[12][17] - 引入广义因果注意力机制,有效整合了文本的自回归生成特性和图像的全局上下文捕捉能力[41][42] - 实现广义二维RoPE位置编码,确保与预训练语言模型的向后兼容性,同时支持图像tokens的二维位置处理[46][48] - 创新自动分辨率预测功能,模型可根据上下文自动决定合适的图像形状,无需用户确定性输入[50][51] 模型能力展示 - 模型具备强大的语义理解能力,能够响应复杂长文本并利用世界知识进行推理,例如生成中秋节海报、十二生肖表情包等创意内容[19][22][24] - 可处理复杂概念和场景生成,如“林黛玉大战孙悟空”、完全由火焰构成的猫咪以及具有高级艺术感的香水广告大片[25][28][31][33] - 支持多任务处理,包括解方程并展示计算过程、生成复古票券拼贴画以及科技感和人物特写图像,细节处理精细[68][70][72][74] 数据构建与训练策略 - 采用三阶段过滤流程从超过100亿张原始图像中筛选出近50亿张高质量、多样化图像用于训练[53] - 构建中英双语、分层级的描述体系,并集成OCR和命名实体识别代理来保证描述的真实性[55] - 预训练过程分为四个渐进式阶段,数据从粗到精筛选,VAE编码器图像分辨率逐步提高,并引入思维链生图任务[56][59] - 通过SFT、DPO、MixGRPO、SRPO和ReDA等多阶段后训练优化模型,提升图像真实感与清晰度[59][60] 行业发展与影响 - 文生图领域正从传统DiT架构转向原生多模态模型架构,混元图像3 0的开源为行业提供了新的技术路径[16] - 模型登顶权威榜单标志着公司在AI生成式模型领域已达到全球领先水平,对行业竞争格局产生重要影响[1][67] - 模型开源发布可促进AI社区发展,开源仓库和Hugging Face平台已开放访问,助力行业技术普及与创新[78]