图像生成模型
搜索文档
后生可畏,何恺明团队新成果发布,共一清华姚班大二在读
36氪· 2025-12-04 10:21
继今年5月提出MeanFlow (MF) 之后,何恺明团队于近日推出了最新的改进版本—— Improved MeanFlow (iMF),iMF成功解决了原始MF在训练稳定性、指导灵活性和架构效率上的三大核心问题。 其通过将训练目标重新表述为更稳定的瞬时速度损失,同时引入灵活的无分类器指导(CFG)和高效的上下文内条件作用,大幅提升了模型性能。 在ImageNet 256x256基准测试中,iMF-XL/2模型在 1-NFE(单步函数评估)中取得了1.72的FID成绩,相较于原始MF提升了50%,证明了从头开始训练的 单步生成模型可以达到与多步扩散模型相媲美的结果。 | config | depth | width | # params | Gflops | FIDJ | IST | | --- | --- | --- | --- | --- | --- | --- | | MF-B/2 | 12 | 768 | 131M | 23.1 | 6.17 | 208.0 | | MF-M/2 | 16 | 1024 | 308M | 54.0 | 5.01 | 252.0 | | MF-L/2 | 24 | 10 ...
6B文生图模型,上线即登顶抱抱脸
量子位· 2025-12-01 12:26
模型发布与市场表现 - 阿里通义发布全新6B参数图像生成模型Z-Image,首日下载量高达50万次 [1] - 模型上线不到两天即登顶HuggingFace两个榜单第一 [1] - 模型虽小但出图质量不输同期发布的FLUX.2,在画质、文本、推理等方面达到SOTA级别 [3] 模型版本与技术特点 - Z-Image-Turbo版本已开源,参数量约6B,在写实风格图像生成和中英文文本精准渲染方面表现较好 [8] - Z-Image-Edit版本针对图像编辑任务微调,可上传图片并通过自然语言指令进行精确修改 [8] - Z-Image-Base版本为未压缩的完整基础模型,面向开发者和研究者 [8] - 模型采用可扩展的单流DiT架构,将文本token、视觉语义token和图像VAE token统一处理,减少参数冗余和计算浪费 [35] - 通过Decoupled-DMD蒸馏技术,仅需8次函数评估即可生成高清图像,大幅提升速度 [39][40] 图像生成能力评估 - 在真实感和美学处理上表现出色,能生成具有电影级真实感的场景和接近专业影棚级的写实肖像照 [11][14] - 具备较强的文字处理能力,能较好处理一级标题的渲染,但小字号文字仍存在变形问题 [18][19] - 语义理解能力到位,能根据指令生成符合要求的科普漫画内容 [20][22] - 用户生成内容涵盖复古电影质感大片、微观迷你世界场景、显微镜级别昆虫特写等,展示模型多样化应用潜力 [24][27][30] 性能优势 - 模型架构优化和蒸馏技术结合,在不牺牲质量的前提下大幅减少计算量,实现高效运行 [34][43] - 网友反馈模型能流畅运行在个人电脑上且不烧显卡,凸显其易用性和低资源消耗优势 [7]
Nano Banana Pro一手实测:我们玩嗨了
机器之心· 2025-11-21 18:17
Nano Banana Pro核心能力 - 文章核心观点:Nano Banana Pro在图像生成和控制方面展现出显著进步,特别是在世界知识整合、复杂场景理解和多任务处理上表现突出,能够根据简单提示生成高度准确和详细的图像[12][29][36] - 模型通过调用搜索引擎自动补充准确信息,如时间、人数、标题和logo等,实现了一次生成成功[10][11] - 在文字渲染、风格转换和细节保留方面具有强大能力,适合处理中文提示词并一次性生成高质量结果[12][36] 技术能力测试:花江峡谷大桥案例 - 模型成功将夜景转换为阳光明媚的下午,完整保留了盘山公路、电塔和山峦等细节[16][19] - 在冬季下雪场景转换中表现稳定,显示出对复杂场景的熟练处理能力[19][21] - 能够识别桥梁结构并准确标注部位名称和功能,尽管在遮挡部位如锚碇的标注上存在瑕疵[22][24] - 生成的技术蓝图和爆炸视图在数据标记和组件拆解上整洁美观,但全长和主跨数据标记位置存在错误[30][32] - 模型能够提供造桥步骤的科普图示,易于理解,适合非专业人士使用[33][34] 创意应用场景 - 成功将小尺寸物体(嗅嗅)转换为大尺寸材质(柯基),并保持物体特征和颜色不变[40][42][44] - 处理多角色图像(7个Labubu)时保留所有特征,并为每个角色分配合适的彩色雪板[48][50] - 将真实人物转换为卡通风格并融入现有场景,同时保留人物特征[51][53] - 在菜单设计和菜品生成上表现良好,能够根据环境参考生成真实感强的菜品图像,尽管在密集文字处理上出现崩坏[57][59][62][64] 性能表现 - 所有测试结果均为第一次生成,无需反复调整,显示出高稳定性和用户友好性[36][37] - 在处理复杂提示词时表现出强大的意图理解能力,特别是在中文环境下[36]
Nano Banana Pro 要上天
36氪· 2025-11-21 09:55
产品发布与定位 - 谷歌近期密集发布多款AI产品,包括Gemini 3、Antigravity以及通过Vertex AI上线的Nano Banana Pro模型(模型名为gemini-3-pro-image-preview)[1] - 该模型被评估不仅具备图像生成能力,其生成质量稳定,并显示出初步的推理能力,超越了单纯的“画图工具”范畴[1][26] 多模态理解与生成能力 - 在生成包含现实人物(如Sam Altman、Elon Musk)与动漫角色的视频会议画面时,模型能高度还原真实人物特征,并保留二次元角色的原有质感,实现跨次元融合[2][5] - 模型展现出对场景语义的理解,例如在视频会议画面中为人物添加对应公司logo,并在模拟聊天框中生成与人物身份相关的话题讨论[5] - 模型能够遵循复杂指令细节,如正确执行动漫角色“转头”的动作要求,并理解视频会议画面的镜像效应[5] 多语言与文化内容处理 - 模型能根据提示词生成英文、中文、日文和俄文四种不同语言的菜单,在版式、标题和分类词还原上表现良好[7][8][10] - 对于提示词中明确指定的文字内容,模型基本能准确还原,但其自主生成的文字部分(如中文菜单的具体菜品名)可能出现字体虚化或难以辨认的情况[10] - 模型具备一定的中国文化特定知识,能生成看手相所需的生命线、感情线和智慧线,并能正确指出足底穴位“涌泉穴”的位置,尽管存在将智慧线和感情线画反的误差[13][14][16][18] 逻辑推理与问题解决能力 - 模型展现出解数学题的潜力,在代数题和复杂几何题的测试中,其提供的答案经GPT5验证被认为是正确的[20][22][24] - 模型被认为采用“推理+生成”的流程,其内部可能构建了粗糙的世界观,用于理解场景、人物关系及物理几何结构,而非简单的纹理映射[26] - 这种能力边界使其向“世界模型”方向演进,具备在生成图像前先进行逻辑推理的潜力,例如先解题再展示过程[27]
大涨超4%!谷歌再创历史新高!图像生成模型 Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
美股IPO· 2025-11-21 00:07
产品发布与市场关注 - 谷歌于Gemini 3发布后,正式推出其最新、最强大、最全面的专业级图像生成模型Nano Banana Pro(Gemini 3 Pro Image)[6] - 此次发布前,公司AI Studio负责人通过社交媒体表情暗示,引发了市场对该现象级模型的高度期待[2][5] 核心能力升级 - 模型生成分辨率显著提升至2K和4K高分辨率,支持广泛的图像长宽比,作品可直接用于从社交媒体到印刷物料等多种平台[10][11] - 图像一致性控制能力大幅增强,最多可使用14张参考图像,并保持多达5个人物的一致性与相似度[13][22] - 具备前所未有的创意控制力,包括自由选取并重塑图像任意局部区域、切换摄像机角度、调整焦点位置、应用电影工业级调色以及重塑场景光照[26][27] 文本生成与多语言能力 - 模型具备非常强大的文本生成能力,能够生成包含准确、清晰可读、多语言文本的视觉内容,是生成图像内可读文本的最佳模型[28][33] - 凭借Gemini的增强多语言推理能力,可生成多语言文本或对内容进行本地化与翻译,实现全球化扩展[35][36] 知识整合与实用功能 - 通过与Gemini 3大模型的深度融合,模型能将庞大知识库融入生成过程,产出更具事实准确性的视觉内容[38][39] - 结合Google搜索的检索基座,模型可连接到实时网页内容,生成基于最新数据的输出,适用于需要精确呈现现实信息的应用场景[40][42] - 模型具备根据内容自动生成PPT页面的能力,进一步扩展了其在实际工作流程中的应用价值[44]
谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
机器之心· 2025-11-20 23:13
产品发布核心观点 - 谷歌正式发布其专业级图像生成模型Nano Banana Pro(Gemini 3 Pro Image),该模型结合了Gemini 3 Pro的强大推理能力和世界知识,在图像生成的控制力、文字渲染和知识整合方面实现显著飞跃 [3][4][6] 技术能力升级 - 模型支持生成2K和4K高分辨率图像,图像像素量显著提升,同时在细节刻画、画面精度、生成稳定性及可控性上全面升级 [8] - 支持广泛的图像长宽比,解决了基础款模型难以控制图像比例的问题,作品可直接用于从社交媒体到印刷物料等多种平台 [9][11] - 视觉一致性控制能力增强,最多可使用14张参考图像,并保持多达5个人物的一致性与相似度 [13][23] - 具备强大的文本生成能力,能够生成包含准确、清晰可读、多语言文本的视觉内容,是生成图像内可读文本的最佳模型 [34][40] - 凭借与Gemini 3大模型的深度融合,模型能将庞大知识库融入生成过程,产出更具事实准确性的视觉内容,并可结合Google搜索检索基座连接到实时网页内容 [43][44][45] - 新增根据内容自动生成PPT页面的能力,实现从文字到展示的流程自动化与智能化 [49][50] 创意与控制功能 - 用户可对画面进行近乎分子级的操控,包括自由选取并重塑图像任意局部区域、切换摄像机角度、调整焦点位置、应用电影工业级调色以及重塑场景光照 [25][32] - 这些能力使模型从简单的图像生成工具跃升为支持创作者进行分镜级、视觉导演级创作的图像引擎,并可结合Veo 3模型生成电影风格视频 [26][29] 内容验证与透明度 - Gemini应用中加入新功能,用户可直接验证某张图像是否由Google AI生成或编辑,这一能力由SynthID数字水印技术实现 [54][56] - 自2023年推出以来,已有超过200亿份AI生成内容通过SynthID加上水印,通过Gemini API、Vertex AI等生成的Nano Banana Pro图像将嵌入C2PA元数据以提升透明度 [57] 产品部署与可用性 - 模型在多个Google产品中上线,面向消费者与学生的Gemini App在选择“Create images”并使用“Thinking”模型时将在全球陆续上线,免费用户获得有限免费额度,订阅用户获得更高额度 [59][61] - 面向专业人士,Google Ads将升级图像生成功能至Nano Banana Pro,广告主可在Asset Studio中使用最前沿的生成与编辑能力 [60] - 面向开发者与企业,模型可通过Gemini API、Google AI Studio和Vertex AI以付费预览形式使用,企业可立即在Vertex AI中开始大规模内容创作支持 [65][66] - 建议使用Nano Banana(Gemini 2.5 Flash Image)获取更快、更低成本的图像生成/编辑,使用Nano Banana Pro处理更复杂、要求更高的任务,但成本与延迟也更高 [70]
淘宝闪购骑士将登上《福布斯》封面;京东官宣进军团播 | 早资道
搜狐财经· 2025-08-27 19:24
淘宝平台品牌与社会责任行动 - 淘宝闪购城市骑士登上《福布斯》中文杂志封面 代表"城市骑士・橙意计划"展现新时代劳动者风采 [3] - 平台为骑士提供升级装备和社保补贴以提升保障与福利 [3] 电商直播业务创新 - 京东全球购宣布于七夕活动期间首次开启团播试水 时间为8月28日晚8点 [4] - 采用业内知名男团与女团进驻直播间同步PK形式进行团播 [4] 云计算服务定价策略 - 阿里云百炼平台对部分模型上下文缓存实施降价 命中缓存输入Token单价从input_token单价40%降至20% [5] - 未命中缓存输入Token仍按标准input_token计费 [5] 人工智能技术进展 - 谷歌正式发布图像生成模型Gemini 2.5 Flash Image 具备角色一致性保持与多图融合能力 [6] - 该模型在LMArena基准测试位列AI图像编辑榜首 API定价为每百万输出token 30美元 [6] 消费电子产品发布计划 - 苹果公司宣布于北京时间9月10日凌晨1点举行秋季发布会 [7] - 预计将推出iPhone 17系列产品 [7]
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
AI前线· 2025-05-30 13:38
公司动态 - Black Forest Labs(BFL)发布全新图像生成模型FLUX1 Kontext,支持文本和图像输入实现基于上下文的生成和编辑[1] - 该模型通过流匹配架构统一图像生成和编辑功能,在1MP分辨率下保持3~5秒交互速度,实现跨多轮编辑的顶尖字符一致性[3] - 公司推出BFL Playground供用户测试,并发布两个商业版本FLUX1 Kontext [pro]和[max],已在KreaAI等平台上线[3] 技术特性 - FLUX1 Kontext支持基于参考图像的上下文生成,避免从零开始创作[4] - 四大核心能力包括:角色一致性、局部编辑、风格迁移和低延迟输出(具体数值未披露)[7] - 采用流模型架构,与Diffusion模型技术路线不同,实现更灵活的噪声数据路径学习[19] - 在文生图基准测试中,模型在美观度、提示词遵循性等维度达到顶尖水平[20] 公司背景 - BFL成立于2023年8月,由Stable Diffusion核心开发者Robin Rombach创立,团队包含12名前Stability AI员工[6][14] - 已完成3100万美元种子轮融资,投资方包括General Catalyst和Andreessen Horowitz[6][15] - 目前团队规模30人,正在德国和美国招聘6个远程技术岗位[14] 产品矩阵 - FLUX1 Kontext [pro]定位快速迭代编辑,速度较先进模型快一个数量级[17] - [max]版本在保持速度的同时提升提示词遵循性和编辑一致性[17] - 即将推出12B参数的开放权重版本FLUX1 Kontext [dev][18] 市场反馈 - 用户实测显示模型可在10秒内完成头像生成/编辑,接近实拍效果[23] - 局部编辑能力获认可,能实现像素级修改(如添加绿龙案例)[28] - 此前发布的Flux 11 Pro模型已通过API集成至第三方应用[22] 行业竞争 - 需直面MidJourney、Adobe Firefly等成熟产品的竞争,后者已具备参考图编辑功能[17] - 技术路线差异化为竞争优势,流模型架构区别于主流Diffusion方案[19]