人工智能图像模型 - 财报，业绩电话会，研报，新闻

人工智能图像模型

搜索文档

程序员的那些事· 2025-12-20 10:10

产品发布与核心特性 - OpenAI发布新一代旗舰图像模型ChatGPT Images，其核心模型GPT Image 1.5在多项能力上实现显著提升 [3][4] - 新模型具备精准操控能力，指令理解力大幅提升，能做到“指哪改哪”，并在多轮编辑中保持图像元素的一致性 [6][28][67] - 新模型在细节保留和质感呈现上表现突出，被描述为“细节狂魔” [6] - 图像生成速度较前代提升了整整4倍 [6] - 所有ChatGPT免费用户即可使用该功能，开发者也可直接调用GPT Image 1.5 API [4] 基准测试表现与市场反馈 - 在Artificial Analysis的LMARENA.AI榜单上，GPT Image 1.5以1264 Elo分在文生图（Text-to-Image）类别中排名第一 [10][11][15] - 在图像编辑（Image Editing）类别中，chatgpt-image-latest以3分优势险胜谷歌Nano Banana Pro夺冠，GPT Image 1.5位列第4 [15] - 然而，网友实测后评价出现反转，认为其存在“高分低能”的问题，尤其在处理手写体笔记等需要理解上下文的任务时表现不佳，智商“惨遭碾压” [12][13][14] - 社区出现激烈吐槽，有人直言“谷歌Nano Banana Pro依然是王者”，并批评此次发布“令人尴尬、且毫无意义” [20][21] 技术能力演示：图像编辑与创意生成 - 模型擅长进行添加、删减、组合、融合和置换等复杂图像“手术”，并能保持原图的“味道” [37][38] - 演示案例包括：对一张生日会图片进行多轮“连环编辑”，如添加背景人物、将人物改为动漫脸、将狗改为毛绒公仔、为所有人换上定制毛衣等 [39][44][45][48] - 另一案例展示了从生成一张90年代末纪实风格的滑板照片开始，逐步编辑人物服装颜色、添加围观群众、老鹰和飞艇等元素，最终将完整画面印制在T恤上并让角色穿上的全过程 [55][58][61][64][66] - 模型在创意“大变身”方面表现耀眼，例如将人物合影转换为老派好莱坞电影海报、将人物转换为80年代VHS风格的健身教练、生成“刻薄辣妹”风格的3D头像等 [68][71][73][77][80][82] - 其他创意演示包括：将人物变成光面玻璃挂饰、进行极简主义时尚广告改造、放入芭比换装游戏界面、融入经典画作《戴珍珠耳环的少女》以及制作复古汽水广告 [85][87][90][92][96][99][103][105][107] 技术能力演示：构图、文本与综合画质 - 模型在理解复杂指令和精准构图方面能力增强，能够丝滑且准确地生成包含36个指定元素的6x6网格图 [109][111] - 在文本渲染上取得进步，能够处理更密集、字号更小的文本，并能生成包含复杂表格（如GPT-5.2性能数据表）、卡路里信息图乃至编程界面的图像 [113][114][116][117][121][123] - 在人物面部生成上更自然逼真，生成1970年代伦敦街景时，新版模型在人物细节上优于旧版 [125][126][127] - 在处理“大场面”（如金门大桥前数万人场景）时，新版模型的人物生成更逼真自然 [129][131] - 在特定场景（如海底弹钢琴、带有眩光的老照片）的写实感和细节上，新版模型优于旧版 [132][134][136] 产品局限性与已知问题 - 在生成某些特定艺术风格（如精细的日系动漫风、黑暗奇幻动漫风）时，能力相比旧版本有所退步 [137][138][140][141][143] - 无法可靠地编辑多人合影，处理后的人脸特征容易走形 [145][148][149] - 在多语言文字渲染上问题重重，中文生成效果差，对阿拉伯语和希伯来语等非英语语言支持不佳 [149][152] - OpenAI建议用户可尝试使用“图片”功能里的预设滤镜来改善风格生成，同时旧版ChatGPT Images已做成自定义GPT供用户选择使用 [144] 商业策略与市场竞争 - 通过API提供的GPT Image 1.5，其图像输入和输出价格相比GPT Image 1便宜了20% [153] - 此次更新被视为对谷歌新旗舰模型Gemini 3和图像生成工具Nano Banana Pro的强势回击，后者在多个基准测试中登顶并拥有良好开发者口碑 [160][162][164] - OpenAI近期加速产品节奏，大约5天前发布了GPT-5.2，紧接着又推出升级版图像模型，以应对谷歌等竞争对手的步步紧逼 [163] - 除了谷歌，公司还面临来自其他对手的竞争，如已支持中英文可读文字生成的Qwen-Image和实力不俗的开源模型Flux.2 [165][167] - AI图像模型之争已进入白热化阶段，核心目标是赢得企业市场 [168] - 公司高管Fidji Simo透露，正在全面升级ChatGPT的视觉体验，推动其从基于文本的产品向更直观、多模态的智能助手转变，未来将在搜索中提供更多可视化信息 [172][173][174] 行业影响与社区反应 - 此次发布与之前GPT-5.2的发布一样，引发了全网差评，被部分观点认为在真实测试中不敌谷歌产品 [25] - 有网友制作梗图（如用悲伤蛙恶搞奥特曼）来嘲讽OpenAI，社区存在认为OpenAI“黔驴技穷”、“彻底完了”的尖锐批评 [175][178][180][181] - 但也有网友认可其部分生成效果，例如生成的“马斯克和奥特曼圣诞合影”被评价为逼真到看不出破绽 [187] - 考虑到谷歌Gemini 3.0 Flash即将发布，其图像生成功能可能更快、更便宜，市场对OpenAI此次更新的有效性存在质疑 [189] - 行业观察认为，OpenAI因市场竞争拉响的“紧急警报”一时不会停止 [191]

OpenAI图像模型实测口碑两极分化，被调侃“画风辣眼”

第一财经· 2025-12-17 16:37

OpenAI发布新一代图像模型GPT Image 1.5 - OpenAI抢先发布新一代图像模型GPT Image 1.5，对标谷歌的Nano Banana [3] - 模型在竞技场Artificial Analysis的文生图和图像编辑两项功能上均位列第一，超越了排在第二的Nano Banana Pro [8] - 在文生图项目中，领先优势达46分，在图像编辑则只高出了4分 [8] 模型性能与定价 - 新一代模型具备更强的指令遵循，更精准的图像编辑，能较好地保留细节，生成速度是上一代模型的4倍 [8] - 实施了降价措施，GPT Image 1.5中的图像输入和输出比上一代便宜了20% [8] - GPT Image 1.5按token定价，高质量1MP图像的价格约为每千张133美元，低质量每千张9美元 [8] 与谷歌Nano Banana Pro的对比测试 - 实际用户测试反馈呈现两极分化，不少人认为其AI味较重 [3] - 测试显示GPT Image 1.5在画面质感和提示词遵循上表现更好，但对中文支持明显不足，生成文字错误频出 [11] - Nano Banana Pro在文字准确性上占优，却在构图指令遵循上屡屡失误 [11] - 从整体审美来看，GPT Image 1.5的输出更符合大众喜好，但在准确性和中文支持上，Nano Banana Pro略胜一筹 [17] 用户反馈与行业评价 - 更多普遍的反馈是，ChatGPT的图片看起来比谷歌的Nano Banana Pro假得多 [24] - 在特定测试中，Nano Banana Pro生成的图片背景细节很多，难辨真假，而GPT Image 1.5因背景虚化过度美化而被识别出“AI味儿” [24] - 有行业人士认为，Nano Banana Pro在真实感与自然度上的优势，对电商、创意等落地场景更为有利 [27] - 此次旗舰图像模型的更新被认为是对谷歌的一次回击，但目前用户实际评价两极分化 [27] 行业竞争背景 - 谷歌此前发布的Gemini 3系列模型，给OpenAI带来了近两年最大的逆风挑战 [27] - OpenAI随后拉响“红色警报”应对谷歌竞争，并在一周前推出了GPT-5.2反击，虽然评分不错但用户差评如潮 [27] - 谷歌Nano Banana系列模型已经拉高了用户的预期，此次更新也并不是行业一次颠覆式的飞跃 [27]

跑分第一，实战拉胯，GPT Image 1.5被骂惨，奥特曼这波悬了

36氪· 2025-12-17 16:27

OpenAI发布GPT Image 1.5图像模型 - 公司于近期发布了新一代旗舰图像模型ChatGPT Images，即GPT Image 1.5 [1][2] - 该模型在多项基准测试中表现突出，在LMArena文生图榜单以1264 Elo分排名第一，力压谷歌Nano Banana Pro的1235分 [6][8] - 在Artificial Analysis榜单上，该模型在文生图和图像编辑两个领域均获得第一，实现“双料第一” [6][11] 模型核心性能与功能升级 - 模型指令理解力大幅提升，能够实现精准的“指哪改哪”编辑 [3] - 图像生成速度较前代提升了整整4倍 [3] - 模型在多轮编辑中能保持图像元素的一致性，例如光线、构图和人物样貌 [21][56] - 新模型在细节保留和画面质感上有所提升，被描述为“细节狂魔” [3] - 模型具备强大的创意生成能力，可进行概念转换、风格滤镜应用及复杂场景构建 [24][57][59][63][65][67][70][72][74][79][82][84][87] 技术能力的具体展示 - 模型能准确处理包含36个指定元素的6x6网格图，展示了精准的构图能力 [88][90][92] - 在文字渲染方面有进步，能处理更密集、字号更小的文本，并能生成包含清晰文本的信息图和编程界面 [92][95][97][100] - 在人脸生成和复杂场景（如“人山人海的大场面”）上，新版模型比旧版更逼真、自然 [104][106][108][110] - 模型能完成复杂的图像编辑链，例如基于一张图进行多次连贯修改 [26][28][30][32][33][36][38][46][48][50][52][54] 产品发布与市场策略 - 从发布日起，所有ChatGPT免费用户即可使用该图像生成功能，开发者也可直接调用GPT Image 1.5 API [3] - API价格较GPT Image 1便宜了20%，有助于客户以相同预算生成更多图像 [123] - 此次更新被视为对谷歌近期发布Gemini 3和Nano Banana Pro的竞争回应 [1][127][128] - 公司应用CEO Fidji Simo表示，此次升级是ChatGPT从纯文本产品向直观、多模态智能助手转变的关键一环 [131][133] 模型存在的局限与社区反馈 - 尽管基准测试分数领先，但社区实测反馈存在落差，有用户认为其实际生成能力，特别是在处理手写体等复杂指令时，不及谷歌Nano Banana Pro [12][15][17] - 模型在生成某些特定艺术风格（如日漫风、黑暗奇幻动漫风）时，能力相比旧版有所退步 [115][117] - 模型无法可靠地编辑多人合影中所有人物的面部特征，容易导致人脸走形 [118][120] - 在多语言文字渲染，特别是中文、阿拉伯语和希伯来语方面，存在明显问题 [120][122] - 社区中有批评声音认为该版本是“高分低能”、“令人尴尬且毫无意义的发布”，并指出其内容审查比竞品Nano Banana Pro更严格 [12][17][135][136][137][138][139] 行业竞争格局 - AI图像模型竞争已进入白热化阶段，主要厂商目标明确为赢得企业市场 [130] - OpenAI面临来自谷歌（Gemini系列）、Black Forest Labs（开源模型Flux.2）以及Qwen-Image等多方竞争 [128][130] - 谷歌即将发布的Gemini 3.0 Flash可能具备更快速度和更低价格，对OpenAI构成持续压力 [1][149]