Workflow
人工智能图像模型
icon
搜索文档
跑分第一,实战拉胯!GPT Image 1.5被骂惨,奥特曼这波悬了
程序员的那些事· 2025-12-20 10:10
产品发布与核心特性 - OpenAI发布新一代旗舰图像模型ChatGPT Images,其核心模型GPT Image 1.5在多项能力上实现显著提升 [3][4] - 新模型具备精准操控能力,指令理解力大幅提升,能做到“指哪改哪”,并在多轮编辑中保持图像元素的一致性 [6][28][67] - 新模型在细节保留和质感呈现上表现突出,被描述为“细节狂魔” [6] - 图像生成速度较前代提升了整整4倍 [6] - 所有ChatGPT免费用户即可使用该功能,开发者也可直接调用GPT Image 1.5 API [4] 基准测试表现与市场反馈 - 在Artificial Analysis的LMARENA.AI榜单上,GPT Image 1.5以1264 Elo分在文生图(Text-to-Image)类别中排名第一 [10][11][15] - 在图像编辑(Image Editing)类别中,chatgpt-image-latest以3分优势险胜谷歌Nano Banana Pro夺冠,GPT Image 1.5位列第4 [15] - 然而,网友实测后评价出现反转,认为其存在“高分低能”的问题,尤其在处理手写体笔记等需要理解上下文的任务时表现不佳,智商“惨遭碾压” [12][13][14] - 社区出现激烈吐槽,有人直言“谷歌Nano Banana Pro依然是王者”,并批评此次发布“令人尴尬、且毫无意义” [20][21] 技术能力演示:图像编辑与创意生成 - 模型擅长进行添加、删减、组合、融合和置换等复杂图像“手术”,并能保持原图的“味道” [37][38] - 演示案例包括:对一张生日会图片进行多轮“连环编辑”,如添加背景人物、将人物改为动漫脸、将狗改为毛绒公仔、为所有人换上定制毛衣等 [39][44][45][48] - 另一案例展示了从生成一张90年代末纪实风格的滑板照片开始,逐步编辑人物服装颜色、添加围观群众、老鹰和飞艇等元素,最终将完整画面印制在T恤上并让角色穿上的全过程 [55][58][61][64][66] - 模型在创意“大变身”方面表现耀眼,例如将人物合影转换为老派好莱坞电影海报、将人物转换为80年代VHS风格的健身教练、生成“刻薄辣妹”风格的3D头像等 [68][71][73][77][80][82] - 其他创意演示包括:将人物变成光面玻璃挂饰、进行极简主义时尚广告改造、放入芭比换装游戏界面、融入经典画作《戴珍珠耳环的少女》以及制作复古汽水广告 [85][87][90][92][96][99][103][105][107] 技术能力演示:构图、文本与综合画质 - 模型在理解复杂指令和精准构图方面能力增强,能够丝滑且准确地生成包含36个指定元素的6x6网格图 [109][111] - 在文本渲染上取得进步,能够处理更密集、字号更小的文本,并能生成包含复杂表格(如GPT-5.2性能数据表)、卡路里信息图乃至编程界面的图像 [113][114][116][117][121][123] - 在人物面部生成上更自然逼真,生成1970年代伦敦街景时,新版模型在人物细节上优于旧版 [125][126][127] - 在处理“大场面”(如金门大桥前数万人场景)时,新版模型的人物生成更逼真自然 [129][131] - 在特定场景(如海底弹钢琴、带有眩光的老照片)的写实感和细节上,新版模型优于旧版 [132][134][136] 产品局限性与已知问题 - 在生成某些特定艺术风格(如精细的日系动漫风、黑暗奇幻动漫风)时,能力相比旧版本有所退步 [137][138][140][141][143] - 无法可靠地编辑多人合影,处理后的人脸特征容易走形 [145][148][149] - 在多语言文字渲染上问题重重,中文生成效果差,对阿拉伯语和希伯来语等非英语语言支持不佳 [149][152] - OpenAI建议用户可尝试使用“图片”功能里的预设滤镜来改善风格生成,同时旧版ChatGPT Images已做成自定义GPT供用户选择使用 [144] 商业策略与市场竞争 - 通过API提供的GPT Image 1.5,其图像输入和输出价格相比GPT Image 1便宜了20% [153] - 此次更新被视为对谷歌新旗舰模型Gemini 3和图像生成工具Nano Banana Pro的强势回击,后者在多个基准测试中登顶并拥有良好开发者口碑 [160][162][164] - OpenAI近期加速产品节奏,大约5天前发布了GPT-5.2,紧接着又推出升级版图像模型,以应对谷歌等竞争对手的步步紧逼 [163] - 除了谷歌,公司还面临来自其他对手的竞争,如已支持中英文可读文字生成的Qwen-Image和实力不俗的开源模型Flux.2 [165][167] - AI图像模型之争已进入白热化阶段,核心目标是赢得企业市场 [168] - 公司高管Fidji Simo透露,正在全面升级ChatGPT的视觉体验,推动其从基于文本的产品向更直观、多模态的智能助手转变,未来将在搜索中提供更多可视化信息 [172][173][174] 行业影响与社区反应 - 此次发布与之前GPT-5.2的发布一样,引发了全网差评,被部分观点认为在真实测试中不敌谷歌产品 [25] - 有网友制作梗图(如用悲伤蛙恶搞奥特曼)来嘲讽OpenAI,社区存在认为OpenAI“黔驴技穷”、“彻底完了”的尖锐批评 [175][178][180][181] - 但也有网友认可其部分生成效果,例如生成的“马斯克和奥特曼圣诞合影”被评价为逼真到看不出破绽 [187] - 考虑到谷歌Gemini 3.0 Flash即将发布,其图像生成功能可能更快、更便宜,市场对OpenAI此次更新的有效性存在质疑 [189] - 行业观察认为,OpenAI因市场竞争拉响的“紧急警报”一时不会停止 [191]
OpenAI图像模型实测口碑两极分化,被调侃“画风辣眼”
第一财经· 2025-12-17 16:37
OpenAI发布新一代图像模型GPT Image 1.5 - OpenAI抢先发布新一代图像模型GPT Image 1.5,对标谷歌的Nano Banana [3] - 模型在竞技场Artificial Analysis的文生图和图像编辑两项功能上均位列第一,超越了排在第二的Nano Banana Pro [8] - 在文生图项目中,领先优势达46分,在图像编辑则只高出了4分 [8] 模型性能与定价 - 新一代模型具备更强的指令遵循,更精准的图像编辑,能较好地保留细节,生成速度是上一代模型的4倍 [8] - 实施了降价措施,GPT Image 1.5中的图像输入和输出比上一代便宜了20% [8] - GPT Image 1.5按token定价,高质量1MP图像的价格约为每千张133美元,低质量每千张9美元 [8] 与谷歌Nano Banana Pro的对比测试 - 实际用户测试反馈呈现两极分化,不少人认为其AI味较重 [3] - 测试显示GPT Image 1.5在画面质感和提示词遵循上表现更好,但对中文支持明显不足,生成文字错误频出 [11] - Nano Banana Pro在文字准确性上占优,却在构图指令遵循上屡屡失误 [11] - 从整体审美来看,GPT Image 1.5的输出更符合大众喜好,但在准确性和中文支持上,Nano Banana Pro略胜一筹 [17] 用户反馈与行业评价 - 更多普遍的反馈是,ChatGPT的图片看起来比谷歌的Nano Banana Pro假得多 [24] - 在特定测试中,Nano Banana Pro生成的图片背景细节很多,难辨真假,而GPT Image 1.5因背景虚化过度美化而被识别出“AI味儿” [24] - 有行业人士认为,Nano Banana Pro在真实感与自然度上的优势,对电商、创意等落地场景更为有利 [27] - 此次旗舰图像模型的更新被认为是对谷歌的一次回击,但目前用户实际评价两极分化 [27] 行业竞争背景 - 谷歌此前发布的Gemini 3系列模型,给OpenAI带来了近两年最大的逆风挑战 [27] - OpenAI随后拉响“红色警报”应对谷歌竞争,并在一周前推出了GPT-5.2反击,虽然评分不错但用户差评如潮 [27] - 谷歌Nano Banana系列模型已经拉高了用户的预期,此次更新也并不是行业一次颠覆式的飞跃 [27]
跑分第一,实战拉胯,GPT Image 1.5被骂惨,奥特曼这波悬了
36氪· 2025-12-17 16:27
OpenAI发布GPT Image 1.5图像模型 - 公司于近期发布了新一代旗舰图像模型ChatGPT Images,即GPT Image 1.5 [1][2] - 该模型在多项基准测试中表现突出,在LMArena文生图榜单以1264 Elo分排名第一,力压谷歌Nano Banana Pro的1235分 [6][8] - 在Artificial Analysis榜单上,该模型在文生图和图像编辑两个领域均获得第一,实现“双料第一” [6][11] 模型核心性能与功能升级 - 模型指令理解力大幅提升,能够实现精准的“指哪改哪”编辑 [3] - 图像生成速度较前代提升了整整4倍 [3] - 模型在多轮编辑中能保持图像元素的一致性,例如光线、构图和人物样貌 [21][56] - 新模型在细节保留和画面质感上有所提升,被描述为“细节狂魔” [3] - 模型具备强大的创意生成能力,可进行概念转换、风格滤镜应用及复杂场景构建 [24][57][59][63][65][67][70][72][74][79][82][84][87] 技术能力的具体展示 - 模型能准确处理包含36个指定元素的6x6网格图,展示了精准的构图能力 [88][90][92] - 在文字渲染方面有进步,能处理更密集、字号更小的文本,并能生成包含清晰文本的信息图和编程界面 [92][95][97][100] - 在人脸生成和复杂场景(如“人山人海的大场面”)上,新版模型比旧版更逼真、自然 [104][106][108][110] - 模型能完成复杂的图像编辑链,例如基于一张图进行多次连贯修改 [26][28][30][32][33][36][38][46][48][50][52][54] 产品发布与市场策略 - 从发布日起,所有ChatGPT免费用户即可使用该图像生成功能,开发者也可直接调用GPT Image 1.5 API [3] - API价格较GPT Image 1便宜了20%,有助于客户以相同预算生成更多图像 [123] - 此次更新被视为对谷歌近期发布Gemini 3和Nano Banana Pro的竞争回应 [1][127][128] - 公司应用CEO Fidji Simo表示,此次升级是ChatGPT从纯文本产品向直观、多模态智能助手转变的关键一环 [131][133] 模型存在的局限与社区反馈 - 尽管基准测试分数领先,但社区实测反馈存在落差,有用户认为其实际生成能力,特别是在处理手写体等复杂指令时,不及谷歌Nano Banana Pro [12][15][17] - 模型在生成某些特定艺术风格(如日漫风、黑暗奇幻动漫风)时,能力相比旧版有所退步 [115][117] - 模型无法可靠地编辑多人合影中所有人物的面部特征,容易导致人脸走形 [118][120] - 在多语言文字渲染,特别是中文、阿拉伯语和希伯来语方面,存在明显问题 [120][122] - 社区中有批评声音认为该版本是“高分低能”、“令人尴尬且毫无意义的发布”,并指出其内容审查比竞品Nano Banana Pro更严格 [12][17][135][136][137][138][139] 行业竞争格局 - AI图像模型竞争已进入白热化阶段,主要厂商目标明确为赢得企业市场 [130] - OpenAI面临来自谷歌(Gemini系列)、Black Forest Labs(开源模型Flux.2)以及Qwen-Image等多方竞争 [128][130] - 谷歌即将发布的Gemini 3.0 Flash可能具备更快速度和更低价格,对OpenAI构成持续压力 [1][149]