跑分第一,实战拉胯!GPT Image 1.5被骂惨,奥特曼这波悬了
程序员的那些事·2025-12-20 10:10

产品发布与核心特性 - OpenAI发布新一代旗舰图像模型ChatGPT Images,其核心模型GPT Image 1.5在多项能力上实现显著提升 [3][4] - 新模型具备精准操控能力,指令理解力大幅提升,能做到“指哪改哪”,并在多轮编辑中保持图像元素的一致性 [6][28][67] - 新模型在细节保留和质感呈现上表现突出,被描述为“细节狂魔” [6] - 图像生成速度较前代提升了整整4倍 [6] - 所有ChatGPT免费用户即可使用该功能,开发者也可直接调用GPT Image 1.5 API [4] 基准测试表现与市场反馈 - 在Artificial Analysis的LMARENA.AI榜单上,GPT Image 1.5以1264 Elo分在文生图(Text-to-Image)类别中排名第一 [10][11][15] - 在图像编辑(Image Editing)类别中,chatgpt-image-latest以3分优势险胜谷歌Nano Banana Pro夺冠,GPT Image 1.5位列第4 [15] - 然而,网友实测后评价出现反转,认为其存在“高分低能”的问题,尤其在处理手写体笔记等需要理解上下文的任务时表现不佳,智商“惨遭碾压” [12][13][14] - 社区出现激烈吐槽,有人直言“谷歌Nano Banana Pro依然是王者”,并批评此次发布“令人尴尬、且毫无意义” [20][21] 技术能力演示:图像编辑与创意生成 - 模型擅长进行添加、删减、组合、融合和置换等复杂图像“手术”,并能保持原图的“味道” [37][38] - 演示案例包括:对一张生日会图片进行多轮“连环编辑”,如添加背景人物、将人物改为动漫脸、将狗改为毛绒公仔、为所有人换上定制毛衣等 [39][44][45][48] - 另一案例展示了从生成一张90年代末纪实风格的滑板照片开始,逐步编辑人物服装颜色、添加围观群众、老鹰和飞艇等元素,最终将完整画面印制在T恤上并让角色穿上的全过程 [55][58][61][64][66] - 模型在创意“大变身”方面表现耀眼,例如将人物合影转换为老派好莱坞电影海报、将人物转换为80年代VHS风格的健身教练、生成“刻薄辣妹”风格的3D头像等 [68][71][73][77][80][82] - 其他创意演示包括:将人物变成光面玻璃挂饰、进行极简主义时尚广告改造、放入芭比换装游戏界面、融入经典画作《戴珍珠耳环的少女》以及制作复古汽水广告 [85][87][90][92][96][99][103][105][107] 技术能力演示:构图、文本与综合画质 - 模型在理解复杂指令和精准构图方面能力增强,能够丝滑且准确地生成包含36个指定元素的6x6网格图 [109][111] - 在文本渲染上取得进步,能够处理更密集、字号更小的文本,并能生成包含复杂表格(如GPT-5.2性能数据表)、卡路里信息图乃至编程界面的图像 [113][114][116][117][121][123] - 在人物面部生成上更自然逼真,生成1970年代伦敦街景时,新版模型在人物细节上优于旧版 [125][126][127] - 在处理“大场面”(如金门大桥前数万人场景)时,新版模型的人物生成更逼真自然 [129][131] - 在特定场景(如海底弹钢琴、带有眩光的老照片)的写实感和细节上,新版模型优于旧版 [132][134][136] 产品局限性与已知问题 - 在生成某些特定艺术风格(如精细的日系动漫风、黑暗奇幻动漫风)时,能力相比旧版本有所退步 [137][138][140][141][143] - 无法可靠地编辑多人合影,处理后的人脸特征容易走形 [145][148][149] - 在多语言文字渲染上问题重重,中文生成效果差,对阿拉伯语和希伯来语等非英语语言支持不佳 [149][152] - OpenAI建议用户可尝试使用“图片”功能里的预设滤镜来改善风格生成,同时旧版ChatGPT Images已做成自定义GPT供用户选择使用 [144] 商业策略与市场竞争 - 通过API提供的GPT Image 1.5,其图像输入和输出价格相比GPT Image 1便宜了20% [153] - 此次更新被视为对谷歌新旗舰模型Gemini 3和图像生成工具Nano Banana Pro的强势回击,后者在多个基准测试中登顶并拥有良好开发者口碑 [160][162][164] - OpenAI近期加速产品节奏,大约5天前发布了GPT-5.2,紧接着又推出升级版图像模型,以应对谷歌等竞争对手的步步紧逼 [163] - 除了谷歌,公司还面临来自其他对手的竞争,如已支持中英文可读文字生成的Qwen-Image和实力不俗的开源模型Flux.2 [165][167] - AI图像模型之争已进入白热化阶段,核心目标是赢得企业市场 [168] - 公司高管Fidji Simo透露,正在全面升级ChatGPT的视觉体验,推动其从基于文本的产品向更直观、多模态的智能助手转变,未来将在搜索中提供更多可视化信息 [172][173][174] 行业影响与社区反应 - 此次发布与之前GPT-5.2的发布一样,引发了全网差评,被部分观点认为在真实测试中不敌谷歌产品 [25] - 有网友制作梗图(如用悲伤蛙恶搞奥特曼)来嘲讽OpenAI,社区存在认为OpenAI“黔驴技穷”、“彻底完了”的尖锐批评 [175][178][180][181] - 但也有网友认可其部分生成效果,例如生成的“马斯克和奥特曼圣诞合影”被评价为逼真到看不出破绽 [187] - 考虑到谷歌Gemini 3.0 Flash即将发布,其图像生成功能可能更快、更便宜,市场对OpenAI此次更新的有效性存在质疑 [189] - 行业观察认为,OpenAI因市场竞争拉响的“紧急警报”一时不会停止 [191]