OpenAI发布GPT Image 1.5图像模型 - 公司于近期发布了新一代旗舰图像模型ChatGPT Images,即GPT Image 1.5 [1][2] - 该模型在多项基准测试中表现突出,在LMArena文生图榜单以1264 Elo分排名第一,力压谷歌Nano Banana Pro的1235分 [6][8] - 在Artificial Analysis榜单上,该模型在文生图和图像编辑两个领域均获得第一,实现“双料第一” [6][11] 模型核心性能与功能升级 - 模型指令理解力大幅提升,能够实现精准的“指哪改哪”编辑 [3] - 图像生成速度较前代提升了整整4倍 [3] - 模型在多轮编辑中能保持图像元素的一致性,例如光线、构图和人物样貌 [21][56] - 新模型在细节保留和画面质感上有所提升,被描述为“细节狂魔” [3] - 模型具备强大的创意生成能力,可进行概念转换、风格滤镜应用及复杂场景构建 [24][57][59][63][65][67][70][72][74][79][82][84][87] 技术能力的具体展示 - 模型能准确处理包含36个指定元素的6x6网格图,展示了精准的构图能力 [88][90][92] - 在文字渲染方面有进步,能处理更密集、字号更小的文本,并能生成包含清晰文本的信息图和编程界面 [92][95][97][100] - 在人脸生成和复杂场景(如“人山人海的大场面”)上,新版模型比旧版更逼真、自然 [104][106][108][110] - 模型能完成复杂的图像编辑链,例如基于一张图进行多次连贯修改 [26][28][30][32][33][36][38][46][48][50][52][54] 产品发布与市场策略 - 从发布日起,所有ChatGPT免费用户即可使用该图像生成功能,开发者也可直接调用GPT Image 1.5 API [3] - API价格较GPT Image 1便宜了20%,有助于客户以相同预算生成更多图像 [123] - 此次更新被视为对谷歌近期发布Gemini 3和Nano Banana Pro的竞争回应 [1][127][128] - 公司应用CEO Fidji Simo表示,此次升级是ChatGPT从纯文本产品向直观、多模态智能助手转变的关键一环 [131][133] 模型存在的局限与社区反馈 - 尽管基准测试分数领先,但社区实测反馈存在落差,有用户认为其实际生成能力,特别是在处理手写体等复杂指令时,不及谷歌Nano Banana Pro [12][15][17] - 模型在生成某些特定艺术风格(如日漫风、黑暗奇幻动漫风)时,能力相比旧版有所退步 [115][117] - 模型无法可靠地编辑多人合影中所有人物的面部特征,容易导致人脸走形 [118][120] - 在多语言文字渲染,特别是中文、阿拉伯语和希伯来语方面,存在明显问题 [120][122] - 社区中有批评声音认为该版本是“高分低能”、“令人尴尬且毫无意义的发布”,并指出其内容审查比竞品Nano Banana Pro更严格 [12][17][135][136][137][138][139] 行业竞争格局 - AI图像模型竞争已进入白热化阶段,主要厂商目标明确为赢得企业市场 [130] - OpenAI面临来自谷歌(Gemini系列)、Black Forest Labs(开源模型Flux.2)以及Qwen-Image等多方竞争 [128][130] - 谷歌即将发布的Gemini 3.0 Flash可能具备更快速度和更低价格,对OpenAI构成持续压力 [1][149]
跑分第一,实战拉胯,GPT Image 1.5被骂惨,奥特曼这波悬了