GPT Image 2研究科学家陈博远:我在OpenAI修中文
量子位·2026-05-01 10:15

GPT Image 2模型发布与幕后技术细节 - 公司发布了GPT Image 2生图模型,该模型的发布在AI领域引起了广泛关注 [1] - 模型的主要训练者陈博远在发布会上与山姆·奥特曼共同主持,并重点修复了模型的中文渲染能力 [2][4] - 模型在发布前以“布基胶带”为代号在LMArena平台上进行了双盲测试,测试结果“断崖领先”代号为“小香蕉”的第二名模型 [5][9] 模型能力展示与创意测试 - 公司官网的整个博客内容均由该图片生成模型生成,完全没有使用文本 [12] - 为展示模型的文字渲染与细节能力,设计者制作了包含多国语言、特别小的中文以及“米粒刻字”的图片,其中“米粒刻字”测试使用了4K分辨率图片 [15][21] - 为测试模型的视觉推理能力,设计者使用了“从1开始的奇数之和是一个平方”的视觉证明题,这需要模型理解图形而不仅仅是代数 [30] - 模型展示了生成“画中画中画”的复杂嵌套图像能力,整张图一次性生成,旨在模拟对一本真实漫画书拍摄的照片效果 [16][17] - 模型能够结合真实物体与艺术布局进行创作,并展示了其搜索能力,例如根据官网商店内容生成海报,以及在思考模式下自动生成内含彩蛋的二维码 [26][32] 设计理念与彩蛋 - 设计过程中融入了大量幽默元素和文化梗,例如“接住梗”、“香蕉梗”以及引用世界闻名的“用布基胶带把香蕉贴在墙上”的艺术品 [7][9][15] - 设计了一系列“彩蛋级”测试,包括漫画套娃、视觉证明题等,以秀出模型的独特能力 [2] - 部分创意设计(如与香蕉相关的搞笑漫画)因考虑官网展示的适宜性而未被采用,最终选择了其他方式将漫画与GPT生图联系 [23] - 设计理念强调让生成图片看起来像是拍摄的真实物体或场景,以体现模型对真实世界的还原能力和独特的设计感 [16][26]

GPT Image 2研究科学家陈博远:我在OpenAI修中文 - Reportify