GPT Image 2 模型的技术突破与团队背景 - 模型底层架构已被彻底重构,被团队负责人神秘地描述为“通用模型”或“图像领域的GPT”,但未明确是否采用扩散或自回归技术 [1][2] - 模型实现了从“画得出来、画得清楚、画得好看”到“画得准”的跨越,正在消除用户意图与模型产出之间的差距 [29][30][68] - 该突破性成果由一支仅13人的核心团队在四个月内完成,从GPT Image 1.5(2024年12月底)到GPT Image 2仅用了四个月 [4][6] 核心团队成员的技术专长与贡献 - 研究负责人陈博远:博士期间的研究“Diffusion Forcing”将逐token扩散与因果下一个token预测结合,融合了自回归与扩散模型的优势;在谷歌实习期间开发的指令微调技术被Gemini 2.0采用;2025年6月加入公司后负责所有图像生成模型的训练 [12][17][18] - 成员Jianfeng Wang:负责提升模型的指令遵循与世界知识理解能力,使模型能精准生成不同时间(如2:25、3:30)的时钟,并理解复杂空间布局指令;此前在微软工作近9年,并与公司在DALL-E-3项目上有合作 [20][22][26][27][29] - 成员Yuguang Yang:负责生成高精度复杂信息图表和PPT,例如可将75页的GPT-3论文自动总结为7张幻灯片,旨在为科研人员节省大量时间 [31][33][43] - 成员Weixin Liang:在Meta实习期间的研究“Mixture-of-Transformers”通过模态解耦的MoE和解耦注意力,显著降低了多模态模型预训练的计算成本 [59][60] - 团队负责人Gabriel Goh:自2019年加入公司,从DALL-E开始全程参与了多模态系列研究,早期研究聚焦于可解释性和凸优化 [52][53][54] - 其他关键成员:包括来自Luma AI参与过Dream Machine训练的Ayaan Haque、来自谷歌参与过Imagen3和Gemini的Bing Liang、以及团队中的提示词大师Kiwhan Song [64][65][67] 模型展现的具体能力与数据 - 空间与度量理解:通过构建互联网规模的3D空间推理VQA数据集(包含1000万图像、20亿QA对),使模型能从单张2D图像输出米制距离、尺寸、方位等精确数值,该能力已应用于具身智能领域 [14][15] - 多语言文本渲染:能够精准无误地生成包含不同语言(如韩文、孟加拉语)文字的海报 [18] - 复杂指令遵循:能够精准执行包含多个对象复杂空间布局(如苹果在中心、杯子在右边)的指令 [26] 公司的研发文化与团队构成 - 公司文化倡导自下而上的涌现式研究,不限制专业、欢迎跨界,能持续吸引有个性的人才 [70] - 团队成员的背景高度多元化且跨界,例如Yuguang Yang本科学习工程,博士研究计算化学物理与机器学习,曾从事量化分析、Alexa语音研究、Bing搜索理解等工作 [36][37][38][39][40] - 成功的研发模式通常始于小团队取得突破,随后公司倾斜更多资源进行扩大 [71]
半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神
量子位·2026-04-23 08:00