半壁华人！GPT Image 2团队曝光：无锡才俊带队，13人4个月封神

GPT Image 2 模型的技术突破与团队背景 - 模型底层架构已被彻底重构，被团队负责人神秘地描述为“通用模型”或“图像领域的GPT”，但未明确是否采用扩散或自回归技术 [1][2] - 模型实现了从“画得出来、画得清楚、画得好看”到“画得准”的跨越，正在消除用户意图与模型产出之间的差距 [29][30][68] - 该突破性成果由一支仅13人的核心团队在四个月内完成，从GPT Image 1.5（2024年12月底）到GPT Image 2仅用了四个月 [4][6] 核心团队成员的技术专长与贡献 - 研究负责人陈博远：博士期间的研究“Diffusion Forcing”将逐token扩散与因果下一个token预测结合，融合了自回归与扩散模型的优势；在谷歌实习期间开发的指令微调技术被Gemini 2.0采用；2025年6月加入公司后负责所有图像生成模型的训练 [12][17][18] - 成员Jianfeng Wang：负责提升模型的指令遵循与世界知识理解能力，使模型能精准生成不同时间（如2:25、3:30）的时钟，并理解复杂空间布局指令；此前在微软工作近9年，并与公司在DALL-E-3项目上有合作 [20][22][26][27][29] - 成员Yuguang Yang：负责生成高精度复杂信息图表和PPT，例如可将75页的GPT-3论文自动总结为7张幻灯片，旨在为科研人员节省大量时间 [31][33][43] - 成员Weixin Liang：在Meta实习期间的研究“Mixture-of-Transformers”通过模态解耦的MoE和解耦注意力，显著降低了多模态模型预训练的计算成本 [59][60] - 团队负责人Gabriel Goh：自2019年加入公司，从DALL-E开始全程参与了多模态系列研究，早期研究聚焦于可解释性和凸优化 [52][53][54] - 其他关键成员：包括来自Luma AI参与过Dream Machine训练的Ayaan Haque、来自谷歌参与过Imagen3和Gemini的Bing Liang、以及团队中的提示词大师Kiwhan Song [64][65][67] 模型展现的具体能力与数据 - 空间与度量理解：通过构建互联网规模的3D空间推理VQA数据集（包含1000万图像、20亿QA对），使模型能从单张2D图像输出米制距离、尺寸、方位等精确数值，该能力已应用于具身智能领域 [14][15] - 多语言文本渲染：能够精准无误地生成包含不同语言（如韩文、孟加拉语）文字的海报 [18] - 复杂指令遵循：能够精准执行包含多个对象复杂空间布局（如苹果在中心、杯子在右边）的指令 [26] 公司的研发文化与团队构成 - 公司文化倡导自下而上的涌现式研究，不限制专业、欢迎跨界，能持续吸引有个性的人才 [70] - 团队成员的背景高度多元化且跨界，例如Yuguang Yang本科学习工程，博士研究计算化学物理与机器学习，曾从事量化分析、Alexa语音研究、Bing搜索理解等工作 [36][37][38][39][40] - 成功的研发模式通常始于小团队取得突破，随后公司倾斜更多资源进行扩大 [71]