ChatGPT 4o图像生成功能重大升级,免费开放基础功能使用
界面新闻·2025-03-26 14:52
产品发布与核心功能升级 - 公司于当地时间3月25日正式推出基于GPT-4o模型的原生图像生成功能,不再调用独立的DALL-E文生图模型 [1] - 新功能利用GPT-4o的多模态能力,在图像生成时能更精确地遵循指示、渲染图像上的文字,并支持多轮迭代优化时保持角色形象一致 [1] - 公司CEO称GPT-4o为"有史以来最好的模型",并宣布将全面免费开放基础功能,同时API调用价格下调50% [1] 技术性能与市场定位 - 从官方示例看,新功能在生成黑板板书、印刷体、科学常识绘图等图像文字领域达到接近商用程度,解决了此前"理解提示词能力差"的问题 [1][2] - 此次技术升级被视为应对谷歌Gemini等竞品的技术压力,今年阿里巴巴、谷歌也先后推出了能准确生成文字的文生图模型 [2] - 公司承认新图像生成器存在局限性,会受到模型幻觉影响,在密集文字和非拉丁语文字图像生成方面易出问题 [1] 商业策略与用户覆盖 - 即日起,所有Plus、Pro、Team及免费用户将陆续在ChatGPT和Sora中体验该功能,企业版与教育版即将接入 [2] - 开发者即将通过API调用GPT-4o图像生成功能,接口权限将于未来数周内开放 [2] - 公司首席运营官表示在输出方面尊重艺术家权利,有政策防止生成直接模仿任何在世艺术家作品的图像,这与竞品Gemini 2.0 Flash图像组件缺乏防护措施形成对比 [2]