OpenAI GPT-4o图像生成功能升级 - OpenAI在3月25日宣布其最新多模态模型GPT-4o正式集成“迄今为止最先进的图像生成器”并开放免费使用,此举被业界视为对同日谷歌发布的Gemini 2.5 Pro Experimental模型的直接狙击,标志着生成式AI竞赛进入白热化阶段 [3] - GPT-4o的图像生成功能擅长准确呈现文本并精准遵循提示词,其知识库和聊天上下文可作为灵感来源,该功能供ChatGPT Plus、Pro、Team和免费用户使用,并计划随后向企业、教育和API使用者推出 [4] - 该功能攻克了“生成图像中的文字”这一行业历史难题,在示例中能按要求生成包含复杂场景和文字的图像,并在连续修改指令时保持图像中人物身形、发型和板上文字的连贯一致性 [4] GPT-4o图像生成功能的技术特点与限制 - 在训练上,OpenAI使用网络上的图像和文本训练模型,使其学习图像与文字、图像与图像之间的关系,从而具备视觉流畅性,生成有用且具备上下文连贯性的图片 [5] - 功能特点包括:用户可通过自然对话要求模型改进图像,并保持图像中人物等要素的一致性;可同时处理10到20个不同的对象,以便图像中各要素呈现相关性,而其他系统通常只能同时处理5到8个对象 [5] - 该功能也存在一些限制,例如存在幻觉、难以呈现太多依赖知识库的图像要素(如元素周期表)、图表准确性不足、呈现非拉丁语言时易出现幻觉、以及难以精准编辑图像中的错别字 [6] - 有从业者评价,GPT-4o图像生成功能虽强大,但完全替代UI设计师尚早,创意和细节仍需人力,并比喻其为“88分的设计流,剩下12分才是设计师的真正价值” [6] OpenAI的GPT-5发展路线图与挑战 - OpenAI在更新GPT-4o后,更大的产品更新将是推出GPT-5,公司首席执行官山姆·奥尔特曼在2月表示,GPT-5将集成公司多项技术,包括推理模型o3的技术,并可能在未来几个月内推出 [6] - 奥尔特曼突然官宣GPT路线图,或许是因为OpenAI面临用户流失的压力,其本人表示,DeepSeek让OpenAI的领先优势不会像前几年那么大,并承认公司在开源策略上可能站在了历史的错误一边 [6] - 据《华尔街日报》报道,OpenAI内部代号为“猎户座”的GPT-5项目开发已持续近两年,目前面临严峻挑战,原计划2024年年中完成,但进度已严重滞后 [7] - 项目已进行至少两次大型训练,每次需数月处理大量数据,目标是让GPT-5在某些任务上达到博士水平,而GPT-4仅相当于优秀高中生,但训练每次都会出现新问题,软件达不到研究人员预期 [7] - 东吴证券研报判断,OpenAI对大模型产品线预期进行过调整,GPT-5的发布时间或提前,可能是由于DeepSeek近期的重磅更新和亮眼表现对OpenAI产品版图构成威胁,进而希望加快产品迭代步伐 [7] 外部竞争:谷歌发布Gemini 2.5 - 在OpenAI宣布更新前约一小时,谷歌正式推出了新一代AI模型Gemini 2.5,该模型基于多模态大语言框架升级,显著增强了推理能力、多语言支持及长文本处理能力 [8] - 谷歌将Gemini 2.5定义为公司迄今为止“最智能的AI模型”,其Gemini 2.5 Pro实验版本在多项基准测试中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1 [8] - 通过优化算法架构,Gemini 2.5将响应速度提升40%,能耗降低25%,在关键指标测试中,其复杂逻辑任务完成度较前代提升65%,尤其在医疗诊断辅助、法律文书生成等垂直领域展现出更高精度 [8] - Gemini 2.5 Pro支持文本、图像、音频、视频及代码的多模态输入,上下文窗口达100万token(约75万单词),可解析完整《指环王》系列文本,未来将升级至200万token [8] - 该模型一经发布便在各大基准测试中全面领先,在所有测试中都稳居第一,包括常见的编程、数学和科学基准测试 [9] - 在推理能力方面,Gemini 2.5 Pro在一系列需要高级推理的基准测试中都处于领先地位,在“人类最后考试”中,它在未使用工具的模型中也获得了18.8%的最高分数,这是目前最先进的成绩 [9] 行业趋势与展望 - AI图像生成领域持续发展,国内厂商如豆包在去年升级文生图能力支持一键生成指定文本,智谱AI在今年3月发布了首个支持生成汉字的开源文生图模型CogView4 [5] - 研究机构Gartner预测,到2026年,多模态生成模型的商业价值将占AI市场的45% [10] - 随着谷歌与微软等巨头持续加码,生成式AI正从通用工具向产业基础设施演变,但其社会伦理、监管框架的完善也有待各方共同探索 [10]
文生图功能升级 ChatGPT追击