“AI生图”做题家大赛，谁赢了？

AI图像生成模型竞争格局 - 谷歌于8月末发布Gemini 2.5 Flash Image模型（代号“纳米香蕉”），推动了AI手办图等应用的流行[2] - 9月初，字节跳动Seedream 4.0和生数科技Vidu Q1模型相继面世，标志着行业竞争在不到半个月内急剧升温[5] - 知名评测机构Artificial Analysis于9月12日发布消息称，字节跳动Seedream 4.0在文生图和图像编辑排行榜上超越谷歌纳米香蕉，位列榜首[8] 主要模型性能对比 - 在AI手办生成测试中，谷歌纳米香蕉生成的小猫手办质感更贴近真实手办，光线明暗处理得当[11] - 字节跳动Seedream 4.0在测试中出现对提示词理解有误的情况，例如将手办盒子生成人形玩偶而非小猫[11] - 生数科技Vidu Q1在测试中基本未对小猫进行手办材质调整，毛发质感与原始照片一致，效果最不理想[11] - 在建筑线稿转效果图测试中，Seedream 4.0首次生成效果惊艳，而纳米香蕉需二次提示才能生成真实效果图片[14] - 在文生图测试中，Seedream 4.0生成的家庭场景人物表情皆大欢喜，而纳米香蕉则添加了更多菜式，场景更贴近真实家常午饭[18] - 在图像融合测试中，Vidu Q1对人物处理较好但未理解电动车构造，Seedream 4.0生成严谨，纳米香蕉则出现理解偏差[21] 行业技术发展现状 - AI图像生成模型在文生图、参考生图、图像编辑等方面的能力实现飞跃式提升[21] - 当前模型相比早期产品，在理解能力、出图速度、画面真实性和清晰度上均有显著突破[21] - 模型最终生成效果与提示词紧密相关，提示词描述简单可能导致AI理解出现误差[21] - AI生图能力考察涵盖一致性、真实性、清晰度、语义理解和美学等多个维度[21]