多模态文生图模型测评概述 - AI图片生成在工作和学习中显著提升效率 支持文生图的模型数量呈指数级增长[1] - 测评涵盖6个主流模型:腾讯混元、智谱CogView-4、通义千问、即梦、可灵和Gemini 2.5 Flash Image[3] - Gemini 2.5 Flash Image为Google发布产品 此前以nano-Banana名称在LMarena平台获得极高关注度[4][5] 基础美学与真实感测试 - 测试主题为"傍晚阳光下的少女" 要求超写实照片级输出[9] - 腾讯混元存在皮肤质感过于光滑问题[16] - 智谱CogView-4出现雀斑分布均匀化的人工痕迹[16] - 通义千问出现双手比例严重失真问题 被评价为"一眼AI"[16] - 即梦和可灵在该维度表现接近完美[16] - Gemini存在皮肤质感过于光滑问题 写实感不足[18] 想象力与创意测试 - 测试主题为"星云构成的雄狮" 要求呈现宇宙元素构成的生物形态[19] - 腾讯混元误生成宇宙材质雕像而非生命体[25] - 智谱CogView-4完全偏离概念 生成实体狮子[25] - 通义千问产生半实体半星云的混合效果[25] - 即梦生成科幻感十足但实体感过强的狮子[25] - 可灵成为本轮最佳 成功实现星云融合效果[25] - Gemini保持实体不透明但神韵细节表现良好[25] 指令理解与执行力测试 - 测试主题为"水果篮里的数学题" 要求精确呈现三个红苹果和两个黄香蕉[27] - 仅智谱CogView-4、通义千问和Gemini正确完成指令[39] - 即梦和可灵出现苹果数量错误[39] - 腾讯混元存在多重执行漏洞[39] - 测试表明AI将数字视为构图特征而非精确数量要求[39] 风格模仿与驾驭力测试 - 测试主题为"水墨风的机甲" 要求融合中国传统水墨画风格[40] - Gemini成功实现山水画风格 被评价为最符合要求[44] - 通义千问生成素描风格机甲 存在形似神不似问题[44] - 即梦产生数字绘画风格 类似游戏概念设计图[47] - 可灵生成风格割裂的日式机甲与水墨背景组合[47] - 腾讯混元和智谱CogView-4完全偏离主题 生成古代武士形象[47] 文化理解与概念表达测试 - 测试主题为"中秋佳节的汉服少女" 要求呈现中国传统文化元素[48] - Gemini和可灵获得高分 展现准确汉服理解及完整文化元素呈现[57] - 即梦和通义千问在氛围塑造成功但汉服结构模糊[57] - 智谱CogView-4采用动漫风格 历史文化还原度不足[57] - 腾讯混元存在服饰结构错误和文化混淆问题[57] 综合性能排名 - Gemini以44分总分位列第一[58] - 可灵以40分总分位列第二[58] - 即梦以39分总分位列第三[58] - 通义千问以38.5分位列第四[59] - 智谱CogView-4以33.5分位列第五[59] - 腾讯混元以28.5分位列末位[59] 技术原理分析 - AI作图基于概率分布而非逻辑推理 通过降噪过程从随机噪声生成图像[63][64] - 数字指令被处理为构图特征而非精确数量要求[64] - 概念冲突时无法同时满足矛盾的概率分布[64] - 输出质量高度依赖训练数据库的标签准确性和数据质量[64]
AI生成图片,哪家强?