行业核心观点 - 图像生成大模型竞争焦点正从“生成好看的图”转向“高效解决实际问题”,即从“会画”到“能用”,强调对用户意图的解读、语义理解、可控编辑及场景化智能推理能力 [3][18][20] - 头部厂商在复杂指令理解与图像可控编辑等“深水区”的较量刚刚开始,技术迭代正围绕生态与场景分化,以寻求快速落地和商业价值 [18][22][24] 主要厂商模型对比 (Qwen-Image-2.0 vs Seedream 5.0) - 发布节奏:阿里云于2月10日发布新一代图像生成基础模型Qwen-Image-2.0,其新一代基座模型Qwen3.5已在路上;字节跳动剪映同日上线新一代图像生成模型Seedream 5.0预览版,距上一代Seedream 4.5发布仅两个多月 [3] - 技术路径与升级点: - Seedream 5.0:首次支持检索生图,增强提示词理解准确性,支持更精细纹理的图像生成和精确调整 [5] - Qwen-Image-2.0:首次将生图和编辑两条支线能力统一整合到单一模型架构,提升中文汉字渲染能力,输入提示词扩展到1K token,优化对超长文字和复杂指令的渲染 [5] - 生成效果实测: - 在《清晨雾中的瑞士阿尔卑斯山》测试中,Qwen-Image-2.0在细节精度、纹理清晰度、空间层次感上表现更优,画风偏写实;Seedream 5.0更注重氛围感营造,偏朦胧诗意和印象派,但细节被柔化 [8][12][15] - 在《无厘头美食番<三国演义>》测试中,Seedream 5.0在体现热血欢乐氛围和无厘头解构感上更胜一筹;Qwen-Image-2.0则漏读了“举起”等关键词 [8][15] - 综合评判,Qwen-Image-2.0像严谨的工程师,Seedream 5.0像懂流量的设计师,两者各有场景适配性 [16] - 图像编辑能力: - Seedream 5.0在剪映平台生图后,可调整裁剪、画质、像素等,但无法进行局部调整 [16] - Qwen-Image-2.0可在对话中直接根据指令调整图片,展现一定逻辑推理能力,但编辑准确度仍有待提升 [16] 模型应用与生态布局 - 字节跳动:将Seedream 5.0深度集成到剪映、CapCut、即梦AI等生态平台,支持创作者完成生图、分镜、视频创作及分发,支持2K与4K分辨率输出,限时免费,并计划未来在美国市场逐步开放,以巩固其在内容创作领域的优势 [22] - 阿里巴巴:Qwen-Image-2.0将在正式发布时上线阿里千问APP,未来与阿里系电商等业务打通成为关注方向,可能更多落地于电商、专业PPT、海报设计等场景 [22] 行业未来发展趋势 - 技术方向: - 信息图(“爸爸图”):成为生图领域大趋势,即生成一张包含许多关联子图的图,该能力在漫画、复杂海报、PPT制作等领域非常重要 [23] - 图层分离:行业渴望实现像PS一样的图层分离与编辑,对工业流程有巨大价值,是模型下一步探索的重点之一 [23] - 应用落地与商业化: - 模型能力迭代需结合现有业务场景快速落地,这是行业发展的一大挑战,也蕴藏着中国厂商“弯道超车”的机会 [24] - 例如在短剧或漫剧的AIGC生成领域,中国漫剧已形成庞大产业链,新一代模型的应用可能将单剧集动漫视频的制作成本从几百元大幅降低至几十元 [24] - 在技术追平的情况下,中国企业更擅长做应用,应用的土壤将催生新产业链,并反过来迭代模型能力 [24]
阿里、字节同日上新,图像大模型激战“春节档”