Workflow
智谱发布首个支持生成汉字的开源文生图模型CogView4,性能达到SOTA
IPO早知道·2025-03-04 23:02

智谱发布CogView4模型 - 智谱于3月4日发布「智谱2025开源年」首个模型CogView4,这是首个支持生成汉字的开源文生图模型,遵循Apache 2.0协议 [2] - CogView4在DPG-Bench基准测试中综合评分排名第一,在开源文生图模型中达到SOTA水平 [2][4] - 该模型具备复杂语义对齐和指令跟随能力,支持任意长度中英双语输入,可生成任意分辨率图像并具备较强文字生成能力 [2] CogView4技术优势 - 支持中英双语提示词输入,是首个能在画面中生成汉字的开源文生图模型,满足广告、短视频等领域创意需求 [7] - 采用GLM-4 encoder替换纯英文T5 encoder,通过中英双语图文对训练实现双语提示词输入能力 [7] - 支持输入任意长度提示词,可生成范围内任意分辨率图像,提升用户创作自由度和训练效率 [7] 模型发展规划 - 实现任意长度文本描述和任意分辨率图像的混合训练范式 [8] - 后续将增加ControlNet、ComfyUI等生态支持,全套微调工具包即将推出 [8] - CogView4-6B-0304版本将于3月13日上线智谱清言平台 [8] - 作为国内最早的开源大模型公司,智谱将继续开源基础模型、推理模型、多模态模型、Agent模型等 [8]