图像生成与大语言模型的深度融合
搜索文档
智谱联合华为开源图像生成模型 GLM-Image
21世纪经济报道· 2026-01-14 09:23
公司动态 - 智谱与华为于1月13日联合开源新一代图像生成模型GLM-Image,该模型在科普插画、多格图画、社交媒体图文、商业海报、写实摄影等方面均可落地 [2] - GLM-Image是首个在国产芯片(昇腾Atlas 800T A2设备)上完成全程训练的SOTA多模态模型,验证了在国产全栈算力底座上训练前沿模型的可行性 [2] - 公司依托昇腾NPU和昇思MindSpore AI框架,自研了模型训练套件,全面优化了数据预处理、预训练、SFT和后训练的端到端流程 [2] - 通过动态图多级流水优化机制消除下发瓶颈,通过多流并行策略打破通信墙,并使用AdamW EMA、COC、RMS Norm等昇腾亲和的高性能融合算子,同步提升训练的稳定性和性能 [2] - GLM-Image采用自主创新的“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的联合 [3] - 在API调用模式下,生成一张图片仅需0.1元,速度优化版本即将更新 [3] 技术进展 - 以Nano Banana Pro为代表的闭源图像生成模型正在推动图像生成与大语言模型的深度融合,技术范式正从单一的图像生成进化为兼具世界知识与推理能力的认知型生成 [3] - 当前模型在海报、PPT、科普图等知识密集型场景及高保真细节呈现上表现较好 [3] - GLM-Image的“自回归”架构利用其语言模型的底座优势,专注于提升对指令的语义理解和画面的全局构图 [3] - 其“扩散解码器”配合Glyph Encoder的文本编码器,专注于还原图像的高频细节和文字笔画,以此改善模型“提笔忘字”的现象 [3]