智谱联合华为开源图像生成模型GLM-Image：首个在国产芯片完成全程训练的SOTA模型

模型发布与核心意义 - 智谱于1月14日联合华为开源新一代图像生成模型GLM-Image [3] - 该模型是首个在国产芯片（昇腾Atlas 800T A2设备）上完成全程训练的SOTA模型，验证了在国产全栈算力底座上训练前沿模型的可行性 [4][10] - GLM-Image是智谱面向“认知型生成”技术范式的一次重要探索，也是首个开源的工业表现级离散自回归图像生成模型 [5] 技术架构与创新 - GLM-Image采用了创新的“自回归 + 扩散解码器”混合架构，融合了9B的自回归模型与7B的DiT扩散解码器，以兼顾全局指令理解与局部细节刻画 [4][7] - 通过改进Tokenizer策略，模型能自适应处理多种分辨率，原生支持从1024x1024到2048×2048尺寸的任意比例图像生成 [7] - 该架构旨在克服海报、PPT、科普图等知识密集型场景的生成难题，并改善模型“提笔忘字”的现象 [4][7] 性能表现与基准测试 - 在文字渲染的权威榜单CVTG-2K中，GLM-Image以0.9116的Word Accuracy（文字准确率）和0.9557的NED（归一化编辑距离）成绩，位列开源模型第一 [6][8] - 在LongText-Bench长文本渲染榜单中，GLM-Image以英文0.952、中文0.979的成绩位列开源模型第一 [6][8] - 在API调用模式下，生成图片仅需0.1元，速度优化版本即将更新 [5] 国产算力生态实践 - 模型从数据预处理到大规模预训练的全流程均在昇腾Atlas 800T A2设备与昇思MindSpore AI框架上完成 [4][10] - 通过动态图多级流水下发、高性能融合算子、多流并行等自研训练套件，全面优化了端到端训练流程 [10] - 这一实践是首个在国产芯片上完成全流程训练的SOTA多模态模型，为社区挖掘国产算力潜力提供了参考 [10]