公司事件与市场反应 - 智谱联合华为于1月14日开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的SOTA多模态模型 [1][9] - 消息公布当天,智谱港股开盘股价大涨超16% [1][10] 技术定位与行业趋势 - 行业技术范式正从单一的图像生成,进化为兼具世界知识与推理能力的“认知型生成”,以谷歌Gemini生态下的Nano Banana Pro为代表的闭源模型正在推动图像生成与大语言模型的深度融合 [2][11] - GLM-Image是公司面向“认知型生成”技术范式的一次重要探索,也是首个开源的工业表现级离散自回归图像生成模型 [2][12] 模型架构与技术细节 - GLM-Image采用“自回归+扩散解码器”混合架构,创新地融合了9B的自回归模型与7B的DiT扩散解码器,以同时提升对复杂指令的语义理解、全局构图能力,以及图像高频细节和文字笔画的还原精度,改善“提笔忘字”现象 [2][12] - 通过改进Tokenizer策略,模型能够自适应处理多种分辨率,原生支持从1024x1024到2048×2048尺寸的任意比例图像生成,无需重新训练 [3][12] 模型性能表现 - 基于架构创新,GLM-Image在文字渲染的权威榜单中达到开源SOTA水平 [6][13] - 具体性能数据:在CVTG-2K榜单的Word Accuracy指标上得分为0.9116,MED指标得分为0.9557,CLIPScore得分为0.7877;在LongText-Bench榜单的AMG、EN、ZH指标上分别得分为0.966、0.952、0.979 [13] 应用场景与商业化 - 在应用演示中,GLM-Image更擅长绘制包含复杂逻辑流程与文字说明的科普插画及原理示意图 [5][15] - 在生成电商图、漫画等多格图画时,能够保持风格和主体的一致性,并保障多处文字生成的准确率 [8][17] - 在API调用模式下,使用GLM-Image生成一张图片仅需0.1元 [8][17] 国产化生态意义 - GLM-Image是对国产计算生态的一次深度探索与验证,其自回归结构基座从数据预处理到大规模预训练的全流程均在昇腾Atlas 800T A2设备上完成 [8][17] - 公司依托昇腾NPU和昇思MindSpore AI框架,自研了模型训练套件,全面优化了端到端流程,验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性 [8][17]
联合华为开源新模型,智谱涨超16%