联合华为开源新模型 智谱涨超16%

公司动态与产品发布 - 智谱于1月14日联合华为开源新一代图像生成模型GLM-Image [2] - GLM-Image是首个在国产芯片(昇腾Atlas 800T A2设备)上完成从数据到训练全流程的SOTA多模态模型 [2][9] - 该模型基于昇思MindSpore AI框架开发,是首个开源的工业表现级离散自回归图像生成模型 [2][5] - 在API调用模式下,使用GLM-Image生成一张图片的价格为0.1元 [8] 技术架构与创新 - GLM-Image采用“自回归+扩散解码器”混合架构,融合了9B的自回归模型与7B的DiT扩散解码器 [5] - 自回归模型专注于提升对指令的语义理解和画面全局构图,DiT扩散解码器配合Glyph Encoder专注于还原图像高频细节和文字笔画 [5] - 通过改进Tokenizer策略,模型能自适应处理多种分辨率,原生支持从1024x1024到2048×2048尺寸的任意比例图像生成,无需重新训练 [5] - 公司自研了模型训练套件,利用动态图多级流水下发、高性能融合算子、多流并行等特性,全面优化了数据预处理、预训练、SFT和RL的端到端流程 [8] 性能表现与市场定位 - GLM-Image在文字渲染的权威榜单中达到开源SOTA水平 [6] - 在CVTG-2K基准测试中,GLM-Image的文字准确率(Word Accuracy)为0.9116,归一化编辑距离(NED)为0.9557,CLIP得分为0.7877 [6] - 在LongText-Bench测试中,其平均得分(AVG)为0.966,英文(EN)得分0.952,中文(ZH)得分0.979 [6] - Demo显示,模型擅长绘制包含复杂逻辑流程与文字说明的科普插画、原理示意图,以及在生成电商图、漫画等多格图画时能保持风格和主体一致性并保障文字生成准确率 [7] 行业趋势与战略意义 - 以Nano Banana Pro为代表的闭源图像生成模型,正在推动图像生成与大语言模型的深度融合,技术范式正从单一的图像生成进化为兼具世界知识与推理能力的“认知型生成” [5] - GLM-Image是公司面向“认知型生成”技术范式的一次重要探索 [5] - 该模型是对国产计算生态的一次深度探索与验证,证明了在国产全栈算力底座上训练高性能多模态生成模型的可行性 [8][9] 市场反应 - 新闻发布当天港股开盘,智谱股价大涨超16% [4]