联合华为开源新模型智谱涨超16%

公司动态与产品发布 - 智谱于1月14日联合华为开源新一代图像生成模型GLM-Image [2] - GLM-Image是首个在国产芯片（昇腾Atlas 800T A2设备）上完成从数据到训练全流程的SOTA多模态模型 [2][9] - 该模型基于昇思MindSpore AI框架开发，是首个开源的工业表现级离散自回归图像生成模型 [2][5] - 在API调用模式下，使用GLM-Image生成一张图片的价格为0.1元 [8] 技术架构与创新 - GLM-Image采用“自回归+扩散解码器”混合架构，融合了9B的自回归模型与7B的DiT扩散解码器 [5] - 自回归模型专注于提升对指令的语义理解和画面全局构图，DiT扩散解码器配合Glyph Encoder专注于还原图像高频细节和文字笔画 [5] - 通过改进Tokenizer策略，模型能自适应处理多种分辨率，原生支持从1024x1024到2048×2048尺寸的任意比例图像生成，无需重新训练 [5] - 公司自研了模型训练套件，利用动态图多级流水下发、高性能融合算子、多流并行等特性，全面优化了数据预处理、预训练、SFT和RL的端到端流程 [8] 性能表现与市场定位 - GLM-Image在文字渲染的权威榜单中达到开源SOTA水平 [6] - 在CVTG-2K基准测试中，GLM-Image的文字准确率（Word Accuracy）为0.9116，归一化编辑距离（NED）为0.9557，CLIP得分为0.7877 [6] - 在LongText-Bench测试中，其平均得分（AVG）为0.966，英文（EN）得分0.952，中文（ZH）得分0.979 [6] - Demo显示，模型擅长绘制包含复杂逻辑流程与文字说明的科普插画、原理示意图，以及在生成电商图、漫画等多格图画时能保持风格和主体一致性并保障文字生成准确率 [7] 行业趋势与战略意义 - 以Nano Banana Pro为代表的闭源图像生成模型，正在推动图像生成与大语言模型的深度融合，技术范式正从单一的图像生成进化为兼具世界知识与推理能力的“认知型生成” [5] - GLM-Image是公司面向“认知型生成”技术范式的一次重要探索 [5] - 该模型是对国产计算生态的一次深度探索与验证，证明了在国产全栈算力底座上训练高性能多模态生成模型的可行性 [8][9] 市场反应 - 新闻发布当天港股开盘，智谱股价大涨超16% [4]