文章核心观点 - 智谱AI与华为合作,成功推出并开源了新一代图像生成模型GLM-Image,该模型是中国首个全程在国产芯片(华为昇腾A2)上完成训练的SOTA多模态模型,在复杂视觉文字生成和长文本渲染方面表现卓越,且API调用成本极低[1][7][36][44] 模型性能与技术亮点 - GLM-Image在CVTG-2K(复杂视觉文字生成)和LongText-Bench(长文本渲染)双榜单中均位列第一,尤其在文字准确率(Word Accuracy)上达到0.9116,归一化编辑距离(NED)达到0.9557,显著优于其他开源及闭源模型[5][6] - 模型采用创新的“自回归(9B参数)+ 扩散解码器(7B DiT参数)”混合架构,结合了自回归模型在理解语言与规划布局上的优势,以及扩散模型在细节渲染上的长处,从而能精准处理包含复杂文字和布局的图像生成任务[38][39][40][49] - 模型原生支持从1024x1024到2048x2048的任意比例和分辨率图像生成,无需裁剪或重绘,可直接生成适配各种社交媒体平台和商业用途的图片[21][53][54][56] 国产化训练与算力突破 - GLM-Image的整个训练流程,包括海量数据预处理、大规模预训练以及RLHF(人类反馈强化学习)后训练,全程基于华为昇腾A2芯片算力集群完成,证明了国产算力底座具备支撑前沿、复杂模型训练的能力[36][44][47][48] - 为实现高效训练,智谱与华为深度合作,对Mindspeed-LLM框架进行了深度优化,包括针对RL训练流程的专项优化、算子级深度重构以及利用昇思MindSpore框架实现计算与通信的完美并行,解决了国产芯片在复杂后训练中的适配问题,提升了大规模集群训练的稳定性和效率[45][47][50][51] 应用场景与成本优势 - GLM-Image尤其擅长中文文字渲染,能精准生成包含复杂汉字的海报、插画、AI手抄报等,解决了AI生图领域长期存在的“不识字”痛点[1][8][9][10] - 模型在多种实际应用场景中表现出色,包括生成符合“小红书”风格的社交媒体封面、具有艺术感的商业广告大片、逼真的人物摄影以及影视剧照风格的图像[12][13][17][22][27][28][32] - 该模型的API调用价格极具竞争力,生成一张图片的成本仅为0.1元人民币,为中小企业和开发者提供了极高性价比的AI生图接入方案[7][21][60] 行业意义与开源价值 - GLM-Image的成功开发与开源,打破了高性能图像生成模型对国外芯片和技术的依赖,为国内AI开发者提供了强大的信心和可行的技术路径[36][57][58][60] - 作为开源模型,GLM-Image不仅公开了模型权重,也分享了其创新的混合架构思路,对推动下一代图像生成技术的研究具有重要价值[58][60] - 该组合标志着“国产芯+国产模型”在AI关键领域取得了实质性突破,展示了从硬件到软件的全栈自主创新能力[1][7][48]
刚刚,智谱和华为搞波大的:中国首个国产芯片训练出的SOTA多模态模型!
量子位·2026-01-14 14:32