Workflow
昇腾Atlas 800T A2
icon
搜索文档
国产AI登顶全球!智谱+华为联手
科技日报· 2026-01-17 08:19
模型技术突破与架构创新 - GLM-Image采用自主创新的“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的联合,是面向新一代“认知型生成”技术范式的重要探索[3] - 该混合架构兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景的生成难题[3] - 基于架构创新,模型在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本渲染)榜单上获得开源第一[3] - 在CVTG-2K榜单的多区域文字生成准确率上,GLM-Image位列开源模型第一[3] - 在LongText-Bench榜单上,模型在覆盖招牌、海报等8种文字密集场景的长文本渲染准确性上位列开源模型第一[3] - 模型在中文生成准确率上做到开源第一,解决了以往AI画图常出现的文字错乱问题[6] 国产全栈生态验证与产业意义 - GLM-Image是首个在国产芯片(昇腾Atlas 800T A2设备)上完成从数据预处理到大规模预训练全流程的SOTA多模态模型[2][5] - 模型训练全程基于华为昇腾Atlas 800T A2芯片和昇思MindSpore AI框架,验证了在国产全栈算力底座上训练前沿模型的可行性[2][5] - 该合作解决了AI训练“卡脖子”的核心问题,让模型训练摆脱了对国外芯片的依赖[5] - 此次登顶是国产AI全产业链协同的必然结果,有望改写过去“国外定标准、国内跟节奏”的产业格局[6] - 这种全链条能力能让国内中小企业以更低成本使用AI工具,并推动国产AI技术走向全球[6] 市场表现与成本优势 - GLM-Image登顶Hugging Face平台Trending榜第一,打破了长期以来国外模型在开源榜首的垄断局面[2] - 在API调用模式下,生成一张图片仅需0.1元,兼具高性价比[4] - 模型的速度优化版本也即将更新[4] - 模型的开源地址已在GitHub和Hugging Face平台同步开放,全球开发者可免费使用[6]
首次!国芯训国模取得世界第一
智通财经网· 2026-01-16 08:33
模型发布与技术突破 - 智谱与华为联合开源新一代图像生成模型GLM-Image 该模型基于华为昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程 是首个在国产芯片上完成全程训练的SOTA多模态模型[1] - 模型开源不到24小时即冲上全球知名AI开源社区Hugging Face榜单的全球第一 模型性能、创新结构和训练过程迅速引发海外科技圈热议[1] - 该模型是首次完全依托国产芯片训练的国产模型 在国际舞台上取得榜首身位 标志国产AI模型的自主研发能力在国际竞争中取得突破[3] 模型性能与架构创新 - 不同于开源常用的LDM方案 GLM-Image采用了创新的「自回归+扩散解码器」混合架构 兼顾全局指令理解与局部细节刻画[4] - 该架构克服了海报、PPT、科普图等知识密集型场景生成难题 尤其擅长汉字生成任务[4] - 模型向探索以Nano Banana Pro为代表的新一代"知识+推理"的认知型生成模型迈出了重要一步[4] 国产全栈技术验证 - GLM-Image实现了基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架的全流程训练及推理适配 实际训练性能足以达到相应计算设备的汇报性能上限[5] - 此举验证了在国产全栈算力底座上训练前沿模型的可行性[5] - 智谱GLM代表国产大模型架构 华为昇腾代表国产高性能AI芯片 昇思代表华为自研AI计算框架 三者分别代表从核心模型到硬件和计算框架的全栈技术自主突破 构成完整国产AI模型技术栈[5] 行业影响与市场反响 - 美国消费者新闻与商业频道(CNBC)指出 智谱和华为训练出这一最新先进模型 打破了美国芯片的神话[1] - 在Hugging Face榜单上 GLM-Image模型(zai-org/GLM-Image)在文本到图像类别中更新约4小时前获得2.44k次下载和638次点赞 位列趋势排序榜首[4]
港股异动丨智谱高开超7%,联合华为开源首个国产芯片训练的多模态SOTA模型
格隆汇· 2026-01-15 01:31
公司股价与市场反应 - 公司股票高开7.1%,报194.7港元 [1] 核心产品与技术发布 - 公司联合华为开源新一代图像生成模型GLM-Image [1] - 该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程 [1] - 该模型是首个在国产芯片上完成全程训练的SOTA多模态模型 [1] 技术架构与创新 - GLM-Image采用自主创新的“自回归+扩散解码器”混合架构 [1] - 该架构实现了图像生成与语言模型的联合 [1] - 此次发布是公司面向以Nano Banana Pro为代表的新一代“认知型生成”技术范式的一次重要探索 [1]
英伟达H200“解禁”次日,智谱联手华为发布全国产开源多模态模型!
观察者网· 2026-01-14 17:34
事件概述 - 智谱公司联合华为开源了最新图像生成模型GLM-Image,这是首个在国产芯片(昇腾Atlas 800T A2)上完成全流程训练的SOTA多模态模型 [1] - 该模型的发布验证了在国产全栈算力底座上训练前沿模型的可行性,标志着高端算力不再必须依赖进口 [1] - 受此消息影响,智谱公司股价当日大涨18%报收216港元,上市一周来股价较116.2港元发行价接近翻倍,市值一度突破千亿港元 [5] 模型性能与行业地位 - GLM-Image在复杂视觉文字生成(CVTG-2K)榜单中,Word Accuracy达到0.9116,NED指标达到0.9557,均位列开源模型第一 [7][8] - 在长文本渲染(LongText-Bench)榜单中,GLM-Image英文任务得分0.952,中文任务得分0.979,双语成绩均位列开源模型第一 [9] - 模型在多项指标上超越了Qwen-Image、Z-Image等开源模型,部分指标甚至超越了国际顶尖竞品Nano Banana Pro [6][7] 技术架构与创新 - 模型采用「自回归+扩散解码器」混合架构,其中9B自回归部分负责语义理解,7B扩散解码器部分采用DiT结构解决文字渲染问题 [13] - 模型基于华为昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成全流程训练 [1] - 通过自研训练套件,对数据预处理、预训练、SFT及RL等关键环节进行端到端优化,并利用动态图多级流水、高性能融合算子及多流并行等技术提升效率 [10][12] - 创新的Tokenizer策略支持无需后期裁剪即可生成1024-2048范围内任意长宽尺寸的图片 [13] 成本与商业化 - 在API调用模式下,使用GLM-Image生成一张图片仅需0.1元,成本极具竞争力 [15] - 极低的生成成本证明了国产算力在经济性上已具备与国际顶尖水平竞争的能力 [15] 行业影响与国产替代意义 - 模型的成功发布正值美国解禁英伟达H200对华出口之际,但事件表明高端算力已从“卡脖子”的生存命门转变为“货比三家”的成本选项 [16] - 这证明了即使完全脱离美系算力生态,中国头部大模型依然能够对标甚至超越国际顶尖竞品 [16] - 对于被列入美国实体清单的智谱公司而言,此次与华为的合作意味着国产大模型企业拥有了国产算力托底和全球供应链改善的双重保障 [16] - 此次合作标志着国产全栈技术从“可用”迈向了“好用”且“敢用”的新阶段,中国AI产业正进入以自主创新定义技术范式的新时期 [16][17]
港股AI应用板块回暖 智谱高开逾7% 联合华为开源首个国产芯片训练的多模态SOTA模型
新浪财经· 2026-01-14 09:31
港股AI应用板块市场表现 - 港股AI应用板块整体呈现回暖态势,多只相关股票显著上涨 [1][5] - 知行科技(01274)股价上涨7.60%,最新价为7.080港元 [2][6] - 智谱(02513)股价上涨7.10%,最新价为194.700港元 [2][6] - MINIMAX-WP(00100)股价上涨2.74%,最新价为375.000港元 [2][6] - 阿里巴巴-W(09988)股价上涨2.44%,最新价为163.800港元 [2][6] - 快手-W(01024)股价上涨1.98%,最新价为80.000港元 [2][6] - 微鼎集团(02013)股价上涨1.72%,最新价为2.370港元 [2][6] - 其他上涨股票包括五一视界(06651)涨2.08%、速腾聚创(02498)涨2.03%、微创机器人-B(02252)涨1.68% [2][6] 智谱公司技术进展 - 智谱(02513)联合华为开源了新一代图像生成模型GLM-Image [2][6] - 该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架,完成了从数据到训练的全流程 [2][6] - 该模型是首个在国产芯片上完成全程训练的SOTA(当前最优)多模态模型 [2][6]
华为的准万亿大模型,是如何训练的?
虎嗅APP· 2025-05-30 18:18
华为MoE架构技术突破 - 华为提出MoGE架构优化方案,克服传统MoE负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署[1] - 昇腾+Pangu Ultra MoE组合实现国产算力与模型全流程自主可控,预训练阶段万卡集群MFU达41%,后训练单超节点吞吐35K Tokens/s[2] - 公司首次披露昇腾CloudMatrix 384超节点上大稀疏比MoE强化学习后训练框架关键技术,推动RL后训练进入超节点集群时代[2] 当前MoE训练系统六大挑战 - 并行策略配置困难:多种并行策略组合与稀疏激活导致负载不平衡,难以人工优化[3] - All-to-All通信瓶颈:大规模token路由交换占用带宽,造成计算资源空闲等待[4] - 系统负载分布不均:注意力机制序列长度差异、专家激活频率不平衡等多层次不均衡[4] - 算子调度开销过大:动态路由引入高频小规模算子操作,NPU利用率显著降低[4] - 训练流程管理复杂:多模型实例与多任务场景增加资源分配难度[4] - 大规模扩展受限:参数重新映射机制与复杂数据通信制约部署规模[4] 训练集群利用率提升方案 - 智能并行优化:通过建模仿真框架自动确定最优部署配置,包括16路流水线并行、8路张量并行等[7] - Adaptive Pipe通信优化:分层All-to-All通信去冗余,专家并行通信开销降至<2%[10] - EDP全局负载均衡:专家负载预测+动态调节+注意力数据重排技术,解决多通信域负载不均[12] 昇腾单节点算力释放 - 训练算子加速:针对FlashAttention等关键算子优化,提升75%以上计算耗时算子性能[15] - Host-Device协同优化:分层消除同步型/系统性Host-Bound问题,MoE训练中Host-Bound占比<2%[16] - 内存精准管理:通用化重计算+Swap机制实现70%激活值内存节省,MBS翻倍仍稳定[17] RL后训练关键技术 - RL Fusion训推共卡技术:支持多并行策略动态切换,秒级完成状态转换,集群利用率翻倍[20] - 准异步机制StaleSync:容忍梯度陈旧性,系统吞吐提升50%[21] - 分布式数据队列DistQueue:实现多任务数据拆分与动态读取,缓解数据阻塞[21] Pangu Ultra MoE模型性能 - 7180亿参数规模,61层Transformer含58层MoE,隐层维度7680配备256路由专家[26] - 预训练阶段6K-10K卡集群MFU达41%,预计未来可扩展至MFU>50%[26] - RL后训练实现每超节点35K Tokens/s吞吐,4K卡集群等效2秒完成高数大题解析[27]
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环,集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招:建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招:昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术,支持训练推理共卡、全共卡等多种灵活部署模式,实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue,系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力,支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数,包含61层Transformer,前3层为稠密层,后58层为MoE层[38] - 模型隐层维度达7680,配备256个路由专家和1个共享专家,专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下,模型算力利用率(MFU)达到41%,预计可支撑训练集群MFU>50%[38]
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 17:32
华为Pangu Ultra MoE大模型技术突破 - 实现国产算力与国产模型全流程自主可控训练闭环 昇腾Atlas 800T A2万卡集群MFU提升至41% 单CloudMatrix 384超节点吞吐达35K Tokens/s [2][3] - 首次披露昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术 让以强化学习为核心的后训练进入超节点集群时代 [3][4] - 7180亿参数规模 61层Transformer结构 前3层稠密层后58层MoE层 隐层维度7680 配备256个路由专家和1个共享专家 专家隐层维度2048 [32] 技术痛点与解决方案 - 当前MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难 All-to-All通信瓶颈 系统负载分布不均 算子调度开销过大 训练流程管理复杂 大规模扩展受限 [7][8] - 通过并行策略智能选择 计算通信深度融合 全局动态负载平衡等技术创新显著提升集群效率 建模仿真驱动智能并行优化确定最优部署配置:16路流水线并行 8路张量并行 32路专家并行 2路虚拟流水线并行 [11][12][13] - 创新设计分层All-to-All通信去冗余机制 专家并行通信开销降至<2% 采用EDP全局负载均衡优化策略 实现设备间计算负载精确平衡 [14][17] 昇腾单节点算力优化 - 通过昇腾架构深度适配的训练算子加速 关键算子性能显著跃升 Host-Device协同优化将MoE训练中Host-Bound占比控制在2%以下 [21][23] - 构建精密内存优化框架 实现70%激活值内存节省 微批处理规模提升至原来两倍 [24][25] - 采用RL Fusion训推共卡技术 支持训练推理共卡 全共卡等灵活部署模式 实现秒级训推状态转换 后训练集群利用率翻倍 [27][28] 强化学习后训练创新 - 设计准异步机制StaleSync 让不同RL阶段任务在陈旧度阈值内并行执行 系统整体训练吞吐提升50% [29] - 采用分布式数据队列DistQueue 有效缓解不同计算任务间数据阻塞 为后训练任务高效调度提供支持 [29] - 在昇腾CloudMatrix 384超节点集群后训练中 采用训练推理混合并行策略 实现每超节点35K Tokens/s高吞吐 支持高效扩展超过4K卡集群 [32][34]