Workflow
海光DCU
icon
搜索文档
海光信息(688041):国产CPU领军企业,DCU卡位算力芯片千亿蓝海
东海证券· 2025-12-23 17:18
投资评级 - 首次覆盖,给予“买入”评级 [1][2] 核心观点 - 海光信息是国产CPU领军企业,其DCU(协处理器)产品采用GPGPU路线,卡位算力芯片千亿蓝海市场 [1] - 公司CPU与DCU产品性能和生态国内领先,有望受益于信创加速落地、算力需求暴增及国产替代推进的市场背景 [2] - 下一代高性能海光五号CPU和深算四号DCU的发布,有望驱动公司营收维持高速增长 [2] 公司概况与产品布局 - 公司是国内高端处理器研发领域的领军企业,成立于2014年,采用“销售一代,验证一代,研发一代”的产品研发战略 [12] - 产品线包括CPU(中央处理器)和DCU(协处理器)两大产品线,实现双轮驱动 [5][12] - CPU产品兼容x86指令集,已迭代至海光四号(已商用),海光五号研发中,按应用分为7000、5000、3000系列 [5][12][16] - DCU产品采用GPGPU架构,通过“类CUDA”环境兼容主流AI软件生态,已迭代至深算三号(已投入市场),深算四号研发顺利 [5][13] - 公司采用Fabless生产模式,客户集中度较高,2024年前五大客户销售占比为98.17% [18] 市场机遇与行业趋势 - **AI算力需求爆发**:推理与训练算力需求高增,拉动AI芯片市场规模扩张,2025年全球AI芯片规模有望达920亿美元,同比增长29.58% [2] - **国产替代加速**:中国算力规模全球份额第二,英伟达、AMD等海外龙头仍占主导,但以华为、海光等为代表的本土品牌国产替代正全面提速,2025年份额有望升至40% [2] - **服务器与PC需求拉动**:2025年全球AI服务器出货量有望增长24.3%,2025Q4 AI服务器出货量占比有望达17.3%;2025Q3全球PC出货量同比增速升至8.21%,2025年中国大陆AIPC渗透率有望升至34% [5] - **信创需求强劲**:信创在党政和行业加速落地,进一步拉动国产CPU需求,2026年我国信创硬件市场规模有望同比增长38.60%至7889.5亿元 [5][71] 海光CPU核心竞争优势 - **性能达国际主流水平**:海光CPU性能达到国际主流CPU同等技术水平,自AMD获取授权后,公司自行实现了后续产品和技术的迭代开发,具备自主优势 [5] - **兼容x86生态优势显著**:兼容x86指令集大幅减少了客户国产化替代的迁移成本,软硬件生态丰富 [5][16] - **信创市场地位领先**:在党政、行业信创等领域认可度高,尤其在金融、电信等对生态要求高的行业占据主导地位,是国产CPU第一梯队厂商 [5][90] - **产品线覆盖全面**:7000系列面向高端服务器,5000系列面向中低端服务器,3000系列面向工作站和边缘计算服务器,满足差异化需求 [16][94] 海光DCU核心竞争优势 - **技术路径对标国际主流**:海光DCU为GPGPU,具有全精度浮点数据和各种常见整型数据计算能力,产品路径类似英伟达、AMD,算子覆盖度超99% [2] - **“类CUDA”生态降低迁移成本**:基于“类CUDA”通用并行计算架构,CUDA用户迁移成本低,同时公司打造了自主开放的完整软件栈,支持TensorFlow、Pytorch等主流深度学习框架 [2] - **覆盖全场景AI需求**:可满足从十亿级模型推理到千亿级模型训练的全场景需求,覆盖AI训练/推理、科学计算、金融风控等多个核心场景 [2] - **与头部厂商深度合作**:已与字节跳动、腾讯、阿里、百度等头部互联网厂商建立深度合作关系,并与国内主流大模型全面适配 [2] 财务预测与估值 - **营收预测**:预计公司2025-2027年营业收入分别为143.05亿元、207.76亿元、287.59亿元,同比增速分别为56.13%、45.23%、38.43% [2][6] - **净利润预测**:预计2025-2027年归母净利润分别为30.57亿元、44.90亿元、64.58亿元,同比增速分别为58.32%、46.87%、43.83% [6] - **估值水平**:对应2025-2027年的PE分别为164倍、111倍、77倍,对应PS分别为35倍、24倍、17倍 [6] - **历史财务表现**:2025年前三季度营收已超越2024年全年,同比增速达54.65%;毛利率突破60%,处于行业领先地位 [28][32]
昂瑞微登陆科创板 上市首日涨160%
新浪财经· 2025-12-16 21:11
科创板公司动态 - 海优新材拟在成都金堂县设立全资子公司并投建高分子特种胶膜生产项目 项目总投资预计3亿元 不涉及新增产能 属于存量产能结构调整 [1][4] - 海优新材拟以自有或自筹资金对全资子公司泰州海优威增资7000万元人民币 增资完成后其注册资本为15000万元 [4] - 赛微微电实际控制人葛伟国、蒋燕波、赵建华及一致行动人微合投资拟合计减持不超过86.14万股 不超过公司总股本的1.00% [3] - 德科立公司董事、副总经理、核心技术人员周建华计划减持不超过10万股 减持比例不超过0.0632% [1][5] - 中邮科技股东国华卫星及其一致行动人航天投资合计持股比例由8.87%减少至7.89% 权益变动触及1%刻度 [3] 科技产品与研发进展 - 中科曙光发布全球首个单机柜级640卡超节点scaleX640 可通过双超节点组成千卡级计算单元 相比业界同类产品单机柜算力密度提升20倍 在MoE万亿参数大模型训练推理场景可实现30%-40%的性能提升 [1][5] - 海光信息坚持基于x86指令集架构进行芯片研发 打造“CPU+DCU”双轮驱动产品体系 其DCU对标国际主流GPGPU 算子覆盖度超99% 兼容CUDA [1][5] - 海光光合组织已聚合6000余家合作伙伴 完成15000余项软硬件测试 在政务、金融、能源等领域的联合解决方案超15000个 [5] - 小鹏汽车在广州市获得L3级自动驾驶道路测试牌照 并启动常态化的L3道路测试 [2] 市场与行业事件 - 午后市场传闻涉及高科技公司税收认定趋严 恒生科技指数一度跌超2.5% 阿里巴巴、腾讯控股、京东、美团等股价跌幅加大 [2] - 有券商研究员表示 相关税收信息只是认定趋严而非一刀切 [2] 融资与上市动态 - 昆仑芯即将完成股改 加速冲刺上市 知情人士透露其2025年营收远超20亿元 若按30-40亿元收入及6万元芯片均价估算 对应芯片出货量为5-6.7万颗 [6] - 锂离子电池负极材料研发商江帆圭智完成近亿元Pre-A轮融资 资金用于推进硅碳负极材料产线建设及技术迭代 [6] - 光学元件企业贝耐特完成数千万元A++轮融资 该公司专注于硅基液晶光学器件与系统的研发生产 [7] - 生物医药公司奥赛瑞生物完成数千万元Pre-A轮融资 资金用于推进新型影像对比剂及诊疗一体化药物研发与临床转化 [9]
中国算力方案:如何用有限资源做出无限可能?|甲子引力
搜狐财经· 2025-12-12 15:15
文章核心观点 - 中国算力产业面临先进制程受限、高端GPU供应收紧等外部约束,正处于从“堆叠算力”到“高效协同”的关键“拐点”[2] - 产业通过找准应用场景、构建差异化技术路线、推动端云协同等策略,应对算力不足、互联受限、生态薄弱的“三重困境”[2] - 中国算力方案的独特优势在于场景驱动的创新模式,利用完整的产业链、庞大的市场和应用场景,以应用反哺技术迭代[2][24] 关键瓶颈:从制程到生态的多维挑战 - 软件生态是当前最关键的瓶颈,CUDA生态经过近20年积累,覆盖长尾场景,国产算力芯片公司需要时间追赶[5] - 制程问题制约芯片算力密度和卡间互联带宽,需要AI上游产业在国产化上取得突破[7] - 系统化工程能力至关重要,需通过有机调度和协同,形成从上层应用到底层硬件的调优闭环,而非依赖单点能力[7] - 找准特定应用场景是突破软件栈和制程限制的有效策略,并非所有场景都需要顶级算力[9] - 算力支撑是根本性卡点,算力不足导致需要通过大量国产卡堆叠来提升性能,进而对卡间互联和液冷技术提出更高要求[11] 超节点与集群:万卡级算力的系统工程 - 集群规模从千卡扩展到万卡或十万卡时面临非线性挑战,性能并非单卡性能的简单叠加,卡间互联的带宽、时延和丢包会极大影响性能,训练中丢包可能导致任务推倒重来[14] - 超节点形态的出现旨在优化集群内部通信,避免所有流量通过网卡转换导致的性能降低和时延增加[14] - 超节点不仅适用于训练场景,在推理场景中也有应用价值,其本质是降低单个Token的生成成本,不应成为昂贵的方式[14] - 海光信息选择GPGPU通用架构路线,旨在使DCU成为数据中心人工智能通用解决方案,以覆盖未来不断发展的新模型、算法和场景需求[14][16] - 海光DCU通过高兼容性软件栈降低客户使用门槛,支持从Github下载代码直接运行,无需复杂适配过程[16] 端云协同:算力分布的未来图景 - 存算一体技术已进入商业化量产阶段,后摩智能第二代M50芯片已获得头部AIPC、语音厂商及运营商的商业化采购[17] - 端侧大模型应用尚未出现类似GPT的“Killer APP”,这是产业链尚未爆发的主要原因[17] - AI计算需求向端侧转移,端侧需承担至少50%以上的计算任务,因为即使全球海底光缆总带宽也无法满足多模态AI时代所有用户的需求[17] - 端侧AI的核心优势在于隐私性,能够本地处理照片、视频、工作文件等敏感数据,从源头杜绝数据泄露风险[18] 互联与液冷:突破物理极限的关键 - 超节点更强调Scale-up(南向互联),旨在通过更短距离、更大带宽(未来或采用光互联)来提升节点内部GPU间的互联性能并降低延迟[20] - Scale-out(北向互联)更为常见,主要包括英伟达迈络思的IB网络和RoCE网络,其优势在于灵活性,便于灵活扩容缩容[20][21] - 液冷技术已成为高密度节点(如超节点)的必然选择,风冷无法解决高密度散热问题[20] - 液冷技术能带来显著的节能效果,大约节能30%,并且降噪表现优异[21] - 技术路线选择需结合业务场景考量,Scale-up性能更优但成本更高,需评估投入产出比[21] 工程化实践:从纸面到落地的鸿沟 - 产品需要经过多代迭代和真实客户环境的“磨砺”才能成熟,后摩智能第一代产品在部署中发现了许多纸面未预见的问题,编译器工具链经过数次迭代才得以完善[23] - 国产算力卡普遍需要适配调优,新华三与杭州萧山共建“芯模社区”生态平台,联合产业链伙伴进行研发、测试和验证[23] - 深度优化需针对具体应用场景,新华三要求每款芯片在其测试环境中跑满至少3个月,以发现各种边界条件下的问题[23] - 多场景测试至关重要,同一张卡在不同模型、批次大小和序列长度下的性能表现差异可能很大,需建立全面测试矩阵以找到最佳使用场合[23] 中国算力方案的独特优势 - 端侧芯片和生态创新:中国拥有完整的产业链优势,可利用应用反哺模型和芯片迭代,在AIPC、智能会议、陪伴机器人等场景有独特的应用创新[23] - 系统化工程能力:中国具备集中力量办大事的体制优势,能快速协调资源,且在大规模集群建设方面积累了独树一帜的调度与工程经验[24] - AI应用领域优势:中国在尖端科技民用普及方面擅长,庞大的市场和丰富的应用场景为算力技术提供了最佳试验田和迭代环境[24] - 细分场景市场优势:中国市场的多样性和规模优势,使得能在不同细分领域找到足够大的市场来支撑技术迭代,形成场景驱动的创新模式[24]
两大龙头,缘何终止重组?公司回应
中国证券报· 2025-12-10 20:19
12月9日晚,海光信息、中科曙光(603019)分别公告,宣布终止交易规模超千亿元的换股合并。12月 10日,中科曙光股价跌停,海光信息下跌0.36%。 12月10日下午,海光信息、中科曙光分别召开终止重大资产重组投资者说明会,就终止本次交易事项回 答了投资者提问。 8月中旬以来市场发生较大变化 在12月9日晚的公告中,双方均表示,由于目前市场环境较交易筹划之初发生较大变化,实施重大资产 重组的条件尚不成熟,基于审慎性考虑,决定终止本次交易事项。 在10日的投资者说明会上,海光信息总经理沙超群进一步解释了市场环境变化的具体体现。沙超群介 绍,交易双方的二级市场股价相比预案披露时发生了较大变化,自今年6月10日重组预案披露至8月中 旬,吸并双方的股价走势基本平稳,表明重组方案本身并未对双方股价产生重大影响。自8月中旬以 来,受国内国际环境变化、A股市场整体走势、AI产业热度变化及市场预期等复杂因素的影响,吸并双 方股价开始了整体上涨,并呈现较大波动的态势。两家公司股价的走势并非单独个体现象,而是与同期 A股芯片、人工智能、算力等行业概念股票的走势呈现较大的相关性。 投资者提问,为什么11月29日上市公司披露重组 ...
5000亿巨头 突然终止并购 为什么?后续怎么办?
上海证券报· 2025-12-10 17:51
12月9日晚间,市值超5000亿元的海光信息突然宣布终止换股吸并中科曙光,市场一片哗然。12月10日收盘,中科曙光跌 停,海光信息微跌0.36%。 12月10日,海光信息召开终止重大资产重组投资者说明会,对投资者关注的多个问题,答疑解惑。 释疑重组终止:吸并双方的二级市场股价变化较大 此前,海光信息在公告中披露终止重组原因:由于本次交易规模较大、涉及相关方较多,使得重大资产重组方案论证历时 较长,目前市场环境较本次交易筹划之初发生较大变化,本次实施重大资产重组的条件尚不成熟,为切实维护上市公司和 广大投资者长期利益,经公司与交易各相关方友好协商、认真研究和充分论证,基于审慎性考虑,决定终止本次交易事 项。 有投资者向公司提问,能否具体说明当前市场环境与年初筹划重组时相比发生了哪些关键变化?为何条件不成熟了? 对此,海光信息董事、总经理沙超群表示,本次重组交易方案披露以来,吸并双方的二级市场股价变化较大。公司在筹备 本次重组时已对交易方案进行充分、审慎的论证,但市场环境变化有不可预计性。加之本次重组合并规模大、参与方多, 各方视角不同导致未能成功。本次交易终止不会对公司的生产经营和财务状况造成重大不利影响,不存 ...
5000亿巨头海光信息,突然终止并购,为什么?后续怎么办?
新浪财经· 2025-12-10 17:49
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 5000亿巨头,突然终止并购,为什么?后续怎么办? 12月9日晚间,市值超5000亿元的海光信息突然宣布终止换股吸并中科曙光,市场一片哗然。12月10日 收盘,中科曙光跌停,海光信息微跌0.36%。 12月10日,海光信息召开终止重大资产重组投资者说明会,对投资者关注的多个问题,答疑解惑。 释疑重组终止:吸并双方的二级市场股价变化较大 此前,海光信息在公告中披露终止重组原因:由于本次交易规模较大、涉及相关方较多,使得重大资产 重组方案论证历时较长,目前市场环境较本次交易筹划之初发生较大变化,本次实施重大资产重组的条 件尚不成熟,为切实维护上市公司和广大投资者长期利益,经公司与交易各相关方友好协商、认真研究 和充分论证,基于审慎性考虑,决定终止本次交易事项。 有投资者向公司提问,能否具体说明当前市场环境与年初筹划重组时相比发生了哪些关键变化?为何条 件不成熟了? 之本次重组合并规模大、参与方多,各方视角不同导致未能成功。本次交易终止不会对公司的生产经营 和财务状况造成重大不利影响,不存在损害公司及中小股东利益的情形。 沙超群进一步表示,市 ...
合并落空,45万股民无眠!中科、海光股民齐呼利好!机构:对海光没影响
新浪财经· 2025-12-10 07:21
事件概述 - 海光信息宣布终止吸收合并中科曙光 交易因规模大、涉及方多、方案论证历时长 且市场环境较筹划之初发生较大变化 导致重组条件不成熟 [1][7] 交易方案回顾 - 合并始于2024年5月 6月公布方案 海光信息拟以0.5525:1的换股比例向中科曙光全体A股股东发行股票进行吸收合并 并配套募集资金 [3][10] 公司业务概况 - 海光信息是高端处理器设计企业 主要产品为CPU和DCU CPU核心优势在于x86架构生态 DCU以GPGPU架构为基础 应用于数据中心、人工智能等领域 [3][10] - 中科曙光主营高端计算机、存储、安全、数据中心产品研发制造 并发展数字基础设施建设、智能计算等业务 [3][10] 合并初衷与市场观点 - 机构曾解读合并为超级利好 认为有助于打造完整国产算力产业生态 海光CPU与DCU产品性能及生态国内领先 有望受益于国产算力需求爆发 [3][10] 终止合并的市场影响与投资者反应 - 合并终止消息涉及海光信息12.75万股东及中科曙光32.35万股东 合计约45万投资者 [3][10] - 自合并筹划至终止 海光信息市值从3158亿元涨至5097亿元 中科曙光市值从约903亿元涨至1465亿元 两者股价均上涨超过60% [4][11] - 合并方案公布后首日 中科曙光股价涨停 海光信息上涨4.3% 但海光信息次日下跌4.5% 基本回到合并前股价水平 [4][11] - 部分投资者认为终止合并对海光信息有利 可提升估值上限 且其DCU产品因完全自主并能赶上AI算力风口而具备价值 [4][11] - 部分中科曙光投资者认为终止是利好 公司可避免被重组拖累 凭借全球领先的液冷技术、提升的服务器市场份额及开放生态 全力冲刺算力基建大潮 [5][11] - 市场存在担忧情绪 有投资者预测海光信息股价将跌停甚至出现三个跌停 但也有观点认为影响有限 最多回调10% 不会跌停 [5][13][14] - 有观点认为此次事件是筛选器 可使只看题材的投资者离场 资本市场将回归公司芯片技术本身的价值 [6][14] - 另有观点认为终止合并使海光信息能更专注对抗国际巨头 解除封印 且国产替代空间依然很大 [6][14] 疑似机构点评 - 疑似西部计算机观点认为 终止合并对海光信息几乎没有影响 由于中科曙光理论价格存在20%的套利折扣 市场对其能否顺利合并一直存疑 因此终止符合市场预期 [6][14]
自主可控算力赋能能源行业智能化升级
中国经济网· 2025-11-26 14:41
公司技术布局与产品体系 - 公司携CPU+DCU全栈算力体系及与能源央企的联合创新成果亮相全球能源转型大会 [1] - 公司通过覆盖数据中心、区域中心及边缘节点的算力体系,为能源企业提供从核心业务到现场应用的全程算力支撑 [1] - 公司DCU具备强大的并行计算能力和全精度支持特性,能够有效支撑千亿参数大模型的训练与推理 [1] - 基于CPU+DCU的协同计算架构,公司正在与能源企业合作构建新一代智能计算平台 [1] 行业趋势与公司战略意义 - 能源行业正经历由数字化向智能化升级的关键阶段 [1] - 构建自主可控、多层次、高可用的算力架构对保障国家能源安全和推动产业转型具有重要意义 [1] - 公司算力方案为能源行业的智能化升级提供核心算力支撑 [1] 能源行业具体应用案例 - 公司算力方案已在油气、电力等关键领域与多家头部行业龙头实现广泛应用 [2] - 在油气领域,基于公司芯片构建的自主可控云平台承载核心业务,系统稳定性及安全性获客户认可 [2] - 采用公司CPU+DCU架构建设的人工智能计算中心支撑勘探、炼化等多项AI场景 [2] - 基于公司芯片的"三朵云"平台实现能效显著提升 [2] - 在电力领域,公司算力支撑相关企业开展智能巡检与负荷预测,提升系统实时感知与调度水平 [2] - 通过公司CPU+DCU算力底座,实现风、光、储等多源能源的集中监测、状态分析与智能调度 [2] 生态合作与未来发展 - 公司通过覆盖全国的适配服务体系,与能源行业合作伙伴共同推进软硬件协同优化与场景创新 [2] - 公司致力于构建开放、可持续的国产算力生态 [2] - 公司将继续与能源行业深度合作,打造安全、高效、绿色的智慧能源算力底座,助力构建现代能源体系 [2]
海光信息亮相全球能源转型大会,以自主可控算力全面赋能能源行业智能化升级
中国发展网· 2025-11-25 12:59
大会背景与公司参与 - 全球能源转型大会于2025年11月22日在北京召开,由国务院国资委、生态环境部、国家能源局等部委领导及中国石油、中国石化、中国海油、国家电网等能源央企主要负责人出席 [1] - 海光信息作为国内领先的芯片设计企业参与大会,展示其CPU+DCU全栈算力体系及与能源央企的联合创新成果 [1] 行业趋势与战略意义 - 能源行业正经历由数字化向智能化升级的关键阶段,构建自主可控、多层次、高可用的算力架构对保障国家能源安全和推动产业转型具有重要意义 [3] - 面对能源行业对大模型训练、复杂工况仿真等智能计算需求的快速增长,需要强大的算力支撑 [3] 公司技术布局与解决方案 - 公司通过覆盖数据中心、区域中心及边缘节点的算力体系,为能源企业提供从核心业务到现场应用的全程算力支撑 [3] - 海光DCU具备强大的并行计算能力和全精度支持特性,能够有效支撑千亿参数大模型的训练与推理 [3] - 基于CPU+DCU的协同计算架构,公司正与能源企业合作构建新一代智能计算平台 [3] 应用案例与行业落地 - 在油气领域,基于海光芯片构建的自主可控云平台承载核心业务,系统稳定性及安全性获客户认可 [5] - 采用海光CPU+DCU架构建设人工智能计算中心,支撑勘探、炼化等多项AI场景 [5] - 基于海光芯片的"三朵云"平台实现能效显著提升 [5] - 在电力领域,海光算力支撑相关企业开展智能巡检与负荷预测,提升系统实时感知与调度水平 [5] - 通过海光CPU+DCU的算力底座,实现风、光、储等多源能源的集中监测、状态分析与智能调度 [5] 生态合作与未来规划 - 公司通过覆盖全国的适配服务体系,与能源行业合作伙伴共同推进软硬件协同优化与场景创新,构建开放、可持续的国产算力生态 [5] - 未来将继续与能源行业深度合作,打造安全、高效、绿色的智慧能源算力底座,助力构建现代能源体系 [5]
2025年国产AI芯片软件生态白皮书
搜狐财经· 2025-11-22 04:17
行业背景与核心观点 - 在国际科技竞争背景下,国产AI芯片已形成多厂商、多技术路线并行的竞争格局,用户关注点从硬件算力转向软件生态的成熟度、兼容性与易用性,软件生态成为决定芯片价值释放与商业化落地的关键[1] - 国产AI芯片软件生态已从"基础可用"迈向"特定场景可用",形成"全栈生态"与"兼容生态"两大主流路径,行业协同与标准化建设初见成效,但在工具链完备性、生态成熟度及开发者规模上与国际主流仍有差距[1] - 未来需坚持"标准化、开源化、协同化"发展,通过产学研协同发力,推动国产AI芯片软件生态从"好用"向"卓越"跨越,筑牢自主可控的技术体系[1] AI芯片软件生态核心架构 - AI芯片软件生态由基础支撑层、核心工具层、框架适配层与管理监控层四层架构构成,各模块通过"技术依赖-功能协同"形成闭环,共同作用于AI模型的训练与推理过程[1][14] - 基础支撑层作为"翻译与调度中枢"负责硬件算力抽象与资源调度,主要包括芯片驱动、底层库和系统运行时等组件,相当于AI芯片的操作系统[1][17] - 核心工具层作为"性能优化引擎"涵盖编译器、算子库、通信库等优化工具,是让算力真正高效发挥的关键[1][20] - 框架适配层通过"国际主流框架+国产插件"与"国产自研框架+多硬件适配"两条路径降低开发者迁移成本[1][25] - 管理监控层提供监控与调度保障系统稳定运行,是系统稳定的"运维保障屏障"[1][31] 国产AI芯片分类及厂商生态 - 国产AI芯片可分为专用加速芯片(华为昇腾、寒武纪等)、通用计算型芯片(海光DCU等)、图形计算型芯片(摩尔线程、壁仞科技等)[1] - 代表性厂商生态各有侧重:华为昇腾构建全栈自主生态,摩尔线程以兼容CUDA降低迁移成本,寒武纪侧重推理场景优化,海光DCU适配"HPC+AI"融合负载[1] - 以华为昇腾、寒武纪、地平线、沐曦、燧原科技、海光信息、壁仞科技、摩尔线程及天数智芯等为代表的一批本土企业,已成功推出一系列具有市场竞争力的AI芯片产品,在国内市场形成了多厂商、多技术路线并行的活跃竞争格局[10] 基础支撑层技术实践 - 基础支撑层通过抽象硬件复杂性,让上层开发者无需直接处理寄存器、DMA等细节,例如摩尔线程的MUSA SDK提供了底层编译器和运行时库,屏蔽了GPU硬件细节[17] - 华为昇腾提供的CANN包含基础支撑层部分,封装了异腾AI处理器的指令集和算子,实现对硬件的抽象和使能,并已全面开源[17] - 寒武纪的NeuWare基础系统同时支持云端、边缘和终端各类芯片,提供统一的底层接口,方便智能应用在不同算力设备间迁移和调优[19] - 基础支撑层还需提供健康检测、故障隔离与版本兼容的能力,华为昇腾提供了npu-smi作为GPU信息查询接口,通过K8S设备插件等工具,上层调度器可感知AI芯片资源状态[19] 核心工具层技术实现 - 核心工具层涵盖模型编译器、算子库、性能分析和调优工具等,核心组成是AI编译器/执行引擎,负责将上层训练好的模型转换为适配芯片的高效执行方案[20] - 寒武纪的MagicMind推理加速引擎可将用户在PyTorch、TensorFlow等框架训练好的模型一键编译为思元芯片可执行的代码,内部集成了基于MLIR的图编译技术[22] - 高度优化的算子库和性能库提供基础数学运算和深度学习常用算子的实现,例如摩尔线程MUSA SDK包含muBLAS、muDNN等加速库,寒武纪的NeuWare提供CNNL以加速卷积、矩阵乘等算子运算[22] - 通信库是实现多芯片协同计算的关键工具,寒武纪NeuWare软件栈内置了CNCL通信库和Horovod分布式框架适配,摩尔线程MUSA SDK包含自研的MCCL,沐曦联合开源社区提供拓扑感知的通信方案[23][24] 框架适配层迁移路径 - 框架适配层通过扩展现有框架的设备类型和算子实现,让原有模型代码以极少改动跑在国产芯片上,典型做法是为框架增加新的设备标识(如npu、mlu、musa)[25] - 华为昇腾社区维护的torch npu仓库是面向Ascend NPU的PyTorch扩展,寒武纪提供CATCH/Torch-MLU等扩展,摩尔线程开源torch musa项目在PyTorch中新增MUSA设备类型[26] - 国产通用软件栈通过插件方式支持多家国产芯片,PaddlePaddle及其部署组件FastDeploy、PaddleX已支持在NVIDIA GPU、百度昆仑XPU、华为Ascend NPU、寒武纪MLU、海光DCU等多种硬件上无缝切换[27] - 国产自研框架如MindSpore+Ascend、MagicMind+MLU将框架执行后端与国产芯片紧密绑定,PaddlePaddle、计图等国产通用框架从设计之初就面向多家国产加速硬件[28][29] 管理监控层运维保障 - 管理监控层负责系统运行维护和资源管控,随着AI训练集群规模扩大,监控硬件状态并调度资源变得至关重要,成熟的算力生态配套完善的监控和调度系统[31] - 监控工具充当AI芯片运行状态的"实时感知载体",帮助运维人员和上层调度实时了解系统健康和性能状况,包括硬件层面的温度、电压、功耗、利用率等指标[33] - 国产AI集群将GPU或NPU的关键指标对接到现有运维平台,华为云ModelArts平台支持用户接入Prometheus来获取Ascend异腾集群的监控指标,沐曦开发mx-smi监控工具,寒武纪提供cambricon-smi[33] - 调度工具的核心任务是在多用户、多任务共享AI芯片集群的场景下合理分配硬件资源,提升集群吞吐,避免资源碎片,防止任务互相干扰,现代AI调度工具引入GPU切分共享、拓扑感知调度等创新机制[36]