寒武纪芯片
搜索文档
2025年国产AI芯片软件生态白皮书
搜狐财经· 2025-11-22 04:17
行业背景与核心观点 - 在国际科技竞争背景下,国产AI芯片已形成多厂商、多技术路线并行的竞争格局,用户关注点从硬件算力转向软件生态的成熟度、兼容性与易用性,软件生态成为决定芯片价值释放与商业化落地的关键[1] - 国产AI芯片软件生态已从"基础可用"迈向"特定场景可用",形成"全栈生态"与"兼容生态"两大主流路径,行业协同与标准化建设初见成效,但在工具链完备性、生态成熟度及开发者规模上与国际主流仍有差距[1] - 未来需坚持"标准化、开源化、协同化"发展,通过产学研协同发力,推动国产AI芯片软件生态从"好用"向"卓越"跨越,筑牢自主可控的技术体系[1] AI芯片软件生态核心架构 - AI芯片软件生态由基础支撑层、核心工具层、框架适配层与管理监控层四层架构构成,各模块通过"技术依赖-功能协同"形成闭环,共同作用于AI模型的训练与推理过程[1][14] - 基础支撑层作为"翻译与调度中枢"负责硬件算力抽象与资源调度,主要包括芯片驱动、底层库和系统运行时等组件,相当于AI芯片的操作系统[1][17] - 核心工具层作为"性能优化引擎"涵盖编译器、算子库、通信库等优化工具,是让算力真正高效发挥的关键[1][20] - 框架适配层通过"国际主流框架+国产插件"与"国产自研框架+多硬件适配"两条路径降低开发者迁移成本[1][25] - 管理监控层提供监控与调度保障系统稳定运行,是系统稳定的"运维保障屏障"[1][31] 国产AI芯片分类及厂商生态 - 国产AI芯片可分为专用加速芯片(华为昇腾、寒武纪等)、通用计算型芯片(海光DCU等)、图形计算型芯片(摩尔线程、壁仞科技等)[1] - 代表性厂商生态各有侧重:华为昇腾构建全栈自主生态,摩尔线程以兼容CUDA降低迁移成本,寒武纪侧重推理场景优化,海光DCU适配"HPC+AI"融合负载[1] - 以华为昇腾、寒武纪、地平线、沐曦、燧原科技、海光信息、壁仞科技、摩尔线程及天数智芯等为代表的一批本土企业,已成功推出一系列具有市场竞争力的AI芯片产品,在国内市场形成了多厂商、多技术路线并行的活跃竞争格局[10] 基础支撑层技术实践 - 基础支撑层通过抽象硬件复杂性,让上层开发者无需直接处理寄存器、DMA等细节,例如摩尔线程的MUSA SDK提供了底层编译器和运行时库,屏蔽了GPU硬件细节[17] - 华为昇腾提供的CANN包含基础支撑层部分,封装了异腾AI处理器的指令集和算子,实现对硬件的抽象和使能,并已全面开源[17] - 寒武纪的NeuWare基础系统同时支持云端、边缘和终端各类芯片,提供统一的底层接口,方便智能应用在不同算力设备间迁移和调优[19] - 基础支撑层还需提供健康检测、故障隔离与版本兼容的能力,华为昇腾提供了npu-smi作为GPU信息查询接口,通过K8S设备插件等工具,上层调度器可感知AI芯片资源状态[19] 核心工具层技术实现 - 核心工具层涵盖模型编译器、算子库、性能分析和调优工具等,核心组成是AI编译器/执行引擎,负责将上层训练好的模型转换为适配芯片的高效执行方案[20] - 寒武纪的MagicMind推理加速引擎可将用户在PyTorch、TensorFlow等框架训练好的模型一键编译为思元芯片可执行的代码,内部集成了基于MLIR的图编译技术[22] - 高度优化的算子库和性能库提供基础数学运算和深度学习常用算子的实现,例如摩尔线程MUSA SDK包含muBLAS、muDNN等加速库,寒武纪的NeuWare提供CNNL以加速卷积、矩阵乘等算子运算[22] - 通信库是实现多芯片协同计算的关键工具,寒武纪NeuWare软件栈内置了CNCL通信库和Horovod分布式框架适配,摩尔线程MUSA SDK包含自研的MCCL,沐曦联合开源社区提供拓扑感知的通信方案[23][24] 框架适配层迁移路径 - 框架适配层通过扩展现有框架的设备类型和算子实现,让原有模型代码以极少改动跑在国产芯片上,典型做法是为框架增加新的设备标识(如npu、mlu、musa)[25] - 华为昇腾社区维护的torch npu仓库是面向Ascend NPU的PyTorch扩展,寒武纪提供CATCH/Torch-MLU等扩展,摩尔线程开源torch musa项目在PyTorch中新增MUSA设备类型[26] - 国产通用软件栈通过插件方式支持多家国产芯片,PaddlePaddle及其部署组件FastDeploy、PaddleX已支持在NVIDIA GPU、百度昆仑XPU、华为Ascend NPU、寒武纪MLU、海光DCU等多种硬件上无缝切换[27] - 国产自研框架如MindSpore+Ascend、MagicMind+MLU将框架执行后端与国产芯片紧密绑定,PaddlePaddle、计图等国产通用框架从设计之初就面向多家国产加速硬件[28][29] 管理监控层运维保障 - 管理监控层负责系统运行维护和资源管控,随着AI训练集群规模扩大,监控硬件状态并调度资源变得至关重要,成熟的算力生态配套完善的监控和调度系统[31] - 监控工具充当AI芯片运行状态的"实时感知载体",帮助运维人员和上层调度实时了解系统健康和性能状况,包括硬件层面的温度、电压、功耗、利用率等指标[33] - 国产AI集群将GPU或NPU的关键指标对接到现有运维平台,华为云ModelArts平台支持用户接入Prometheus来获取Ascend异腾集群的监控指标,沐曦开发mx-smi监控工具,寒武纪提供cambricon-smi[33] - 调度工具的核心任务是在多用户、多任务共享AI芯片集群的场景下合理分配硬件资源,提升集群吞吐,避免资源碎片,防止任务互相干扰,现代AI调度工具引入GPU切分共享、拓扑感知调度等创新机制[36]
DeepSeek 开源 AI 补齐产业链短板
国泰海通证券· 2025-11-04 14:26
好的,作为资深研究分析师,我将为您解读这份AI行业研报,总结关键投资要点。 报告行业投资评级 - 报告对AI算力芯片行业及相关公司给出“增持”评级 [82][83] 报告核心观点 - DeepSeek AI的崛起彰显了国产AI模型的竞争力,将加速国产AI应用渗透并推动国产算力需求增长 [25][82] - 全球AI算力投资持续高增长,2026年海外AI算力芯片出货量预计接近2000万颗 [17][19] - 国产算力产业链正逐步走向闭环,从芯片、超节点到软件生态不断完善 [25][30] AI应用与需求爆发 - DeepSeek上线18天日活达1500万,霸榜苹果应用商店140+国家/地区第一名 [10] - 2025年5月DeepSeek全球Web访问量达4.32亿次,仅次于ChatGPT、New Bing和Gemini [10] - 豆包大模型2025年5月日均tokens使用量超16.4万亿,较2024年5月同比增长约137倍 [10][14] - 谷歌2025年4月月度token用量达4800万亿次,同比增长约50倍 [14] - AI应用已渗透至金融、办公、社交与内容等多个领域 [12] 全球AI资本开支预测 - 2026年全球AI Capex预计达8578.44亿美元,同比增长43% [17][18] - 海外四大CSP(微软、谷歌、Meta、亚马逊)2026年Capex合计4762.5亿美元 [18] - 字节跳动2026年Capex预计2500亿元,同比增长39% [58] - 三大运营商2027年合计AI Capex预计1272.4亿元 [63] 国产算力芯片市场空间 - 国产AI算力芯片市场空间预计从2025年2379.87亿元增长至2027年6878.35亿元 [64] - 2026年国产算力芯片市场规模同比增长87%,2027年增长55% [64] - 地方智算中心2026-2027年合计新增算力需求367万颗,资本开支4406亿元 [59] 技术进展与性能对比 - 昇腾910C在FP16算力达780 TFLOPS,显存带宽3.2 TB/s,互联带宽784 GB/s [65] - CloudMatrix 384超节点在BF16算力达300 PFLOPS,为NVIDIA GB200 NVL72的1.7倍 [54] - 国产芯片在预填充过程中384超节点单卡性能接近H100 [71] - 2026年量产的950PR、思元690、DCU4将支持FP8精度 [67] 产业链竞争格局 - 芯片测试和软件适配成本高,云厂商会绑定1-2家第三方芯片供应商长期合作 [80][81] - 字节与寒武纪、阿里与海光已形成合作关系,腾讯供应商尚未确定 [81] - 具备大客户资源的厂商才能完成盈利闭环并获得稳定的先进制程产能 [80] 政策环境支持 - 2025年8-9月多项“人工智能+”政策密集出台,目标2030年AI应用普及率超90% [57] - 政策推动能源、交通运输等领域AI深度融合,为行业发展提供有力支撑 [57]
订单量激增 国产软硬件生态同频共振
21世纪经济报道· 2025-10-24 07:42
核心观点 - 国产算力产业链企业正从技术攻坚阶段迈入规模化应用发展阶段,表现为订单激增、存货攀升和销售回款增长 [1][11] 海光信息财务表现 - 第三季度营业收入40.26亿元,同比增长69.6% [1] - 第三季度归母净利润约7.6亿元,同比增长13.04% [1] - 前三季度经营活动现金流量净额22.55亿元,同比增长465.64% [2] - 第三季度合同负债28亿元,远超2024年末的9.03亿元 [2] - 第三季度末存货65.02亿元,相比2024年末的54.25亿元有所增加 [2] 寒武纪财务表现 - 第三季度营业收入17.27亿元,同比增长1332.52% [2] - 第三季度归母净利润5.67亿元,上年同期亏损1.94亿元 [2] - 前三季度经营活动现金流为-0.29亿元,相比2024年同期的-18.1亿元大幅改善 [3] - 前三季度已实现营业收入46.07亿元,预计2025年全年营收50亿元至70亿元 [3] - 第三季度存货37.29亿元,约为2024年末17.74亿元的一倍多 [3] - 第三季度合同负债7961万元,远超上年末的88.62万元 [3] 沐曦股份财务表现 - 2025年1-6月亏损约1.86亿元,同比减亏63.74% [4] - 上半年营业收入同比增长404.51%,约9.15亿元 [4] - 预计前三季度营收同比增加437.36%至464.23%,达到12亿元至12.6亿元 [4] - 预计前三季度归母净利润亏损3亿元至3.8亿元,同比减亏51.38%至61.62% [4] 行业订单与生态建设 - 中国联通79.6亿元服务器集采中国产算力占超70亿元 [7] - 中国工商银行30亿元服务器招标全部采用海光芯片 [7] - 寒武纪实现Day 0适配DeepSeek-V3.2-Exp大模型并开源推理引擎 [8] - 海光信息DCU产品实现大模型算力零等待部署 [8] - 海光信息开放系统互联总线协议,构建涵盖超6000家合作伙伴的生态链 [9] - 中科曙光联合20多家伙伴发布国内首个AI计算开放架构,支持百万卡扩展 [9]
寒武纪的加单传闻分析
傅里叶的猫· 2025-10-22 19:05
市场传闻与订单分析 - 市场传闻称三大运营商向寒武纪下达明年每月一万张AI芯片订单 [1] - 据传字节跳动向寒武纪追加500亿人民币订单并要求交付30万颗690芯片 [1] - 公司入股村龙后获得每月8000片晶圆产能支持据称可支撑600亿产值 [1] - 寒武纪今年前三季度总营收为46亿人民币若传闻订单属实则明年营收可达今年10倍 [3] 国产AI芯片行业逻辑 - 寒武纪客户群体广泛包括CSP大厂国家超算中心头部安防公司和多家车企 [5] - 寒武纪核心优势在于其产品已被客户真实使用并形成反馈闭环有助于产品迭代升级类似CUDA发展路径 [6] - 阿里PPU在阿里云上不仅内部使用也租赁给外部用户昇腾在华为及其他互联网公司被大量使用这些均为真实应用场景 [6] - 若GPU大客户主要为国资或信创项目则可能无法获得足够真实的使用反馈 [6] AI推理市场需求 - 某CSP预计今年全年处理27万亿至30万亿Token年底可能达60万亿Token明年或增至400万亿至500万亿Token [6] - 明年推理需求对应需要约330万到350万张推理卡支持其中约200万张用于国内任务占比约三分之二 [6] - 行业趋势显示未来推理需求将远超训练需求可达训练的3至10倍 [6] - 当前仍进行大模型训练的公司已屈指可数大部分公司业务集中于推理环节 [7] 国产芯片竞争力与政策环境 - 国产AI芯片在大模型训练方面优势有限但已能满足推理需求 [7] - 大摩报告指出国内几家GPU公司的芯片设计能力非常强 [7] - 对英伟达H20和RTX Pro 6000D的严格审查除安全考量外根本原因在于已有国产替代产品 [9]
章建平,加仓寒武纪
财联社· 2025-10-17 20:57
财务表现 - 第三季度实现营收17.27亿元,同比增长1332.52%,环比第二季度下降2.4% [3] - 前三季度累计营收46.07亿元,同比增长2386.38% [3] - 公司预计2025年全年营业收入为50亿元至70亿元 [4] - 第三季度归母净利润5.67亿元,同比实现扭亏为盈,但环比第二季度下降17% [5] - 前三季度归母净利润累计16.05亿元 [5] 运营与研发 - 第三季度研发投入2.58亿元,较上年同期增长22.05% [8] - 业绩大幅增长主要源于公司持续拓展市场,积极助力人工智能应用落地 [7] - 第三季度末合同负债金额为7960万元,较第二季度末减少约4.6亿元 [9] - 第三季度末预付款项为6.9亿元,低于第二季度末的8.3亿元 [10] - 第三季度末存货金额为37.29亿元,较第二季度末增加约10.39亿元 [11] 市场与股东 - 知名投资者章建平第三季度增持约32万股,期末持股超640万股,占总股本1.53%,对应市值84.89亿元,成为第五大股东 [11] - 公司产品在运营商、金融、互联网等重点行业规模化部署,并通过严苛环境验证,软硬件平台可靠性和易用性持续优化 [11] 技术与合作 - 公司芯片产品与国产AI模型适配取得进展,智谱GLM-4.6在寒武纪芯片上实现FP8+Int4混合量化部署,为国产芯片在大模型本地化运行开创可行路径 [12] - 公司完成对DeepSeek-V3.2-Exp模型的适配,并开源大模型推理引擎vLLM-MLU源代码,结合新注意力机制可降低长序列场景成本 [12] - 公司与商汤科技签署战略合作协议,重点推进软硬件联合优化,共同构建产业生态,并打造面向算力市场和垂直领域的一体机解决方案 [12] 行业与政策 - 国务院印发意见,提出大力发展智能终端,刺激国内算力需求上涨 [13] - 分析师观点认为,公司训练平台适配主流国产模型,与算力需求端对接良好,有望快速获取订单并扩大市场份额 [13]
DeepSeek新模型上线,昇腾、寒武纪、海光等宣布适配
观察者网· 2025-09-30 14:16
模型发布与技术特点 - DeepSeek-V3.2-Exp模型于9月29日正式发布并开源,引入稀疏Attention架构,据称能有效降低计算资源消耗并提升模型推理效率 [1] - DeepSeek大幅下调API价格,降价幅度超过50% [1] 国产AI芯片适配进展 - 华为昇腾宣布基于vLLM/SGLang等推理框架完成DeepSeek-V3.2-Exp的0day支持适配部署,并向开发者开源所有推理代码和算子实现 [1] - 寒武纪同步实现对DeepSeek-V3.2-Exp的适配,依托DeepSeek Sparse Attention机制叠加寒武纪的极致计算效率,可大幅降低长序列场景下的训推成本 [1] - 海光信息宣布其DCU实现对DeepSeek-V3.2-Exp的无缝适配和深度调优,模型在海光DCU上展现出优异性能 [1] 市场反应与板块表现 - 受消息提振,9月30日市场早盘震荡拉升,科创50指数表现强势,AI芯片和华为昇腾概念活跃 [2] - 截至下午1点30分,品茗科技涨超19%,铂科新材涨超14%,恒烁股份涨超11%,云天励飞-U和昆仑万维等跟涨 [2] 行业意义与发展趋势 - 业界分析指出此次软硬件“双向奔赴”的意义远超单点技术突破,标志着国产AI生态从“可用”向“好用”演进,形成从底层算力到上层应用的闭环 [2] - 通过芯片与模型的联合创新,自主可控的技术链条降低了对外部供应链的依赖,为行业提供更具竞争力的软硬件一体化解决方案 [2] - 大模型与生成式AI正快速从云端走向消费终端,各巨头加紧构建软硬件一体的AI生态,短期有望提升产品附加值和用户黏性 [2] - 长期看谁能率先打造出“AI+硬件”的杀手级应用,谁就能在下一波计算平台竞争中占得先机,这也将成为资本市场衡量科技公司成长性的关键指标 [2]
道氏技术(300409.SZ):芯培森APU算力芯片及服务器主要针对原子级科学计算进行加速
格隆汇· 2025-09-22 15:10
公司业务与技术定位 - 公司参股企业芯培森的APU芯片与寒武纪芯片在科学计算领域存在应用场景重叠 [1] - 芯培森APU算力芯片及服务器主要针对原子级科学计算进行专项加速 [1] 行业应用与市场布局 - 寒武纪芯片产品已实际部署于南京智能计算中心 [1] - 寒武纪芯片技术覆盖科学计算等多个应用领域 [1]
从学校学渣到全球富豪:他失去华为却赢下世界,中国芯片惊天逆转
搜狐财经· 2025-09-21 04:03
公司股价与市值表现 - 寒武纪股价一度冲上1464.98元,取代贵州茅台成为A股新晋股王 [1] - 公司市值突破5000亿至6000亿大关 [43] - 董事长陈天石持股29.63%,个人财富达870亿至1500亿 [1][43] 技术研发突破历程 - 2014年与兄陈云霁合作论文获计算机体系结构顶级会议最佳论文奖,系亚洲学者首次获得该荣誉 [21] - 2015年成功研制全球首款深度学习处理器原型芯片"寒武纪" [21] - 2023年推出云端AI芯片思元590,性能满足市场爆发性需求 [38] 战略转型与财务表现 - 2020年收入4.59亿情况下研发支出达7.68亿,研发费用占比超40% [33] - 2023年上半年营收28.81亿元,同比暴涨4347% [40] - 首次实现半年度盈利10.38亿元,终结连续八年亏损 [40] 客户结构与合作关系 - 2017年与华为合作麒麟970芯片,该业务曾占公司总营收97% [27][29] - 2019年华为转向自研架构导致合作终止 [29] - 2023年获阿里、字节、腾讯、中国移动等巨头大额订单 [38] 行业环境与政策影响 - 2022年被美国列入实体清单,失去先进设计工具与台积电代工渠道 [29] - 2023年美国加码对英伟达高端芯片出口限制,创造国产AI芯片市场真空 [35] - AI大模型时代推动全球算力需求爆炸式增长 [35] 公司发展里程碑 - 2016年正式成立公司,被誉为全球智能芯片领域首个独角兽 [23][25] - 天使轮获科大讯飞与元禾原点投资,A轮融资1亿美元 [25] - 团队规模曾扩张至近千人,后经历核心技术人员离职 [27][29]