计算机行业深度研究报告：国产智算芯片：需求强劲，性能生态再进阶

行业投资评级 - 推荐（维持）国产智算芯片行业投资评级 [2] 核心观点 - 全球智算算力需求持续高景气国产智算市场空间广阔 [5] - 硬件性能呈多维技术路线国产算力方案竞争力得验证 [5] - 软件兼容性适配自主标准国产生态逐步突破CUDA垄断 [5] - 建议关注算力产业方向包括芯片服务器数据中心交换机硬件/端侧等细分领域 [5] 智算需求高企：模型迭代与推理、资本开支和政策多重共振 - 全球AI算力基建投入持续爆发 OpenAI"星际之门"计划投资5000亿美元 xAI Colossus配备20万块H100GPU Meta建设两个"吉瓦级"超级计算集群 [5][10] - 主权AI布局提速阿联酋建设5GW AI园区支持约250万颗B200芯片运行欧盟投入100亿欧元建设13家人工智能工厂 [5][11] - 国内Token日消耗量从2024年初千亿级跃升至2025年3月十万亿级一年增长100倍 [5][13] - 2025-2029年中国智算芯片市场CAGR为53.7% GPU份额由69.9%升至77.3% [5][18] - 截至2024年底国内AIDC累计投入超过1875亿元阿里巴巴计划2025-2027年投入超3800亿元建设云和AI基础设施 [5][23] - 2024年三大运营商资本开支总额3188.7亿元 2025年计划降至2898亿元但算力与AI相关投入逆势增长 [26] - 美国实体清单持续扩容国产替代加速 2024年我国智算芯片出货量占比超30% [5][36] 硬件性能突破：多维技术路线并行 - 中芯国际14nm良率>95% 7nm量产稳步推进华为昇腾910C以7nm+EUV工艺将FP16算力推至448 TFLOPS 较910B功耗降15% [5][41] - 华为昇腾910C采用Chiplet双芯封装 1024芯片集群FP16算力达819.2PFLOPS 可对标NVIDIA H100集群 [5][47] - 寒武纪思元590支持8芯片级联 FP16集群算力2.048 PFLOPS [5][47] - 华为CloudMatrix384单机柜集成384颗昇腾910与192颗鲲鹏CPU FP16峰值300 PFLOPS 跨节点延迟<1µs 线性扩展度95% [5][57] - 在DeepSeek-R1预填充效率4.45 tokens/s/TFLOPS 优于SGLang在NVIDIA H100默认配置下的3.18 tokens/s/TFLOPS [5][60] 软件生态突围：从兼容适配迁移到自主标准 - NVIDIA凭15年CUDA沉淀形成全球数百万开发者依赖的生态闭环 2024年3月EULA再禁转译层运行阻断第三方兼容路径 [5][64] - 华为CANN 海光DTK 寒武纪BANG+MagicMind等自研软件栈同步落地 [5][73] - 商汤DeepLink跨10余款国产芯片完成千亿参数模型20天不间断训练效率保持95% [5][76] - 信通院AISHPerf 无问芯穹Infini-AI 阶跃星辰"模芯联盟"推动国产模型与芯片从适配走向全链路协同 [5][80] - 伴随《算力互联互通能力要求》 "一度算力"计量标准及400G ROADM网络落地全国算力正由"可用"向"可交易可调度可度量"升级 [5]