今年要重视国产超节点

行业与公司 * 涉及的行业：人工智能（AI）算力产业，特别是AI芯片、服务器集群及配套基础设施[1] * 涉及的公司：华为（升腾芯片）、寒武纪、海光信息、盛科通信、华丰科技[1]；英伟达、谷歌（TPU）作为行业参照[3] 核心观点与论据 * AI算力发展重心转移：AI算力正经历从训练向推理的重大转变，全球软硬件发展重心均向推理倾斜[2] * 训练算力：核心形态是万卡以上规模的超大集群，追求规模化与稳定性，确保大规模数据吞吐[2] * 推理算力：核心需求是低延迟，而非规模化，形态演变为几十至几百张卡的“超节点”[1][2] * 推理时代核心技术演进：为满足低延迟需求，技术演进呈现两大特征[2] * 算力池化：在小型集群内实现计算与存储资源共享（如RDMA技术），加速专家模型间交互[2] * 硬件创新：例如英伟达提出的Prefill与Decode分离（PD分离）理念，以及为缩短首个token生成时间设计的LPU芯片[2] * “超节点”成为核心落地形式：“超节点”是由几十到几百张AI加速卡组成的小型集群，通过集成算力池化、低延迟光通信（CPO、OCS）及专门推理芯片来满足大模型推理的低延迟需求[3] * 2026年为国产超节点落地元年：关键原因在于新一代国产AI芯片在性能和功能上实现质的飞跃，能够满足大模型深度推理需求[4] * 过去瓶颈：旧款国产算力卡（如华为910B/C、寒武纪580）进行大规模深度推理时性能一般，主要因不支持FP8格式且无法有效构建超节点[4] * 新一代突破：2026年面世的新一代国产芯片（华为950系列、寒武纪690、海光深算4号）均实现两大关键突破[4] 1. 全面支持构建超节点架构[4] 2. 支持FP8乃至FP4等新一代数据格式[4] * 国产芯片技术领先性：华为升腾950系列是全球首款真正实现PD分离的芯片，领先英伟达同类产品约1年，预计2026年Q4推出950-DT[1][3] * DeepSeek-V4模型进展与影响：DeepSeek-V4训练已基本完成，正处于与国产算力卡适配的收尾阶段[1][2]；其模式分离设计（专家/普通模式）旨在平衡用户体验与算力成本，并为未来商业模式探索奠定基础[2]；若V4模型成功适配并推出，将对国产算力卡产业构成重大利好[2] 市场预期与数据 * 2026年国产AI芯片出货量预期：预计总出货量达100-120万张以上，较2025年显著增长[1][4] * 其中，华为出货量预计至少在70万张以上[1][4] * 寒武纪出货量预计约30-40万张[1][4] * 未来展望：若基于国产卡的超节点在2026年成功落地并大规模应用于推理，考虑到Token需求的指数级增长，2027年的出货量将迎来更大幅度放大[4] 投资机会与标的 * 核心投资机会：围绕国产AI芯片及其产业链[4] * 具体关注标的： * 海光信息：一季报显示存货显著增长，表明新一代芯片已开始备货销售[1][5] * 寒武纪：即将推出的690芯片采用全新架构，支持超节点及FP4/FP8数据格式，性能值得期待[1][5] * 盛科通信：其交换机芯片已在部分大厂实现落地且进展迅速[1][5] * 华丰科技：作为华为AI芯片产业链中的连接器供应商，具备较好的业绩弹性[1][5] 其他重要信息 * 行业参与者布局：英伟达率先提出超节点理念并持续推进；谷歌推出了基于TPU v7的64卡小型集群（典型超节点应用），但其技术体系相对封闭[3] * 模式分离的行业背景：DeepSeek推出专家模式与普通模式并非首创，这已成为大模型行业通行的做法[2]