行业与公司 * 涉及的行业:人工智能(AI)算力产业,特别是AI芯片、服务器集群及配套基础设施[1] * 涉及的公司:华为(升腾芯片)、寒武纪、海光信息、盛科通信、华丰科技[1];英伟达、谷歌(TPU)作为行业参照[3] 核心观点与论据 * AI算力发展重心转移:AI算力正经历从训练向推理的重大转变,全球软硬件发展重心均向推理倾斜[2] * 训练算力:核心形态是万卡以上规模的超大集群,追求规模化与稳定性,确保大规模数据吞吐[2] * 推理算力:核心需求是低延迟,而非规模化,形态演变为几十至几百张卡的“超节点”[1][2] * 推理时代核心技术演进:为满足低延迟需求,技术演进呈现两大特征[2] * 算力池化:在小型集群内实现计算与存储资源共享(如RDMA技术),加速专家模型间交互[2] * 硬件创新:例如英伟达提出的Prefill与Decode分离(PD分离)理念,以及为缩短首个token生成时间设计的LPU芯片[2] * “超节点”成为核心落地形式:“超节点”是由几十到几百张AI加速卡组成的小型集群,通过集成算力池化、低延迟光通信(CPO、OCS)及专门推理芯片来满足大模型推理的低延迟需求[3] * 2026年为国产超节点落地元年:关键原因在于新一代国产AI芯片在性能和功能上实现质的飞跃,能够满足大模型深度推理需求[4] * 过去瓶颈:旧款国产算力卡(如华为910B/C、寒武纪580)进行大规模深度推理时性能一般,主要因不支持FP8格式且无法有效构建超节点[4] * 新一代突破:2026年面世的新一代国产芯片(华为950系列、寒武纪690、海光深算4号)均实现两大关键突破[4] 1. 全面支持构建超节点架构[4] 2. 支持FP8乃至FP4等新一代数据格式[4] * 国产芯片技术领先性:华为升腾950系列是全球首款真正实现PD分离的芯片,领先英伟达同类产品约1年,预计2026年Q4推出950-DT[1][3] * DeepSeek-V4模型进展与影响:DeepSeek-V4训练已基本完成,正处于与国产算力卡适配的收尾阶段[1][2];其模式分离设计(专家/普通模式)旨在平衡用户体验与算力成本,并为未来商业模式探索奠定基础[2];若V4模型成功适配并推出,将对国产算力卡产业构成重大利好[2] 市场预期与数据 * 2026年国产AI芯片出货量预期:预计总出货量达100-120万张以上,较2025年显著增长[1][4] * 其中,华为出货量预计至少在70万张以上[1][4] * 寒武纪出货量预计约30-40万张[1][4] * 未来展望:若基于国产卡的超节点在2026年成功落地并大规模应用于推理,考虑到Token需求的指数级增长,2027年的出货量将迎来更大幅度放大[4] 投资机会与标的 * 核心投资机会:围绕国产AI芯片及其产业链[4] * 具体关注标的: * 海光信息:一季报显示存货显著增长,表明新一代芯片已开始备货销售[1][5] * 寒武纪:即将推出的690芯片采用全新架构,支持超节点及FP4/FP8数据格式,性能值得期待[1][5] * 盛科通信:其交换机芯片已在部分大厂实现落地且进展迅速[1][5] * 华丰科技:作为华为AI芯片产业链中的连接器供应商,具备较好的业绩弹性[1][5] 其他重要信息 * 行业参与者布局:英伟达率先提出超节点理念并持续推进;谷歌推出了基于TPU v7的64卡小型集群(典型超节点应用),但其技术体系相对封闭[3] * 模式分离的行业背景:DeepSeek推出专家模式与普通模式并非首创,这已成为大模型行业通行的做法[2]
今年要重视国产超节点
2026-04-13 14:13