Workflow
FP8 数据格式
icon
搜索文档
今年要重视国产超节点
2026-04-13 14:13
行业与公司 * **涉及的行业**:人工智能(AI)算力产业,特别是AI芯片、服务器集群及配套基础设施[1] * **涉及的公司**:华为(升腾芯片)、寒武纪、海光信息、盛科通信、华丰科技[1];英伟达、谷歌(TPU)作为行业参照[3] 核心观点与论据 * **AI算力发展重心转移**:AI算力正经历从训练向推理的重大转变,全球软硬件发展重心均向推理倾斜[2] * **训练算力**:核心形态是**万卡以上规模**的超大集群,追求**规模化与稳定性**,确保大规模数据吞吐[2] * **推理算力**:核心需求是**低延迟**,而非规模化,形态演变为几十至几百张卡的“**超节点**”[1][2] * **推理时代核心技术演进**:为满足低延迟需求,技术演进呈现两大特征[2] * **算力池化**:在小型集群内实现计算与存储资源共享(如RDMA技术),加速专家模型间交互[2] * **硬件创新**:例如英伟达提出的**Prefill与Decode分离(PD分离)**理念,以及为缩短首个token生成时间设计的**LPU芯片**[2] * **“超节点”成为核心落地形式**:“超节点”是由几十到几百张AI加速卡组成的小型集群,通过集成算力池化、低延迟光通信(CPO、OCS)及专门推理芯片来满足大模型推理的低延迟需求[3] * **2026年为国产超节点落地元年**:关键原因在于新一代国产AI芯片在性能和功能上实现质的飞跃,能够满足大模型深度推理需求[4] * **过去瓶颈**:旧款国产算力卡(如华为910B/C、寒武纪580)进行大规模深度推理时性能一般,主要因**不支持FP8格式**且**无法有效构建超节点**[4] * **新一代突破**:2026年面世的新一代国产芯片(华为950系列、寒武纪690、海光深算4号)均实现两大关键突破[4] 1. **全面支持构建超节点架构**[4] 2. **支持FP8乃至FP4等新一代数据格式**[4] * **国产芯片技术领先性**:**华为升腾950系列**是全球首款真正实现PD分离的芯片,**领先英伟达同类产品约1年**,预计2026年Q4推出950-DT[1][3] * **DeepSeek-V4模型进展与影响**:DeepSeek-V4训练已基本完成,正处于与**国产算力卡适配**的收尾阶段[1][2];其**模式分离设计**(专家/普通模式)旨在平衡用户体验与算力成本,并为未来商业模式探索奠定基础[2];若V4模型成功适配并推出,将对**国产算力卡产业构成重大利好**[2] 市场预期与数据 * **2026年国产AI芯片出货量预期**:预计总出货量达**100-120万张以上**,较2025年显著增长[1][4] * 其中,**华为**出货量预计至少在**70万张以上**[1][4] * **寒武纪**出货量预计约**30-40万张**[1][4] * **未来展望**:若基于国产卡的超节点在2026年成功落地并大规模应用于推理,考虑到Token需求的指数级增长,**2027年的出货量将迎来更大幅度放大**[4] 投资机会与标的 * **核心投资机会**:围绕**国产AI芯片及其产业链**[4] * **具体关注标的**: * **海光信息**:一季报显示**存货显著增长**,表明新一代芯片已开始备货销售[1][5] * **寒武纪**:即将推出的**690芯片**采用全新架构,支持超节点及FP4/FP8数据格式,性能值得期待[1][5] * **盛科通信**:其**交换机芯片**已在部分大厂实现落地且进展迅速[1][5] * **华丰科技**:作为**华为AI芯片产业链中的连接器供应商**,具备较好的业绩弹性[1][5] 其他重要信息 * **行业参与者布局**:英伟达率先提出超节点理念并持续推进;谷歌推出了基于TPU v7的64卡小型集群(典型超节点应用),但其技术体系相对封闭[3] * **模式分离的行业背景**:DeepSeek推出专家模式与普通模式并非首创,这已成为大模型行业通行的做法[2]