FP8 数据格式 - 财报，业绩电话会，研报，新闻

FP8 数据格式

搜索文档

2026-04-13 14:13

行业与公司 * **涉及的行业**：人工智能（AI）算力产业，特别是AI芯片、服务器集群及配套基础设施[1] * **涉及的公司**：华为（升腾芯片）、寒武纪、海光信息、盛科通信、华丰科技[1]；英伟达、谷歌（TPU）作为行业参照[3] 核心观点与论据 * **AI算力发展重心转移**：AI算力正经历从训练向推理的重大转变，全球软硬件发展重心均向推理倾斜[2] * **训练算力**：核心形态是**万卡以上规模**的超大集群，追求**规模化与稳定性**，确保大规模数据吞吐[2] * **推理算力**：核心需求是**低延迟**，而非规模化，形态演变为几十至几百张卡的“**超节点**”[1][2] * **推理时代核心技术演进**：为满足低延迟需求，技术演进呈现两大特征[2] * **算力池化**：在小型集群内实现计算与存储资源共享（如RDMA技术），加速专家模型间交互[2] * **硬件创新**：例如英伟达提出的**Prefill与Decode分离（PD分离）**理念，以及为缩短首个token生成时间设计的**LPU芯片**[2] * **“超节点”成为核心落地形式**：“超节点”是由几十到几百张AI加速卡组成的小型集群，通过集成算力池化、低延迟光通信（CPO、OCS）及专门推理芯片来满足大模型推理的低延迟需求[3] * **2026年为国产超节点落地元年**：关键原因在于新一代国产AI芯片在性能和功能上实现质的飞跃，能够满足大模型深度推理需求[4] * **过去瓶颈**：旧款国产算力卡（如华为910B/C、寒武纪580）进行大规模深度推理时性能一般，主要因**不支持FP8格式**且**无法有效构建超节点**[4] * **新一代突破**：2026年面世的新一代国产芯片（华为950系列、寒武纪690、海光深算4号）均实现两大关键突破[4] 1. **全面支持构建超节点架构**[4] 2. **支持FP8乃至FP4等新一代数据格式**[4] * **国产芯片技术领先性**：**华为升腾950系列**是全球首款真正实现PD分离的芯片，**领先英伟达同类产品约1年**，预计2026年Q4推出950-DT[1][3] * **DeepSeek-V4模型进展与影响**：DeepSeek-V4训练已基本完成，正处于与**国产算力卡适配**的收尾阶段[1][2]；其**模式分离设计**（专家/普通模式）旨在平衡用户体验与算力成本，并为未来商业模式探索奠定基础[2]；若V4模型成功适配并推出，将对**国产算力卡产业构成重大利好**[2] 市场预期与数据 * **2026年国产AI芯片出货量预期**：预计总出货量达**100-120万张以上**，较2025年显著增长[1][4] * 其中，**华为**出货量预计至少在**70万张以上**[1][4] * **寒武纪**出货量预计约**30-40万张**[1][4] * **未来展望**：若基于国产卡的超节点在2026年成功落地并大规模应用于推理，考虑到Token需求的指数级增长，**2027年的出货量将迎来更大幅度放大**[4] 投资机会与标的 * **核心投资机会**：围绕**国产AI芯片及其产业链**[4] * **具体关注标的**： * **海光信息**：一季报显示**存货显著增长**，表明新一代芯片已开始备货销售[1][5] * **寒武纪**：即将推出的**690芯片**采用全新架构，支持超节点及FP4/FP8数据格式，性能值得期待[1][5] * **盛科通信**：其**交换机芯片**已在部分大厂实现落地且进展迅速[1][5] * **华丰科技**：作为**华为AI芯片产业链中的连接器供应商**，具备较好的业绩弹性[1][5] 其他重要信息 * **行业参与者布局**：英伟达率先提出超节点理念并持续推进；谷歌推出了基于TPU v7的64卡小型集群（典型超节点应用），但其技术体系相对封闭[3] * **模式分离的行业背景**：DeepSeek推出专家模式与普通模式并非首创，这已成为大模型行业通行的做法[2]