Workflow
DeepSeek-R2发布在即,参数量翻倍,华为昇腾芯片利用率达82%!
Seek .Seek .(US:SKLTY) 搜狐财经·2025-04-29 15:17

模型参数与架构 - DeepSeek-R2采用混合专家模型(MoE)架构,配备智能门控网络层以优化高负载推理任务性能 [5] - 模型总参数量达1.2万亿,较DeepSeek-R1(6710亿参数)提升约1倍 [5] - 规模对标ChatGPT的GPT-4 Turbo和谷歌Gemini 2.0 Pro [5] 硬件与算力效能 - 基于华为昇腾910B芯片集群训练,FP16精度下算力达512 PetaFLOPS,芯片利用率82% [7] - 昇腾910B集群算力达同规模A100集群的91%(华为实验室数据) [7] - 单位推理成本降至0.07美元/百万token,较GPT-4(0.27美元/百万token)下降97.4% [8] 供应链与生态合作 - 华为昇腾生态核心代工厂承接DeepSeek超算中心50%以上算力基建订单(拓维信息) [7] - 英博数科独家运营华北算力节点,储备3000P+AI算力(鸿博股份) [7] - 中科曙光提供国产液冷服务器集群,单机柜功率密度40kW [7] - 云暴智联为DeepSeek搭建政务大模型专用云,落地15个省级智慧城市项目 [7] - 新易盛CPO硅光方案通过验证,能耗降低35% [7] - 润建股份运维华南超算中心,年服务合同金额超5亿元 [7] - 中贝通信运维西北算力中心,储备1500P异构算力 [7] 国产化替代进展 - 昇腾910B集群降低对英伟达A100等海外芯片依赖 [10] - 华为昇腾910C芯片进入量产阶段,CloudMatrix 384超节点采用384颗910C芯片,或替代英伟达NVL72集群 [10]