傅里叶的猫
搜索文档
国产GPU市场调研
傅里叶的猫· 2025-09-02 23:41
大厂算力卡采购 - 某CSP大厂A2025年采购预算达1400亿人民币 其中CPU部分约500亿 GPU部分超900亿[3] - 海外采购预算超500亿 原计划85%-90%采购NVIDIA高端产品 但因供货延迟 部分份额转向AMD的MI350方案[3] - 国内采购预算超400亿 受政策影响 NVIDIA产品实际采购额从计划超200亿降至60-70亿 H20新增订单审批困难[4] - 大厂采购策略转向性价比选项或等待政策明朗 采购谨慎度提升[4] 柜式方案趋势 - NVIDIA柜式方案在推理需求背景下价值凸显 未来2-3年推理需求可能达训练需求的10倍[5] - B30为32卡整机方案 GB30为72卡方案 B30预计2025年Q3流片 Q4送样[5] - 若中美关税谈判进展顺利 B30和G30采购金额预计160-200亿 但审批难度大[5] - GPU芯片交付逐步转向柜式方案 国产厂商存在跟进机会[5] 国产芯片现状 - 寒武纪2025年预计获大厂A采购12-13万张芯片 单卡价格约7万元 预算80亿 GPU部分金额占比50-60亿[6] - 寒武纪业绩与采购量直接关联 此前传闻20-30万张采购不现实[6] - 690芯片性能参数达800以上 但2025年内难交付 不会成为明年业绩主力[6] - 昆仑芯上半年营收20多亿 全年目标50亿 获大厂B 移动 比亚迪等订单[7] - 沐曦C550测试效果一般 天数8150处于尝试阶段 国产芯片公司积极拓展云服务[7] GPU信创政策 - 2025年7月三部委牵头核对GPU信创名录 40多家企业参与测试 30多家为新面孔[8] - 信创名录纳入GPU后 国资企业设备更新需求将释放 国产芯片获政策利好[8] - 寒武纪 昇腾等厂商有望从政府和国资获得更多订单[8] 云服务生态建设 - 2025年寒武纪 昇腾将作为火山引擎资源对外出租 百度昆仑芯同步开放云服务[9] - 云厂商通过出租消化过剩算力 服务互联网公司和高校 形成正循环生态[9] - 阿里和百度2025年云营收预期乐观 政策推动下采购与出租协同发展[9]
昇腾产业链中的哪部分价值量最高?
傅里叶的猫· 2025-09-01 23:05
文章核心观点 - 高速背板线模组在华为昇腾产业链中价值量最高 远超光模块和液冷等热门环节[2] - 华丰科技作为高速连接器龙头 是昇腾产业链核心供应商 同时获得华为哈勃投资持股2.95%[4][10] - 公司新增阿里等互联网客户订单 开启第二增长曲线 市场空间显著扩大[6][19] 高速背板线模组市场预测 - 2025-2027年昇腾服务器高速背板线模组市场空间合计分别为45亿元 63亿元 136.5亿元[3] - 同期利润空间分别为9亿元 12.6亿元 27.3亿元 净利率保持20%[3] - 基于30倍PE测算 对应市值容量分别为270亿元 378亿元 819亿元[3] 其他产业链环节市场空间 - 服务器液冷市场空间2025-2027年分别为21.6亿元 50.4亿元 129.6亿元[3] - 交换机代工市场空间同期分别为6.56亿元 39.38亿元 153.13亿元[3] - Drmos+多相市场空间同期分别为6.25亿元 10亿元 22.5亿元[3] - 光模块市场空间同期分别为11.61亿元 23.22亿元 58.05亿元[3] 华丰科技业务布局 - 通讯领域:高速背板连接器覆盖16Gbps-224Gbps速率 获华为/浪潮/超聚变批量订单[12] - 防务领域:军用112G高速连接器达国际水平 供货航天科工/中国电科等龙头企业[13] - 工业领域:新能源汽车高压线束供货上汽通用五菱/比亚迪 轨道交通连接器配套中国中车[14][15] 公司业绩表现 - 2023年上半年营收11.05亿元 超2022年全年10.92亿元 同比增幅128.26%[16] - 归母净利润1.51亿元创历史最佳 销售净利率和ROE达历史峰值[16] - 通讯业务高速线模组产能释放 工业业务高压连接器收入增约40%[16] 产能与客户进展 - 二季度高速线模组产能较一季度翻倍 三季度持续推进设备调试[17] - 阿里项目下半年放量 预计贡献数千万元至1亿元收入[16][18] - 当前量产产品支持112G传输(实际以56G为主) 下一代产品将实现224G传输[18] 市场空间重估 - 按华为昇腾80万颗芯片出货测算 对应60万套线模组 市场空间60亿元[6] - 华丰科技产能规划达2万套/月(三班倒可达3万套/月) 预计明年华为方向出货40万套[6] - 阿里方向预计贡献2-3亿元利润 后续字节/百度等互联网客户合作持续推进[6][18]
聊一聊液冷
傅里叶的猫· 2025-08-31 23:18
芯片功耗增长趋势 - 英伟达B200芯片功耗达1200瓦,B300芯片提升至1400瓦,下一代Rubin芯片预计达1800瓦,2027年Rubin Ultra可能高达3600瓦,机柜总功率将是B300的14倍 [2] - AMD GPU功耗从MI300系列700-750瓦增至MI325系列1000瓦、MI355系列1400瓦,未来MI375系列预计达1600瓦 [2] - AMD和Intel的CPU功耗增长较温和,维持在400-600瓦之间 [3] 液冷系统核心部件升级 - GB200采用大冷板设计,含36个GPU冷板和9个CPU冷板共45块,单价600-700美元;GB300转向小冷板设计,总数增至117块(72个GPU冷板、36个CPU冷板、9个交换机冷板),单价降至200-300美元,总价值量提升 [4] - GB200使用OCP标准UQD04快接头,GB300升级为英伟达自研NVQD03,数量几乎翻倍且单价提高,总价值量约为GB200两倍 [4] - GB200管路使用PT/EPDM软管价值量1000-1500美元,GB300可能采用波纹管或不锈钢管价值量增至2000-3000美元 [4] - GB300液冷系统总价值量从GB200的78万美元增至90-100万美元,涨幅约20% [4] 冷却分配单元(CDU)市场差异 - 国内市场因电力成本低倾向高功耗CDU(1500-2000瓦),北美、欧洲和东南亚青睐分液器式CDU,主流规格70千瓦和150千瓦单台价值分别约3万美元和3.5-4万美元 [5] - 机柜式CDU最大容量达2000千瓦,可灵活适配高功耗机柜,如150千瓦CDU匹配120-130千瓦NBL72机柜 [5] - 国内GPU市场因单卡性能限制形成"密度堆量"策略,华为CloudMatrix384机柜功耗约为英伟达NVL72机柜4倍,推高液冷需求 [5] 华为与英伟达系统性能对比 - 华为Ascend 910C Cloud Matrix 384系统BF16密集计算性能300 PFLOPS,高于英伟达GB200 NVL72的180 PFLOPS,达1.7倍 [6] - 华为系统HBM容量49.2 TB,高于英伟达13.8 TB,达3.6倍;HBM带宽1229 TB/s,高于英伟达576 TB/s,达2.1倍 [6] - 华为系统总功耗559,378瓦,高于英伟达145,000瓦,达3.9倍;每TFLOPS功耗1.87瓦,高于英伟达0.81瓦,达2.3倍 [6] 国内液冷市场趋势 - 2024-2025年国内新建数据中心将大规模采用国产GPU卡,液冷系统几乎成为标配 [7] - 部分客户通过改造英伟达游戏卡堆叠算力构建高密度算力机群,进一步推高液冷需求 [7] - 冷板和快接头定制化需求突出,不同平台需不同设计;快接头标准受OCP UQD系列和英伟达NVQD标准影响,Intel正牵头兼容性测试推动行业标准化 [7] 台资与陆资厂商竞争格局 - 台资厂商(如酷冷大师、AVC、台达)凭先发优势在服务器和数据中心行业领先,液冷部件占机柜价值量20%-30%,客户因高风险维持高供应链粘性 [8] - 陆资厂商(如英维克)在成本和定制化具竞争力,CDU和柜内部件成本比台资低20%-30%,响应速度更快且愿接受高度定制化需求,核心设计能力不逊色 [8] 液冷技术挑战与创新 - 双向冷板处于试样阶段,存在压强增大、冷板变形和相变稳定性问题 [9] - 浸没式液冷氟化液成本高达其他冷却液3-4倍,年挥发量15%-20%,且存在环保和毒性问题,限制大规模应用 [9] - 市场正回归新型矿物油研究,通过优化配方提升流速和解热能力,平衡成本与性能 [9]
GPU和光模块的需求分析
傅里叶的猫· 2025-08-29 23:33
光模块与AI集群规模关系 - 华为CM384超节点中NPU与光模块比例为1:18 384个NPU需要6912个光模块[4] - 光模块需求随AI集群规模扩大呈非线性增长 1024个GPU集群中光模块与GPU比例约2.5倍 4096个GPU时升至3.5倍 万卡级集群可能达4倍[6] - 网络架构复杂度提升导致非线性增长 集群规模扩大需增加网络层数 如从两层结构增至三层核心交换机[6] 交换机配置影响 - 交换机端口配置显著影响光模块比例 4096个GPU集群使用64×400G端口交换机时比例为3.5倍 使用144×800G端口可降至2.5倍[8] - 超大规模集群中网络复杂性抵消交换机优化效果 超过1万GPU时比例回升至3.5倍[8] - 特定规模区间会出现比例波动 如GPU从1024增至1152时比例短暂升至2.9倍 因叶子节点交换机从32个增至36个导致上层交换机数量翻倍[8] 不同互联方案成本对比 - 英伟达InfiniBand方案成本最高 10万GPU集群物料成本约3.9亿美元 光模块与GPU比例3.6倍[11] - 英伟达以太网方案成本略低 约3.7亿美元 比例2.6倍[11] - 博通以太网方案成本最优 约3.5亿美元 比例2.6倍 较InfiniBand节省约4000万美元[9][11] - 成本差异主要源于网络架构层数差异 InfiniBand需四层结构而博通以太网仅需三层[9] - 博通交换机单价更具优势 128×400G端口交换机成本约0.79亿美元 低于英伟达64×400G交换机的1.36亿美元[9] 技术发展趋势 - 全光互联存在功耗与成本挑战 华为CM384可能在未来部署中引入铜互联[5] - 网络架构可能从三层扩展至四层或五层 光模块与GPU比例可能从3.5倍增至4.5倍[10] - 博通以太网方案展现成本优势 通过优化网络架构和降低交换机单价 可能推动更多企业采用以太网方案[10]
英伟达电话会议产品角度分析
傅里叶的猫· 2025-08-28 11:34
产品发布与量产情况 - GB300已开始量产发货 目前以测试订单为主 国内可接B300订单但量较小 [1] - GB200已大量出货 GB300与GB200共享架构和软件 可实现无缝衔接 [1] - NVL72每周产能约1000个机架 当前满负荷生产 预计三季度进一步加速产能爬坡 [1] - 为Rubin平台开发六款新芯片 所有芯片均已完成台积电流片 [2] 技术性能与能效 - GB300 NVL72每瓦特能耗处理token数提升10倍 [1] - B系列相比H系列每token能效提高50倍 [1] - 全程未提及CPO技术 原定2026年下半年Rubin服务器采用CPO交换机的计划可能因技术不成熟延迟 [3] 市场需求与业务表现 - AI基础设施资本开支预计2030年达3-4万亿美元 前四大云服务提供商资本支出已翻倍增长至约6000亿美元 [1] - 游戏业务第二季度收入43亿美元 同比增长49% 主要由GeForce RTX系列驱动 [3] - 网络业务创73亿美元历史收入纪录 SpectrumX网卡/InfiniBand/NVLink产品线需求强劲 [4] - 主权AI收入目标超200亿美元 较去年增长一倍多 [4] - H100和H200已售罄 ODM或有少量库存 后续将全面转向B系列 [3] 中国市场动态 - H20获许可但尚未发货 原预计收入20-50亿美元 [3] - 中国市场预计为英伟达带来500亿美元机会 且每年增长率达50% [6] - 将推出B系列特供版(疑似B30A)继续争取中国市场 [4] 技术路线与竞争格局 - ASIC替代GPU可能性较低 因加速计算需统一编程模型和全流程支持 英伟达平台具备架构适配优势 [5][6] - 国产GPU存在发展空间 因中国市场年增50%的速率 [6]
寒武纪炸裂财报,未来如何?
傅里叶的猫· 2025-08-26 23:18
公司市场地位与客户关系 - 公司是国内AI芯片领头羊 早在2022年已被列入实体清单[2] - 与华为昇腾共同主导国产AI芯片市场 尤其深度绑定互联网大厂客户[6] - 字节跳动为主要客户 其AI芯片采购以公司产品为主 已完成大规模模型适配[6] - 网传字节2025年AI芯片采购额达600亿元(国产与英伟达各占一半) 2026年预计增长30%至800亿元[6] - 公司预计在800亿元采购额中获取300-500亿元份额 但该目标存在产能和HBM囤货难度[6] 财务表现 - 2025年第一季度营收17.69亿元 环比增长59.19%[3] - 2025年上半年营收28.81亿元 同比增长4347.82%[4] - 2025年上半年毛利总额16.11亿元 同比增长3865.94%[4] - 归属上市公司股东净利润10.38亿元 同比增长15.68亿元[4] - 扣非净利润15.21亿元 同比增长9.13亿元[4] - 经营活动现金流量净额由上年同期-6.31亿元转为正值9.11亿元[4] - 期末总资产84.20亿元 较上年末增长25.34%[4] - 加权平均净资产收益率17.31% 同比增加27.06个百分点[4] 产品与技术进展 - 下一代芯片690已送样大客户测试 反馈良好 正式流片后预计启动大规模采购[6] - 690芯片支持FP8精度 与Deepseek所述UE8M0 FP8标准兼容[13] - 华为昇腾下一代产品将成为重要竞品 可能改变市场格局[14] 盈利潜力与估值 - 公司费用结构固定且人员未增加 收入增长将显著放大利润弹性[7][8] - 英伟达2023年估值中枢为45倍PE 未来可能降至40倍 国产AI芯片因增速更快或享有更高估值[8] 产业链协同效应 - 公司发展直接带动合作伙伴浪潮信息的利润提升 近期股价上涨反映此效应[13] - 出货量、服务器组成和利润率可推算产业链伙伴的盈利增幅[13] 行业竞争与风险 - 国内AI芯片竞争激烈 对手包括华为、摩尔、隧原、天数、沐曦等[9] - 市场呈现头部集中趋势 公司地位短期稳定但需关注大厂采购需求变化[9] - 英伟达B30A芯片(带NVLINK和HBM)性能超H100 若获批准可能冲击国产芯片市场[9][11] 未来关键节点 - 690芯片正式流片测试结果将影响短期表现[14] - 大客户最终采购量决定将奠定公司未来3-5年发展基调[14]
Deepseek V3.1的UE8M0 FP8和英伟达的FP8格式有什么区别
傅里叶的猫· 2025-08-24 20:31
DeepSeek V3.1引入UE8M0 FP8的意义 - DeepSeek V3.1发布引入UE8M0 FP8格式,针对下一代国产芯片进行优化,提前适配硬件以缩短部署时间 [2][11] - UE8M0是一种无符号8位指数、0位尾数的FP8编码格式,由Open Compute Project(OCP)提出,属于MXFP8规范的一部分 [7][8] - 该格式核心目标是数据压缩,相比FP32内存占用减少75%,推理吞吐量达到BF16的2倍,提升训练和推理效率 [7][13] UE8M0与英伟达FP8标准的差异 - 英伟达采用E4M3(精度优先)和E5M2(动态范围优先)FP8格式,依赖Tensor Core和专有软件优化 [7][10] - UE8M0侧重范围优先和兼容性,通过通道级校准和高精度累加(如FP16)弥补精度损失,适配国产芯片硬件架构 [10][11] - 国产芯片(如摩尔线程MUSA、芯原VIP9000 NPU)支持原生FP8,但底层计算单元与英伟达不同,直接套用国外标准可能导致数值溢出或计算故障 [9][12] 国产AI生态的战略价值 - UE8M0推动软硬件协同设计,DeepSeek提前与国产芯片厂商合作,实现"向前兼容",加速国产芯片从实验室到实际应用的落地 [11][12] - 摆脱对英伟达标准的依赖,避免国产GPU针对E4M3/E5M2优化效率低下,探索适合本土硬件的技术路径 [12] - 该方案并非追求超越英伟达,而是补位国产生态,使国产芯片达到接近国外FP8的效率水平 [14] 技术性能与局限性 - UE8M0在内存节省和推理速度上优势显著:内存占用较FP32降75%,推理吞吐量达BF16的2倍(例如单卡请求处理从100/秒提升至200/秒) [13] - 局限性包括:梯度累加等计算仍需BF16/FP16支持,本质为混合方案(FP8存储+16位累加);依赖芯片厂商底层优化,否则性能无法充分发挥;需精细校准数据防止极端数值误差 [15] 行业技术对比背景 - 英伟达B200芯片支持FP4/FP6,性能大幅提升:FP4算力达17,000 TFLOPS,较H100提升254%;B200功耗1,000W,系统功耗1,788W/GPU,内存带宽8,000 GB/s(较H100提升139%) [6] - 国产芯片需通过UE8M0等自主标准实现技术追赶,而非直接对标英伟达高端芯片规格 [12][14]
国内AI算力市场需求——云厂训练和推理投入分配情况解析
傅里叶的猫· 2025-08-24 20:31
国内AI算力训练市场格局 - 训练市场进入下半场和淘汰赛最后阶段 由大厂主导 若无大厂订单支撑可能陷入停滞 [2][3] - 英伟达在训练领域占据主导地位 主流使用B卡 H卡和A卡需求仍存在 [2] - 国内训练需求超过60%由阿里拉动 其次是字节和腾讯 [2] - H公司训练卡效果与英伟达存在较大差距 短期内难以显著提升市场份额 [2] AI六小龙状况及影响 - 六小龙正在大规模退租训练资源 对训练市场造成不良影响 [3] - 六小龙资金状况不容乐观 仍处于争取用户和拓展市场阶段 商业化程度较低 [3] - 月之暗面专注国内to C市场 MiniMax更关注国际市场 [3] - 月之暗面需支撑C端APP推理需求 减少训练投入在情理之中 [3] 大厂训练投入策略 - 腾讯坚持投入训练下一代混元模型 [3] - 阿里巴巴和字节竞争激烈 大模型训练呈现零和博弈态势 [3] - 训练市场零和博弈对英伟达B卡供应链公司带来较大冲击 [3] 推理市场现状与挑战 - 推理算力需求未如预期大幅增长 年初的AI热潮未能持续 [3][4] - 元宝APP增长势头放缓:第二季度MAU从2358.3万增至2502.5万 增幅仅6% 月均下载量从1343.3万下跌54%至617.5万 [4] - 腾讯对元宝等AI应用投入趋于温和 不再进行激进流量推广 [4] - 海外下架二手A100和H100快速进入国内市场 预计H100价格从210万降至170-160万 2026年可能降至100万 [4] - 二手训练设备转为推理设备将对合规卡(H20/4090/5090)带来较大冲击 [4] 长期推理市场展望 - 推理算力成本大幅降低将刺激下游AI应用客户使用 [5] - 海外下架训练设备转为推理设备将进一步推动推理算力成本下降 [5] 企业训练推理投入分配 - 阿里巴巴训练推理投入比例为8:2 80%预算用于训练集群 [5] - 字节训练推理预算比例约为50:50 包括海外集群 [5] - 腾讯训练推理投入比例约为2:8 所有应用目前均处于消耗状态 [5] - 月之暗面训练推理投入比例为7:3 [6] - 智谱训练推理投入比例为9.5:0.5 [6] - 阶跃星辰训练推理投入比例为9.5:0.5 [6] - 百川训练推理投入比例为4:5 [6]
华为Cloud Matrix 384中需要多少光模块?
傅里叶的猫· 2025-08-21 23:06
半导体行业研究 核心观点 - 文章基于华为Cloud Matrix 384论文和申万宏源分析内容,重点探讨了半导体行业中光模块与NPU的用量比例关系 [3][5] Cloud Matrix 384架构 - **UB平面**:作为超节点内部核心扩展网络,采用非阻塞全对全拓扑连接NPU和CPU,每个昇腾910C提供392GB/s单向带宽,用于TP/EP和大规模分布式内存池访问 [7] - **RDMA平面**:用于超节点间横向扩展通信,采用RoCE协议连接NPU,支持KV Cache传输和分布式训练 [7] - **VPC平面**:通过华为擎天DPU接入数据中心网络,处理管理、存储和外部服务通信 [7] 光互联与电互联 - CM384的Level 1和Level 2 UB Switch之间采用光互联,但节点内部仍使用电互联,因短距离光互联成本及功耗过高 [9] 光模块用量计算 - **Scale Up场景**: - 每台服务器中每个UB Switch芯片对应8个400G光模块,整台服务器需56个400G或28个800G双通道光模块 [12] - 两层UB Switch系统下,每台服务器8个NPU对应112个400G或56个800G光模块,NPU与400G/800G光模块比例分别为1:14和1:7 [12] - **Scale Out场景**: - 采用胖树架构扩容时,光模块需求比例约为1:4(NPU与400G光模块) [13][14] 其他信息 - 英伟达B200/B300系列已成为主力产品 [15] - 知识星球提供行业信息、外资投行数据及分析报告更新 [17]
GB200出货量上修,但NVL72目前尚未大规模训练
傅里叶的猫· 2025-08-20 19:32
GB200/300机架出货预测 - 2025年GB200/300机架出货量从3万上调至3.4万,其中Q3预计出货1.16万,Q4预计出货1.57万 [3] - GB200与GB300机架占比分别为87%和13% [3] - 上调主要受鸿海强劲指引推动,鸿海预计Q3 AI机架出货量环比增长300%,全年出货量预估达1.95万,占市场约57% [3] - 假设200万颗Blackwell芯片库存结转至2026年,下游组装商可能组装超6万机架 [3] - 主要代工厂偏好顺序为鸿海>纬创>广达 [3] GB200 NVL72与H100成本对比 - H100服务器价格下降至每台19万美元,超大规模数据中心运营商每台总Capex约25万美元 [12] - GB200 NVL72机架级系统服务器成本约310万美元,超大规模运营商总成本约390万美元每机架 [12] - GB200 NVL72每GPU全包资本成本为H100的1.6-1.7倍 [13] - 超大规模运营商H100每GPU Capex约3.1358万美元,GB200 NVL72为5.4166万美元 [13] - GB200 NVL72每GPU每小时Opex为4.09美元,H100为3.04美元,差异主要源于GB200芯片功耗更高(1200W vs 700W) [14] GB200 NVL72与H100性能比较 - GB200 NVL72总拥有成本(TCO)为H100的1.6倍,需至少比H100快1.6倍才能占据优势 [15] - 截至2025年5月GB200 NVL72性能/TCO尚未超过H100,但7月达到H100的1.5倍,预测未来3-6个月可能达2.7倍 [30] - 2025年7月GB200 NVL72吞吐量在Token/s/GPU方面达H100的2.5倍,12月预测BF16性能比H100好4.7倍,MFU达42.0% [31] - DeepSeek 670B预训练14.8T Token成本在2025年7月为4.5M美元(BF16),预测12月降至2.5M美元 [32] 软件优化与能耗表现 - 2024年1月至12月软件优化使H100 BF16 MFU从34%提升至54%,FP8从29.5%提升至39.5% [20] - FP8训练成本从每百万Token 0.72美元降至0.542美元,300B Token总成本从218k美元降至162k美元 [20] - 训练Llama3 405B模型15T Token能耗相当于3400个美国家庭年能耗 [25] - Llama3 70B模型在2048台H100上训练FP8能耗比64台H100高出10% [29] GB200 NVL72可靠性挑战 - 早期GB200 NVL72运营商普遍面临XID 149错误,背板卡匣连接器金镀层耐用性仅200次插拔 [34] - GB200 NVL72 MTBI为1000-3000 GPU-天,低于H100的2000-5000 GPU-天 [36] - 目前GB200 NVL72仅用于推理、小实验和开发工作,未用于大规模训练 [35] 行业趋势与建议 - SemiAnalysis建议英伟达扩展基准并增加透明度,公开hyperscaler和NCP基准数据 [16] - 建议加速GB200 NVL72诊断工具开发,加强ODM/OEM验收测试 [17] - 软件优化是性能提升关键,GB200 NVL72有潜力但可靠性是瓶颈,预测年底将主导市场 [37]