傅里叶的猫
搜索文档
NPU还是GPGPU?
傅里叶的猫· 2025-07-20 22:40
半导体架构演进 - NVIDIA GPU发展呈现明显周期:从早期图形渲染固定流水线DSA架构→统一Shader架构和SIMT抽象→AI时代引入Tensor Core重回DSA化,通过CUDA生态维持行业地位 [1] - 国内Ascend采用系统级统一设计:针对异构架构生态碎片化问题,提出同构ISA和混合执行模型,设计统一总线(UB)实现CPU/GPU/NPU编程统一和高效互连 [1] - SIMT与SIMD架构差异:SIMT编程灵活性高适合稀疏数据和复杂控制流,SIMD硬件效率优适合密集型向量运算,关键在于软硬件交付界面设计 [2] NPU技术特性 - NPU专为AI计算设计:在能效比和计算速度上优于CPU/GPU,适合移动设备、边缘计算和嵌入式AI,近年也应用于大模型训练推理 [3] - NPU硬件优势:指令架构简单(可嵌入ARM/RISC-V扩展指令集)、功耗低、内存使用模式单一,成为应对芯片出口管制的可行方案 [3] - 设计复杂度对比:CPU复杂度为1时,图形GPU为0.3-0.4,NPU不足0.1,核心是矩阵乘法和卷积运算的堆料设计 [4] NPU现存挑战 - 软件复杂度远超硬件:国产GPU卡因软件体验差导致数据中心利用率低下,高端算力紧缺与低端算力过剩并存 [5] - 内存架构缺陷:L1缓存有限且存在存储体冲突,缺乏SIMT的延迟隐藏机制,访存延迟直接暴露易造成计算核心空转 [5] - 生态碎片化:不同厂商NPU架构差异大,软件移植成本高,尚未经历GPU行业的标准化收敛过程 [5] GPU与NPU架构对比 - 历史演变相似性:早期显卡与当前NPU均为CPU远程控制的专用计算器,GPU通过集成独立控制单元实现功能进化 [6] - 控制层级差异:GPU采用"CPU→GPU→张量核心"三级控制链,NPU仅为"CPU→NPU"二级结构,缺乏自主控制能力 [7] - 英伟达关键突破:SIMT编程模型降低并行计算门槛,而NPU仍依赖外部CPU调度,难以适应大模型训练的实时策略调整 [7] 行业发展趋势 - AI任务复杂度提升:从单一推理向"训练+推理"全流程演进,驱动芯片架构向"高效计算+灵活控制"方向发展 [7] - 技术融合路径:国产NPU需引入SIMT前端并强化控制单元向GPU靠拢,同时GPU内部模块需DSA化 [7] - 英伟达算力宣传策略:H100的FP16算力989.4万亿次通过2:4稀疏度计算被宣传为1979.8万亿次,与实际密集运算指标存在差异 [4]
被抛弃的NVL72光互联方案
傅里叶的猫· 2025-07-17 23:41
GB200服务器硬件架构与互联技术分析 核心观点 - GB200服务器采用铜缆与光缆混合互联方案,其中加速器互连(NVLink)全面转向铜缆以降低成本,而后端网络长距离连接仍依赖光纤 [13][16] - NVL36x2成为主流配置,推动有源铜缆需求激增,光学收发器厂商增量有限 [19] - 前端网络存在配置过剩现象,客户可通过降低带宽节省单系统3.5k美元成本 [2] 前端网络 - 功能定位:承担与外部互联网、集群管理工具及存储系统的数据交互,采用常规以太网协议 [1] - 带宽配置:HGX H100单GPU带宽25-50Gb/s,GB200参考设计达200Gb/s(实际需求仅50Gb/s),总带宽200-800Gb/s [2] - 客户差异:超大规模企业采用自定义NIC方案,仅甲骨文使用Bluefield-3实现网络虚拟化 [4] 后端网络 - 技术迭代:初期沿用ConnectX-7网卡(400G),2025Q2将升级至ConnectX-8(800G)搭配Quantum-X800交换机 [6][12] - 材料选择:机架间长距离(>4米)必须使用光纤,铜缆仅适用于短距连接 [6] - 成本对比:Nvidia高端Infiniband交换机成本显著高于Broadcom Tomahawk系列以太网方案 [7] 加速器互连(NVLink) - 拓扑革新:NVL72采用1层扁平拓扑(72GPU),NVL36x2分组设计(2x36GPU),NVL576采用2层胖树结构(576GPU) [15] - 铜缆优势:相比光学方案节省单机架220万美元成本,降低19.4kW功耗,5184根铜缆实现900GB/s单向带宽 [16] - 连接技术:采用Amphenol Paladin HD 224G/s连接器与SkewClear EXD Gen 2电缆,解决信号干扰问题 [17][18] 带外管理网络 - 功能特性:独立运维网络,用于OS重装和硬件状态监控,数据量极小 [20] - 成本控制:采用RJ45铜缆连接,单根成本<1美元,无需光学组件 [21] MPO光纤连接器价值分析 - 400G方案:单GPU对应MPO价值量128美元(两层架构)至192美元(三层架构) [24] - 800G升级:采用16/24芯MPO后,单GPU价值量提升至256-381美元,1.6T方案需32/48芯MPO [25][29] - 规模测算:73728个GPU的三层架构下,MPO总芯数达702万,单GPU价值381美元 [30]
各方关于H20的观点
傅里叶的猫· 2025-07-16 23:04
H20芯片库存与生产情况 - 大摩预计H20芯片库存可达100万片 其中成品芯片库存约70万个 需采购1万片CoWoS-S晶圆进行封装 KYEC可能额外提供20-30万个芯片 [1][2] - JP Morgan预测H20初期季度需求高达100万个 主要受中国AI推理需求驱动且无替代产品 库存可能在一个季度内消耗完毕 [3][4] - 瑞银估算H20销售额将达130亿美元 按每台1.2万美元均价计算对应销量略超100万台 销量恢复比例或达15%-20% [5][6] - Jefferies推测现有H20库存约55-60万个 基于150亿美元收入损失推算 后续将推出采用GDDR6内存的降级版本 [7] 市场需求与行业动态 - JP Morgan指出H20需求旺盛源于中国AI推理市场及客户提前下单行为 与2025年Q2 Deepseek R1的60万需求形成对比 [3] - 瑞银提到中国市场占英伟达数据中心销售额百分之十几 H20出口放宽将支撑下半年业绩 GB200产能提升及GB300量产将推动增长 [5] - Jefferies透露美国可能重新引入数据传输速度限制 HBM3内存的H20将停产 转向GDDR6版本 [7] 行业信息与资源 - 英伟达B系列服务器已在国内开放样品订单 接受行业客户咨询 [8] - 行业研究平台持续更新投行数据及关键信息 提供网盘资源整合服务 [10]
H20恢复供应,市场如何
傅里叶的猫· 2025-07-15 22:36
H20供应情况 - H20当前供应来源为库存而非新生产 库存数量存在两种说法 30w~40w片或60w~100w片 供应量有限[1] - 中国企业正积极抢购H20 大公司已提交大量采购申请 具体数字未披露[1] H20技术规格与市场需求 - H20通过"点断"技术实现硬件降规 从H200/H800改回H200成本过高被放弃[2] - Hopper系列(H200为主)国内需求疲软 近期价格大幅下跌 市场等待B200/B300服务器[2] H20未来生产计划 - H20库存售罄后大概率停产 英伟达重心转向Blackwell架构产品[3] - Hopper系列仅靠库存维持短期供应[3] 采购建议 - 潜在买家需尽快行动 避免后期供应短缺[4] 行业动态 - 英伟达B系列服务器已可接受国内样品订单[5]
二季度财报前聊聊台积电
傅里叶的猫· 2025-07-14 23:43
台积电美国投资与关税影响 - 台积电在美国投资1650亿美元用于产能建设 可能增加获得关税豁免的机会 [1] - 潜在关税可能抑制电子产品需求并减少公司收入 [1] - 未来五年海外工厂利润率侵蚀可能从2-3个百分点上升至3-4个百分点 [1] - 若进口设备和化学品获得关税豁免 长期利润率可保持在53%以上 [1] 晶圆定价策略 - 汇率走势呈现结构性特征 预计2026年晶圆定价策略将考虑汇率影响 [2] - 因先进制程需求旺盛 预计全球美元计价晶圆价格提高3%-5% [2] - 美国客户以更高报价锁定4nm产能 美国工厂晶圆价格至少提高10% [2] 2纳米制程发展 - 计划2025年下半年启动2纳米大规模生产 [5] - 预计2024年N2产能建设为10kwpm 2025年40-50kwpm 2026年底达90kwpm [5] - 苹果将成为首批客户 2025年第四季度采用SoIC 3D封装技术 [5] - AMD和英特尔有望2026年上半年加入N2客户名单 [5] - 英特尔可能将"Nova Lake"高端CPU芯片交由台积电2纳米工艺生产 [5] - 联发科和高通旗舰智能手机芯片2026年与苹果iPhone一同采用2纳米工艺 [5] - 2025年下半年加密货币需求将消耗少量2纳米产能 [6] - 2026年底AI ASIC将开始使用2纳米产能 2027年使用量进一步增加 [6] Blackwell芯片与AI半导体业务 - 2025年NVL72服务器机架出货量预计3万台 [10] - 台积电2025年为Blackwell芯片规划39万块CoWoS-L产能 [10] - 中国版B30 GPU设计可能与RTX PRO 6000相近 出货量已达50万台 [12] - 云AI半导体业务对台积电收入贡献占比:2024年13% 2025年25% 2027年34% [12] - B30若正常销售到中国 将占2026年台积电20%营收增长 [12] B30订单情况 - 互联网A下单十几万张B30 每张7000美元 对应70亿 预计8月到货 [13] - 互联网B预计Q3资本开支上升 主要与采购B30相关 预计下单30万张 9月到货 [13]
中国市场各云服务商水平到底咋样
傅里叶的猫· 2025-07-13 22:59
云服务韧性分析 核心观点 - 亚马逊云科技在中国市场展现出最强的服务韧性,年均服务异常/中断时长控制在1小时以下,可用性达99.9909% [6][7][8] - 华为云韧性表现次于亚马逊云科技,故障响应速度快但发生频率较高,可用性为99.9689% [6][7][8] - 阿里云和腾讯云韧性表现中等偏高,综合故障时长分别为亚马逊云科技的5.9倍和6.3倍 [6][7][8] - 微软Azure韧性最弱,Region平均异常时长高达15.75小时,可用性仅99.9201% [6][7][9] 基础设施部署 - **亚马逊云科技**:所有区域均部署3个以上物理隔离可用区,支持多可用区部署,故障半径控制最佳 [3][8] - **华为云**:75%区域具备3个以上可用区,92%可用区物理隔离,但未支持多可用区部署 [3][8] - **阿里云**:仅42%区域有3个以上可用区,95%物理隔离,底层组件未多可用区部署 [3][8] - **腾讯云**:75%区域有3个以上可用区,90%物理隔离,但关键服务单点部署 [3][8] - **微软Azure**:仅20%区域有3个以上可用区,43%物理隔离,部分区域无独立基础设施 [3][9] 实际性能表现 - **故障时长**:亚马逊云科技综合故障时长仅1.8小时,华为云为6.12小时,阿里云10.62小时,腾讯云11.45小时,微软Azure15.75小时 [7][8] - **故障频率**:亚马逊云科技仅1次故障,华为云4次,阿里云5次,腾讯云和微软Azure各2次 [7][8] - **单次故障时长**:亚马逊云科技1.8小时最短,华为云1.53小时,阿里云2.12小时,腾讯云5.73小时,微软Azure7.88小时 [7][8] 韧性排名 - 报告结论:亚马逊云科技 > 华为云 > 阿里云 > 腾讯云 > 微软Azure [10] 行业动态 - 超微B200/B300芯片样品订单开放,国内可供货 [11] - 行业信息与投行数据通过知识星球和网盘持续更新 [13]
英伟达B30芯片:参数、互联网订单情况更新
傅里叶的猫· 2025-07-12 18:58
AI产业链研究 核心观点 - 英伟达即将推出针对中国市场的阉割版Blackwell芯片B30(或B40),其设计绕开美国技术限制,通过自有技术实现多卡互联(带宽100-200GB/s),虽性能不及H20和国产芯片,但凭借CUDA生态和低价策略仍具竞争力 [1][2] - B30定价6000-8500美元(仅为国产卡一半),性价比突出,已获互联网大厂测试认可并预计下大额订单(如互联网A下单十几万张,金额70亿美元) [2] - B30在中小模型推理和云服务算力池场景中表现优异:8卡集群可提升有效带宽至1.2TB/s,100片集群支持千亿参数模型轻量训练,采购成本较H20降40%,功耗降30% [3][4] 技术参数与性能 - B30取消Nvlink和HBM显存,改用GDDR显存,单卡算力约为H20的75%(处理4096长文本时吞吐量仅达H20的60%) [1][3] - 国产芯片单卡FP16算力远超B30(约200TFLOPS),但B30因CUDA生态适配优势,在主流模型部署效率上仍领先 [4] 市场反馈与订单 - 互联网A:6月下单十几万张(单价7000美元,总金额70亿美元),预计8月到货 [2] - 互联网B:预计Q3资本开支上升,计划采购30万张,9月到货 [2] - 测试效果显示B30在智能客服、文本生成等低带宽需求场景中能效劣势弱化,兼容PyTorch等框架可降低企业迁移成本 [3][4] 应用场景 - 中小模型推理:动态压缩技术使8卡集群有效带宽达1.2TB/s,满足中等并发需求 [3] - 云服务算力池:100片B30集群支持千亿参数模型轻量训练,成本与功耗显著低于H20方案 [4] 行业动态 - B300已在国内上市,可接样品订单 [5] - 行业信息与投行数据通过知识星球和网盘持续更新 [7]
GPU跟ASIC的训练和推理成本对比
傅里叶的猫· 2025-07-10 23:10
芯片供应商及产品规划 - NVIDIA全球市场AI GPU产品线从A100到GB100覆盖2020至2027年,制程从7nm演进至3nm,HBM容量从80GB提升至1024GB [2] - NVIDIA中国市场特供版包括A800/H800/H20等型号,HBM容量最高96GB,部分型号采用GDDR6显存 [2] - AMD MI系列从MI100到MI400规划至2026年,HBM3e容量达288GB,MI400将采用HBM4技术 [2] - Intel AI GPU产品包括MAX系列和Gaudi ASIC,Habana 2采用HBM3e技术容量达288GB [2] - Google TPU v5e至v6采用5nm/3nm制程,HBM3e容量最高384GB [2] - AWS Tranium系列采用Marvell/Alchip设计,Tranium3 Ultra将使用3nm制程和HBM3e [2] 大模型训练成本分析 - 训练Llama-3 400B模型时,TPU v7成本显著低于GPU,呈现断档式优势 [7] - NVIDIA GPU中GB200超级芯片训练成本最低,H100成本最高,验证"买得越多省得越多"规律 [7] - Trainimium2训练成本异常高企,与迭代预期不符 [7] - 硬件成本占比最高的是GPU部分,电力成本占比相对较低 [5][7] 推理成本比较 - AI ASIC在推理场景成本优势显著,比GB200低10倍 [10] - GPU产品中高端型号推理成本反而更高,与训练成本趋势相反 [11] - TPU v5p/v6和Tranium2在推理场景展现最佳性价比 [10][11] 技术参数对比 - GB200超级芯片峰值算力达5000 TFLOPS,是H100的5倍 [12] - HBM3e技术成为2024年主流,NVIDIA/AMD/Intel均采用该内存方案 [2] - 能效比方面GB200达2.25 TFLOPS/Watt,优于H100的1.41 TFLOPS/Watt [12] - MI300X与H100算力接近(981 vs 990 TFLOPS),但能效低7% [12] 供应链动态 - B200芯片已进入期货阶段,国内可接样品订单 [13] - 主要设计合作伙伴包括Broadcom、Marvell和Alchip等厂商 [2] - 行业信息显示3nm制程将在2025-2026年大规模应用于AI芯片 [2][12]
美国的数据中心分布
傅里叶的猫· 2025-07-09 22:49
美国AI数据中心布局 - 英伟达在美国运营16,384颗H100芯片的服务器集群,用于DGX Cloud服务[1] - AWS在宾夕法尼亚州Berwick建设GPU数据中心,毗邻核电站[1] - AWS计划建设超过20万颗Trainium2芯片的集群供Anthropic使用,微软将租用该集群[1] - CoreWeave在德克萨斯州Denton规划约5万颗GB200芯片的集群,OpenAI可能使用[1] - Meta在路易斯安那州Richland Parish规划超过10万颗芯片的集群,2025年上线1GW算力用于训练Llama 4[1] - Meta已运营2.4万颗H100芯片的集群用于训练Llama 3[1] 微软/OpenAI合作项目 - 微软在威斯康星州Mt Pleasant规划10万颗GB200芯片的集群,原计划2026-27年开放但部分建设已暂停[1] - 凤凰城地区运营7万颗H100芯片的数据中心[1] - 凤凰城地区计划2025年初部署5.5-6.5万颗GB200芯片供OpenAI使用[1] - 爱荷华州Des Moines运营超过2.5万颗A100芯片的集群,耗资12亿美元用于训练GPT-4[1] - 亚特兰大规划GB200集群,计划2026-27年与威斯康星集群协同工作[1] - 德克萨斯州Abilene规划10万颗GB200芯片的集群,OpenAI预计2025年初使用5万颗[1] 其他科技公司动态 - 特斯拉在德克萨斯州Austin部署3.5万颗H100芯片,计划2024年底扩展至10万颗H100/H200[2] - xAI在田纳西州Memphis部署10万颗H100芯片的集群,并计划改造新仓库容纳35万颗芯片[2] - Oracle在德克萨斯州运营2.4万颗H100芯片的集群用于训练Grok 2.0[1] - 芝加哥地区运营2万颗A100芯片的服务器由英伟达出租[1] - 弗吉尼亚地区运营1.45万颗A100芯片的服务器由微软出租[1] 行业技术进展 - B300芯片已上市并可接受样品订单,B200芯片可期货订购[3] - 主要云服务提供商(CSP)的GPU数量均已超过20万颗[5] - 目前GB200芯片主要由Oracle、微软和CoreWeave部署,交付量显示为今年数据[5]
GB200 出货量更新
傅里叶的猫· 2025-07-08 22:27
AI服务器市场概况 - 2024-2026年全球服务器市场预计以3%年复合增长率增长 2026年规模将达4000亿美元 AI服务器占比从2024年低个位数跃升至2026年高个位数 [1] - 2024年全球服务器出货量同比增长4% 高端GPU服务器2025年预计增长超50% 2026年增幅约20% 2025年全球将部署450万个NVIDIA GPU芯片 [1] - 高端AI服务器平均售价因NVIDIA下一代Rubin芯片引入而上涨 推动市场规模扩大 [1] NVIDIA服务器技术优势 - GB200采用NVLink 5.0互联技术 带宽达1.5TB/s 支持GPU直接通信 搭配HBM3E内存(单芯片192GB)和液冷系统 [2] - GB200单芯片BF16性能达2250 TFLOPS 采用N4制程 HBM3E内存(192GB) NVLink 5.0互联 InfiniBand网络 液冷设计 [10] - GB200机架(NVL72等效)2025Q2出货量大幅增长至7000台 Q3预计达10000台 GB300预计Q4出货数千台 [3] GB200出货数据 - 2025Q1总出货1500台(广达700/鸿海500/纬创300) Q2上调至7200台(广达2800/鸿海2000/纬创2400) [4] - 2025年GB200总出货量预估:NVL72型号27000台 NVL36型号10000台 [4] - 按月份细分:2025年4月1500台 5月2500台 6月3200台 [4] ASIC服务器竞争格局 - CSP厂商(Google/Amazon/Meta/Microsoft)通过ASIC服务器追赶 NVIDIA在性能领先但ASIC在成本定制化占优 [6][7] - Google TPU v5p性能459 TFLOPS 采用N3制程 HBM2E内存(95GB) 自研光网络 [7][10] - Amazon Trainium 2性能650 TFLOPS N5制程 HBM3内存(96GB) 当前风冷计划升级液冷 [7][10] 供应链与市场机会 - Broadcom预测2027财年定制XPU和商用网络芯片市场达600-900亿美元 Marvell预计2023-2028年数据中心市场CAGR为53% [8] - 云厂商ASIC项目进展:Amazon Trainium/Meta MTIA预计2021-2026年逐步落地 市场份额有望提升 [7] - CoWoS基AI加速器出货量稳步攀升 成为市场新增支柱 [8]