傅里叶的猫

搜索文档
聊一聊CPO(一)
傅里叶的猫· 2025-07-24 23:13
最近开始研究服务器中跟"光"相关的东西,当然研究的深度还远远不够,所以自己研究到哪里就写 到哪里。本文的内容参考自UBS的一篇分析,由于内容较多,我们分成两篇文章来写,第一篇主要 讲一下CPO的一些基础:Roadmap、量产面临的挑战、拐点什么时候出现、,第二篇讲CPO产业链 的主要参与者。 昨天在星球中放了很多张GB200的图,关于哪些是铜、哪些是光,有兴趣的朋友可以到星球中查 看。我们跟其他星球的区别在于我们不止提供行业信息,我们还会有些Research的内容,这在其他星 球应该都比较少。星球中已经上传过很多CPO相关的资料。 光进铜退? 硅光子 硅光子技术能进一步提升传统光纤在速度、功耗方面的性能,并实现更优的集成效果。 随着数据传输带宽大幅提升以支撑云人工智能的发展,传统光纤数据传输在速度、效率和功耗上逐 渐面临挑战。传统光收发器的供应链较为分散,涉及众多组件,技术迭代速度也较慢。如今,随着 云人工智能的快速增长以及 AI 数据中心对光学器件的需求日益上升,行业正寻求对光传输技术进行 革新。集成光子技术,尤其是硅光子技术,正成为数据通信和电信数据传输领域的关键技术。 尽管传统光纤在数据传输中的信号损耗 ...
国内AI芯片的出货量、供需关系
傅里叶的猫· 2025-07-21 23:42
中国AI芯片市场概况 - 2025年中国AI加速器市场规模预计达到395亿美元 其中Nvidia H20占229亿美元 AMD MI308占20亿美元 本土厂商(华为Ascend 寒武纪 海光)合计146亿美元 [2] - H20禁令导致Nvidia损失16.8亿美元 AMD损失1.5亿美元 部分订单转移至本土厂商使其收入增加约10% 但由于7nm晶圆和CoWoS技术瓶颈 仍存在126亿美元供应缺口 [2] - Nvidia计划恢复H20销售 预计2025Q3中期恢复生产 需求达105亿美元 但无法满足168亿美元初期需求 部分需求将推迟至2026年 [2] 主要厂商市场份额 - 华为在国内AI芯片市场遥遥领先 占有率23% 其次是寒武纪 海光和平头哥 [16][20][21] - 互联网云服务提供商是主要买家 字节跳动 腾讯 阿里巴巴和百度占H20总销量的87% [3][5] - 至2027年 本土厂商市场份额预计将达55% 全球厂商将面临技术停滞 [3] 产品性能对比 - B30芯片相比H20性能大幅降低 FP16 TFLOPS降低54% FP8 TFLOPS降低68% 内存容量降低68% 带宽降低40% [4] - Nvidia计划向中国运送40万颗B30芯片 预计带来28亿美元收入 本土厂商额外收益约15亿美元 [3] 国产GPU厂商发展 - 沐曦营收连年递增 即将上市 [29][31] - 摩尔线程产品线覆盖AI服务器GPU 专业图形加速和桌面GPU 2024年AI计算GPU出货大幅提升营收 [35][36][37] - 华为CloudMatrix 384已在华为云运行 显示其技术实力 [20] 数据差异说明 - Bernstein和IDC数据存在较大差异 除华为和英伟达外 其他厂商排名和份额差异显著 [16] - 运营商主要采购华为AI芯片 其他国产GPU厂商未进入采购名单 [24]
NPU还是GPGPU?
傅里叶的猫· 2025-07-20 22:40
半导体架构演进 - NVIDIA GPU发展呈现明显周期:从早期图形渲染固定流水线DSA架构→统一Shader架构和SIMT抽象→AI时代引入Tensor Core重回DSA化,通过CUDA生态维持行业地位 [1] - 国内Ascend采用系统级统一设计:针对异构架构生态碎片化问题,提出同构ISA和混合执行模型,设计统一总线(UB)实现CPU/GPU/NPU编程统一和高效互连 [1] - SIMT与SIMD架构差异:SIMT编程灵活性高适合稀疏数据和复杂控制流,SIMD硬件效率优适合密集型向量运算,关键在于软硬件交付界面设计 [2] NPU技术特性 - NPU专为AI计算设计:在能效比和计算速度上优于CPU/GPU,适合移动设备、边缘计算和嵌入式AI,近年也应用于大模型训练推理 [3] - NPU硬件优势:指令架构简单(可嵌入ARM/RISC-V扩展指令集)、功耗低、内存使用模式单一,成为应对芯片出口管制的可行方案 [3] - 设计复杂度对比:CPU复杂度为1时,图形GPU为0.3-0.4,NPU不足0.1,核心是矩阵乘法和卷积运算的堆料设计 [4] NPU现存挑战 - 软件复杂度远超硬件:国产GPU卡因软件体验差导致数据中心利用率低下,高端算力紧缺与低端算力过剩并存 [5] - 内存架构缺陷:L1缓存有限且存在存储体冲突,缺乏SIMT的延迟隐藏机制,访存延迟直接暴露易造成计算核心空转 [5] - 生态碎片化:不同厂商NPU架构差异大,软件移植成本高,尚未经历GPU行业的标准化收敛过程 [5] GPU与NPU架构对比 - 历史演变相似性:早期显卡与当前NPU均为CPU远程控制的专用计算器,GPU通过集成独立控制单元实现功能进化 [6] - 控制层级差异:GPU采用"CPU→GPU→张量核心"三级控制链,NPU仅为"CPU→NPU"二级结构,缺乏自主控制能力 [7] - 英伟达关键突破:SIMT编程模型降低并行计算门槛,而NPU仍依赖外部CPU调度,难以适应大模型训练的实时策略调整 [7] 行业发展趋势 - AI任务复杂度提升:从单一推理向"训练+推理"全流程演进,驱动芯片架构向"高效计算+灵活控制"方向发展 [7] - 技术融合路径:国产NPU需引入SIMT前端并强化控制单元向GPU靠拢,同时GPU内部模块需DSA化 [7] - 英伟达算力宣传策略:H100的FP16算力989.4万亿次通过2:4稀疏度计算被宣传为1979.8万亿次,与实际密集运算指标存在差异 [4]
被抛弃的NVL72光互联方案
傅里叶的猫· 2025-07-17 23:41
GB200服务器硬件架构与互联技术分析 核心观点 - GB200服务器采用铜缆与光缆混合互联方案,其中加速器互连(NVLink)全面转向铜缆以降低成本,而后端网络长距离连接仍依赖光纤 [13][16] - NVL36x2成为主流配置,推动有源铜缆需求激增,光学收发器厂商增量有限 [19] - 前端网络存在配置过剩现象,客户可通过降低带宽节省单系统3.5k美元成本 [2] 前端网络 - 功能定位:承担与外部互联网、集群管理工具及存储系统的数据交互,采用常规以太网协议 [1] - 带宽配置:HGX H100单GPU带宽25-50Gb/s,GB200参考设计达200Gb/s(实际需求仅50Gb/s),总带宽200-800Gb/s [2] - 客户差异:超大规模企业采用自定义NIC方案,仅甲骨文使用Bluefield-3实现网络虚拟化 [4] 后端网络 - 技术迭代:初期沿用ConnectX-7网卡(400G),2025Q2将升级至ConnectX-8(800G)搭配Quantum-X800交换机 [6][12] - 材料选择:机架间长距离(>4米)必须使用光纤,铜缆仅适用于短距连接 [6] - 成本对比:Nvidia高端Infiniband交换机成本显著高于Broadcom Tomahawk系列以太网方案 [7] 加速器互连(NVLink) - 拓扑革新:NVL72采用1层扁平拓扑(72GPU),NVL36x2分组设计(2x36GPU),NVL576采用2层胖树结构(576GPU) [15] - 铜缆优势:相比光学方案节省单机架220万美元成本,降低19.4kW功耗,5184根铜缆实现900GB/s单向带宽 [16] - 连接技术:采用Amphenol Paladin HD 224G/s连接器与SkewClear EXD Gen 2电缆,解决信号干扰问题 [17][18] 带外管理网络 - 功能特性:独立运维网络,用于OS重装和硬件状态监控,数据量极小 [20] - 成本控制:采用RJ45铜缆连接,单根成本<1美元,无需光学组件 [21] MPO光纤连接器价值分析 - 400G方案:单GPU对应MPO价值量128美元(两层架构)至192美元(三层架构) [24] - 800G升级:采用16/24芯MPO后,单GPU价值量提升至256-381美元,1.6T方案需32/48芯MPO [25][29] - 规模测算:73728个GPU的三层架构下,MPO总芯数达702万,单GPU价值381美元 [30]
各方关于H20的观点
傅里叶的猫· 2025-07-16 23:04
H20芯片库存与生产情况 - 大摩预计H20芯片库存可达100万片 其中成品芯片库存约70万个 需采购1万片CoWoS-S晶圆进行封装 KYEC可能额外提供20-30万个芯片 [1][2] - JP Morgan预测H20初期季度需求高达100万个 主要受中国AI推理需求驱动且无替代产品 库存可能在一个季度内消耗完毕 [3][4] - 瑞银估算H20销售额将达130亿美元 按每台1.2万美元均价计算对应销量略超100万台 销量恢复比例或达15%-20% [5][6] - Jefferies推测现有H20库存约55-60万个 基于150亿美元收入损失推算 后续将推出采用GDDR6内存的降级版本 [7] 市场需求与行业动态 - JP Morgan指出H20需求旺盛源于中国AI推理市场及客户提前下单行为 与2025年Q2 Deepseek R1的60万需求形成对比 [3] - 瑞银提到中国市场占英伟达数据中心销售额百分之十几 H20出口放宽将支撑下半年业绩 GB200产能提升及GB300量产将推动增长 [5] - Jefferies透露美国可能重新引入数据传输速度限制 HBM3内存的H20将停产 转向GDDR6版本 [7] 行业信息与资源 - 英伟达B系列服务器已在国内开放样品订单 接受行业客户咨询 [8] - 行业研究平台持续更新投行数据及关键信息 提供网盘资源整合服务 [10]
H20恢复供应,市场如何
傅里叶的猫· 2025-07-15 22:36
H20供应情况 - H20当前供应来源为库存而非新生产 库存数量存在两种说法 30w~40w片或60w~100w片 供应量有限[1] - 中国企业正积极抢购H20 大公司已提交大量采购申请 具体数字未披露[1] H20技术规格与市场需求 - H20通过"点断"技术实现硬件降规 从H200/H800改回H200成本过高被放弃[2] - Hopper系列(H200为主)国内需求疲软 近期价格大幅下跌 市场等待B200/B300服务器[2] H20未来生产计划 - H20库存售罄后大概率停产 英伟达重心转向Blackwell架构产品[3] - Hopper系列仅靠库存维持短期供应[3] 采购建议 - 潜在买家需尽快行动 避免后期供应短缺[4] 行业动态 - 英伟达B系列服务器已可接受国内样品订单[5]
二季度财报前聊聊台积电
傅里叶的猫· 2025-07-14 23:43
台积电美国投资与关税影响 - 台积电在美国投资1650亿美元用于产能建设 可能增加获得关税豁免的机会 [1] - 潜在关税可能抑制电子产品需求并减少公司收入 [1] - 未来五年海外工厂利润率侵蚀可能从2-3个百分点上升至3-4个百分点 [1] - 若进口设备和化学品获得关税豁免 长期利润率可保持在53%以上 [1] 晶圆定价策略 - 汇率走势呈现结构性特征 预计2026年晶圆定价策略将考虑汇率影响 [2] - 因先进制程需求旺盛 预计全球美元计价晶圆价格提高3%-5% [2] - 美国客户以更高报价锁定4nm产能 美国工厂晶圆价格至少提高10% [2] 2纳米制程发展 - 计划2025年下半年启动2纳米大规模生产 [5] - 预计2024年N2产能建设为10kwpm 2025年40-50kwpm 2026年底达90kwpm [5] - 苹果将成为首批客户 2025年第四季度采用SoIC 3D封装技术 [5] - AMD和英特尔有望2026年上半年加入N2客户名单 [5] - 英特尔可能将"Nova Lake"高端CPU芯片交由台积电2纳米工艺生产 [5] - 联发科和高通旗舰智能手机芯片2026年与苹果iPhone一同采用2纳米工艺 [5] - 2025年下半年加密货币需求将消耗少量2纳米产能 [6] - 2026年底AI ASIC将开始使用2纳米产能 2027年使用量进一步增加 [6] Blackwell芯片与AI半导体业务 - 2025年NVL72服务器机架出货量预计3万台 [10] - 台积电2025年为Blackwell芯片规划39万块CoWoS-L产能 [10] - 中国版B30 GPU设计可能与RTX PRO 6000相近 出货量已达50万台 [12] - 云AI半导体业务对台积电收入贡献占比:2024年13% 2025年25% 2027年34% [12] - B30若正常销售到中国 将占2026年台积电20%营收增长 [12] B30订单情况 - 互联网A下单十几万张B30 每张7000美元 对应70亿 预计8月到货 [13] - 互联网B预计Q3资本开支上升 主要与采购B30相关 预计下单30万张 9月到货 [13]
中国市场各云服务商水平到底咋样
傅里叶的猫· 2025-07-13 22:59
云服务韧性分析 核心观点 - 亚马逊云科技在中国市场展现出最强的服务韧性,年均服务异常/中断时长控制在1小时以下,可用性达99.9909% [6][7][8] - 华为云韧性表现次于亚马逊云科技,故障响应速度快但发生频率较高,可用性为99.9689% [6][7][8] - 阿里云和腾讯云韧性表现中等偏高,综合故障时长分别为亚马逊云科技的5.9倍和6.3倍 [6][7][8] - 微软Azure韧性最弱,Region平均异常时长高达15.75小时,可用性仅99.9201% [6][7][9] 基础设施部署 - **亚马逊云科技**:所有区域均部署3个以上物理隔离可用区,支持多可用区部署,故障半径控制最佳 [3][8] - **华为云**:75%区域具备3个以上可用区,92%可用区物理隔离,但未支持多可用区部署 [3][8] - **阿里云**:仅42%区域有3个以上可用区,95%物理隔离,底层组件未多可用区部署 [3][8] - **腾讯云**:75%区域有3个以上可用区,90%物理隔离,但关键服务单点部署 [3][8] - **微软Azure**:仅20%区域有3个以上可用区,43%物理隔离,部分区域无独立基础设施 [3][9] 实际性能表现 - **故障时长**:亚马逊云科技综合故障时长仅1.8小时,华为云为6.12小时,阿里云10.62小时,腾讯云11.45小时,微软Azure15.75小时 [7][8] - **故障频率**:亚马逊云科技仅1次故障,华为云4次,阿里云5次,腾讯云和微软Azure各2次 [7][8] - **单次故障时长**:亚马逊云科技1.8小时最短,华为云1.53小时,阿里云2.12小时,腾讯云5.73小时,微软Azure7.88小时 [7][8] 韧性排名 - 报告结论:亚马逊云科技 > 华为云 > 阿里云 > 腾讯云 > 微软Azure [10] 行业动态 - 超微B200/B300芯片样品订单开放,国内可供货 [11] - 行业信息与投行数据通过知识星球和网盘持续更新 [13]
英伟达B30芯片:参数、互联网订单情况更新
傅里叶的猫· 2025-07-12 18:58
AI产业链研究 核心观点 - 英伟达即将推出针对中国市场的阉割版Blackwell芯片B30(或B40),其设计绕开美国技术限制,通过自有技术实现多卡互联(带宽100-200GB/s),虽性能不及H20和国产芯片,但凭借CUDA生态和低价策略仍具竞争力 [1][2] - B30定价6000-8500美元(仅为国产卡一半),性价比突出,已获互联网大厂测试认可并预计下大额订单(如互联网A下单十几万张,金额70亿美元) [2] - B30在中小模型推理和云服务算力池场景中表现优异:8卡集群可提升有效带宽至1.2TB/s,100片集群支持千亿参数模型轻量训练,采购成本较H20降40%,功耗降30% [3][4] 技术参数与性能 - B30取消Nvlink和HBM显存,改用GDDR显存,单卡算力约为H20的75%(处理4096长文本时吞吐量仅达H20的60%) [1][3] - 国产芯片单卡FP16算力远超B30(约200TFLOPS),但B30因CUDA生态适配优势,在主流模型部署效率上仍领先 [4] 市场反馈与订单 - 互联网A:6月下单十几万张(单价7000美元,总金额70亿美元),预计8月到货 [2] - 互联网B:预计Q3资本开支上升,计划采购30万张,9月到货 [2] - 测试效果显示B30在智能客服、文本生成等低带宽需求场景中能效劣势弱化,兼容PyTorch等框架可降低企业迁移成本 [3][4] 应用场景 - 中小模型推理:动态压缩技术使8卡集群有效带宽达1.2TB/s,满足中等并发需求 [3] - 云服务算力池:100片B30集群支持千亿参数模型轻量训练,成本与功耗显著低于H20方案 [4] 行业动态 - B300已在国内上市,可接样品订单 [5] - 行业信息与投行数据通过知识星球和网盘持续更新 [7]
GPU跟ASIC的训练和推理成本对比
傅里叶的猫· 2025-07-10 23:10
芯片供应商及产品规划 - NVIDIA全球市场AI GPU产品线从A100到GB100覆盖2020至2027年,制程从7nm演进至3nm,HBM容量从80GB提升至1024GB [2] - NVIDIA中国市场特供版包括A800/H800/H20等型号,HBM容量最高96GB,部分型号采用GDDR6显存 [2] - AMD MI系列从MI100到MI400规划至2026年,HBM3e容量达288GB,MI400将采用HBM4技术 [2] - Intel AI GPU产品包括MAX系列和Gaudi ASIC,Habana 2采用HBM3e技术容量达288GB [2] - Google TPU v5e至v6采用5nm/3nm制程,HBM3e容量最高384GB [2] - AWS Tranium系列采用Marvell/Alchip设计,Tranium3 Ultra将使用3nm制程和HBM3e [2] 大模型训练成本分析 - 训练Llama-3 400B模型时,TPU v7成本显著低于GPU,呈现断档式优势 [7] - NVIDIA GPU中GB200超级芯片训练成本最低,H100成本最高,验证"买得越多省得越多"规律 [7] - Trainimium2训练成本异常高企,与迭代预期不符 [7] - 硬件成本占比最高的是GPU部分,电力成本占比相对较低 [5][7] 推理成本比较 - AI ASIC在推理场景成本优势显著,比GB200低10倍 [10] - GPU产品中高端型号推理成本反而更高,与训练成本趋势相反 [11] - TPU v5p/v6和Tranium2在推理场景展现最佳性价比 [10][11] 技术参数对比 - GB200超级芯片峰值算力达5000 TFLOPS,是H100的5倍 [12] - HBM3e技术成为2024年主流,NVIDIA/AMD/Intel均采用该内存方案 [2] - 能效比方面GB200达2.25 TFLOPS/Watt,优于H100的1.41 TFLOPS/Watt [12] - MI300X与H100算力接近(981 vs 990 TFLOPS),但能效低7% [12] 供应链动态 - B200芯片已进入期货阶段,国内可接样品订单 [13] - 主要设计合作伙伴包括Broadcom、Marvell和Alchip等厂商 [2] - 行业信息显示3nm制程将在2025-2026年大规模应用于AI芯片 [2][12]