Workflow
傅里叶的猫
icon
搜索文档
GPU跟ASIC的训练和推理成本对比
傅里叶的猫· 2025-07-10 23:10
芯片供应商及产品规划 - NVIDIA全球市场AI GPU产品线从A100到GB100覆盖2020至2027年,制程从7nm演进至3nm,HBM容量从80GB提升至1024GB [2] - NVIDIA中国市场特供版包括A800/H800/H20等型号,HBM容量最高96GB,部分型号采用GDDR6显存 [2] - AMD MI系列从MI100到MI400规划至2026年,HBM3e容量达288GB,MI400将采用HBM4技术 [2] - Intel AI GPU产品包括MAX系列和Gaudi ASIC,Habana 2采用HBM3e技术容量达288GB [2] - Google TPU v5e至v6采用5nm/3nm制程,HBM3e容量最高384GB [2] - AWS Tranium系列采用Marvell/Alchip设计,Tranium3 Ultra将使用3nm制程和HBM3e [2] 大模型训练成本分析 - 训练Llama-3 400B模型时,TPU v7成本显著低于GPU,呈现断档式优势 [7] - NVIDIA GPU中GB200超级芯片训练成本最低,H100成本最高,验证"买得越多省得越多"规律 [7] - Trainimium2训练成本异常高企,与迭代预期不符 [7] - 硬件成本占比最高的是GPU部分,电力成本占比相对较低 [5][7] 推理成本比较 - AI ASIC在推理场景成本优势显著,比GB200低10倍 [10] - GPU产品中高端型号推理成本反而更高,与训练成本趋势相反 [11] - TPU v5p/v6和Tranium2在推理场景展现最佳性价比 [10][11] 技术参数对比 - GB200超级芯片峰值算力达5000 TFLOPS,是H100的5倍 [12] - HBM3e技术成为2024年主流,NVIDIA/AMD/Intel均采用该内存方案 [2] - 能效比方面GB200达2.25 TFLOPS/Watt,优于H100的1.41 TFLOPS/Watt [12] - MI300X与H100算力接近(981 vs 990 TFLOPS),但能效低7% [12] 供应链动态 - B200芯片已进入期货阶段,国内可接样品订单 [13] - 主要设计合作伙伴包括Broadcom、Marvell和Alchip等厂商 [2] - 行业信息显示3nm制程将在2025-2026年大规模应用于AI芯片 [2][12]
美国的数据中心分布
傅里叶的猫· 2025-07-09 22:49
美国AI数据中心布局 - 英伟达在美国运营16,384颗H100芯片的服务器集群,用于DGX Cloud服务[1] - AWS在宾夕法尼亚州Berwick建设GPU数据中心,毗邻核电站[1] - AWS计划建设超过20万颗Trainium2芯片的集群供Anthropic使用,微软将租用该集群[1] - CoreWeave在德克萨斯州Denton规划约5万颗GB200芯片的集群,OpenAI可能使用[1] - Meta在路易斯安那州Richland Parish规划超过10万颗芯片的集群,2025年上线1GW算力用于训练Llama 4[1] - Meta已运营2.4万颗H100芯片的集群用于训练Llama 3[1] 微软/OpenAI合作项目 - 微软在威斯康星州Mt Pleasant规划10万颗GB200芯片的集群,原计划2026-27年开放但部分建设已暂停[1] - 凤凰城地区运营7万颗H100芯片的数据中心[1] - 凤凰城地区计划2025年初部署5.5-6.5万颗GB200芯片供OpenAI使用[1] - 爱荷华州Des Moines运营超过2.5万颗A100芯片的集群,耗资12亿美元用于训练GPT-4[1] - 亚特兰大规划GB200集群,计划2026-27年与威斯康星集群协同工作[1] - 德克萨斯州Abilene规划10万颗GB200芯片的集群,OpenAI预计2025年初使用5万颗[1] 其他科技公司动态 - 特斯拉在德克萨斯州Austin部署3.5万颗H100芯片,计划2024年底扩展至10万颗H100/H200[2] - xAI在田纳西州Memphis部署10万颗H100芯片的集群,并计划改造新仓库容纳35万颗芯片[2] - Oracle在德克萨斯州运营2.4万颗H100芯片的集群用于训练Grok 2.0[1] - 芝加哥地区运营2万颗A100芯片的服务器由英伟达出租[1] - 弗吉尼亚地区运营1.45万颗A100芯片的服务器由微软出租[1] 行业技术进展 - B300芯片已上市并可接受样品订单,B200芯片可期货订购[3] - 主要云服务提供商(CSP)的GPU数量均已超过20万颗[5] - 目前GB200芯片主要由Oracle、微软和CoreWeave部署,交付量显示为今年数据[5]
GB200 出货量更新
傅里叶的猫· 2025-07-08 22:27
AI服务器市场概况 - 2024-2026年全球服务器市场预计以3%年复合增长率增长 2026年规模将达4000亿美元 AI服务器占比从2024年低个位数跃升至2026年高个位数 [1] - 2024年全球服务器出货量同比增长4% 高端GPU服务器2025年预计增长超50% 2026年增幅约20% 2025年全球将部署450万个NVIDIA GPU芯片 [1] - 高端AI服务器平均售价因NVIDIA下一代Rubin芯片引入而上涨 推动市场规模扩大 [1] NVIDIA服务器技术优势 - GB200采用NVLink 5.0互联技术 带宽达1.5TB/s 支持GPU直接通信 搭配HBM3E内存(单芯片192GB)和液冷系统 [2] - GB200单芯片BF16性能达2250 TFLOPS 采用N4制程 HBM3E内存(192GB) NVLink 5.0互联 InfiniBand网络 液冷设计 [10] - GB200机架(NVL72等效)2025Q2出货量大幅增长至7000台 Q3预计达10000台 GB300预计Q4出货数千台 [3] GB200出货数据 - 2025Q1总出货1500台(广达700/鸿海500/纬创300) Q2上调至7200台(广达2800/鸿海2000/纬创2400) [4] - 2025年GB200总出货量预估:NVL72型号27000台 NVL36型号10000台 [4] - 按月份细分:2025年4月1500台 5月2500台 6月3200台 [4] ASIC服务器竞争格局 - CSP厂商(Google/Amazon/Meta/Microsoft)通过ASIC服务器追赶 NVIDIA在性能领先但ASIC在成本定制化占优 [6][7] - Google TPU v5p性能459 TFLOPS 采用N3制程 HBM2E内存(95GB) 自研光网络 [7][10] - Amazon Trainium 2性能650 TFLOPS N5制程 HBM3内存(96GB) 当前风冷计划升级液冷 [7][10] 供应链与市场机会 - Broadcom预测2027财年定制XPU和商用网络芯片市场达600-900亿美元 Marvell预计2023-2028年数据中心市场CAGR为53% [8] - 云厂商ASIC项目进展:Amazon Trainium/Meta MTIA预计2021-2026年逐步落地 市场份额有望提升 [7] - CoWoS基AI加速器出货量稳步攀升 成为市场新增支柱 [8]
聊一聊长鑫
傅里叶的猫· 2025-07-07 23:53
半导体行业上市潮 - 长鑫启动上市辅导 加上国内两家龙头GPU厂上市辅导通过 可能标志着半导体行业迎来上市潮 [1] - 长鑫是国内最领先的DRAM/HBM厂商 国内外研报一致看好其国产替代潜力 [1] HBM技术路线 - CXMT计划2026年上半年量产HBM2E 2025年中实现小规模量产 [2] - 长鑫存储计划2025年底前交付HBM3样品 2026年全面量产 2027年开发HBM3E以缩小与国际巨头的技术差距 [2] - 先进封装合作伙伴包括通富微电 长电科技和晋华集成电路 通富微电提供TSV技术和KGSD键合技术支持 [3] 产能规划 - CXMT的HBM产能到2026年底达1万wpm 2028年底扩大至4万wpm [4] - 全球HBM产能到2025年底预计达34万wpm 显示长鑫仍有较大发展空间 [4] - DRAM领域 长鑫计划2025年底将DDR5/LPDDR5产能提升至11万wpm 占全球DRAM产能6% [5] - 合肥工厂和北京工厂长期产能可能超30万wpm [5] - 2025年长鑫DRAM芯片产量预计占全球14% 但实际市场份额可能因良率问题降至10% [6] 技术进展 - 长鑫在不使用EUV光刻的情况下开发D1节点面临良率和规模生产挑战 [7] - 已能在1z纳米节点制造DDR5芯片 但裸片尺寸较大 良率未完全验证 [7] - 推出16nm节点16Gb DDR5芯片 比18nm第三代DRAM缩小20% 目前技术落后国际大厂约3年 [7][10] - UBS预计2024年底产能达17万片/月 2025年底接近23万片/月 已开始提供DDR5样品 [10] 产能数据对比 - 2025年预计产能540kwpm(8英寸等效) 2028年达799kwpm [6] - 合肥一期12英寸产能2025年达120kwpm 二期2026年达75kwpm [6] - 北京工厂12英寸产能2026年达60kwpm 2028年70kwpm [6]
AI这条赛道,大家都在卷
傅里叶的猫· 2025-07-06 23:23
AI芯片行业竞争格局 - 英伟达产品路线图显示基于Rubin架构的产品将在2025年下半年出货 随后一年推出Rebin Ultra架构产品[1] - AMD计划在2025年上半年推出MI400系列产品 尽管当前市场份额较低[2] - AI ASIC厂商普遍采用每年一次平台升级的节奏 包括Alchip GUC MTK Broadcom Marvell等公司[3] - 主要云服务厂商AI芯片布局:AWS采用Trainium系列(1-7nm至3nm) Inferentia系列(2-7nm) Meta采用MTIA系列(7nm至3nm) Microsoft部署Maia系列(5nm至3nm) Google开发TPU系列(v5至v8)和Axion CPU(3nm/5nm)[4] AI人才争夺战 - 自ChatGPT发布后 Meta OpenAI Google DeepMind和Anthropic等公司通过高薪 股权激励和收购争夺顶尖AI人才[4] - SignalFire报告显示入门级技术岗位需求下降50% 而中高级AI人才需求激增 硅谷和纽约集中了65%的AI工程师[5] - 行业估计全球真正能推动AI突破的研究人员仅几十至千人 其生产力可达普通工程师的10,000倍[6] - Meta通过扎克伯格亲自领导的招聘行动 从OpenAI挖走7名核心研究人员 包括GPT-4开发成员和多模态专家[7] - Meta从Anthropic和DeepMind挖角比例分别达到8:1和11:1 并以14.3亿美元收购Scale AI 49%股份获取其创始人Alexandr Wang[8] - Meta提供高达1.5亿美元签约奖金 首年薪酬超1000万美元 四年合同总值可达3亿美元 并提供芯片无限访问权限[9] 国内AI发展现状 - 国内AI初创企业面临生存压力 除Deepseek外多数企业挣扎在存亡线上 用户转向豆包和元宝等平台[9] - B300服务器已可接样品订单 国内客户可获取该产品[1][9] 行业数据统计 - 晶圆产能规划显示2024-2027年Local GPU产能从2kwpm增长至26kwpm B系列产能从2kwpm增至9kwpm后归零 C系列从0增至10kwpm[13] - 芯片良率预计显著提升:I系列从30%升至70% 9系列从0%升至50% =系列从0%升至30%[13] - 10B Die年产量预计从562k(2024)增至2527k(2025)后归零 10C Die从0(2024)增至1404k(2025)并保持 10X Die从0(2024)增至2808k(2027)[13] - GPU收入结构变化:0B产品收入从35580万元(2024)增至126360万元(2025)后消失 DC产品收入从0(2024)增至70200万元(2027) DX产品从0(2024)增至196560万元(2027)[13]
基于PCIe XDMA 的高速数据传输系统
傅里叶的猫· 2025-07-05 19:41
高帧率高分辨率相机的FPGA视频传输方案设计 核心观点 - 设计基于CXP和PCIe接口的高速数据传输系统,满足高带宽、多通道相机接入及长时间稳定传输需求 [1][5][22] - 采用DDR4/UltraRam缓存结合XDMA多通道分块控制机制,优化读写顺序以避免数据跨块 [6][8][19] - 方案支持灵活扩展,可适配4通道相机、CXP-12 8lane或100G光口相机等极限场景 [14][19][21] 技术架构 带宽与接口配置 - PCIe Gen3x8带宽达6.5GB/s,Gen3x16达12GB/s,满足CXP电口12.5G 4lane/8lane或光口40G/100G需求 [1][5] - DDR4(64bit×2400M)实测极限读写带宽约16GB/s,UltraRam在ZU19EG芯片上实现PCIe Gen3x16读带宽11-12GB/s [8][11] 多通道分块控制 - 采用Multi_ch_dma_wr模块实现1-4通道分块缓存,按translate size(如4M)自动分配块 [6][14] - 读写逻辑交替执行:通道0按0→2→4→8顺序读,通道1按1→3→5→7顺序读,确保不跨块 [6] - 支持动态调整:写速率快时写指针追读指针,读速率快时反之,保证实时性 [8] 扩展性与应用场景 - 多设备接入时通过软件拆分数据块并拼接画面,支持2/4通道传输 [19][21] - 适配CXP-12 8lane或100G相机需双通道DDR4缓存及软硬件协同修改 [19] - 方案通用性强,可扩展至ADC/DAC等高速采集设备 [22] 系统验证 - 已在Win10/Ubuntu/CentOS系统下实现长时间稳定运行,无丢数或错报 [22] - 需驱动与软件配合,通过寄存器定义及中断流程实现完整交互逻辑 [22] 行业资源 - 提供GPU服务器资源(A100/H100/H200/B200等),支持半导体与AI领域应用 [23]
半导体AI 专业数据分享
傅里叶的猫· 2025-07-05 19:41
数据整理与共享 - 公司开始整理关键行业数据和信息并放入云盘,方便回溯和提供系统化资料 [1] - 云盘数据将持续更新,目前数据量还不大 [2] 产能与产量预测 - 2024年本地GPU产能为2kwpm,预计2025e增至10kwpm,2026e达20kwpm,2027e达26kwpm [3] - B类产能2024年为2kwpm,2025e增至9kwpm,2026e和2027e均为0 [3] - 其他类别产能从2025e的1kwpm增至2026e的10kwpm [3] - 晶圆库存从上年结转150k [3] 晶圆产出效率 - 123型晶圆每片产出78个芯片,预测期内保持稳定 [3] - 91C型晶圆每片产出从3个增至2027e的39个 [3] - X型晶圆每片产出同样从3个增至2027e的39个 [3] 良率预测 - B类产品良率从2024年的30%提升至2027e的70% [3] - 9类产品良率从2025e的15%提升至2027e的50% [3] - =类产品良率从2026e的15%提升至2027e的30% [3] 芯片年产量 - 1.0B芯片2024年产量562k,2025e增至2527k [3] - 10C芯片从2025e的70k增至2026e的1404k [3] - IOX芯片从2026e的702k增至2027e的2808k [3] 价格趋势 - 0B产品价格保持在50Rmb th [3] - DC产品价格从2025e的110Rmb th降至2027e的50Rmb th [3] - JX产品价格从2026e的140Rmb th降至2027e的70Rmb th [3] 收入预测 - 0B产品收入从2024年的35580Rmb mn增至2025e的126360Rmb mn [3] - DC产品收入从2025e的7722Rmb mn增至2026e的98280Rmb mn [3] - DX产品收入从2026e的98280Rmb mn增至2027e的196560Rmb mn [3] - 其他GPU收入从2024年的7367Rmb mn增至2027e的19807Rmb mn [3] - 总GPU收入2024年为42947Rmb mn,2025e增长240%至146107Rmb mn,2026e增长45%至212023Rmb mn,2027e增长32%至286567Rmb mn [3] 行业信息服务 - 提供每日更新的音频版行业调研纪要 [3] - 推送精选外资投行和国内券商优质研报及半导体行业信息 [4]
半导体AI 专业数据分享
傅里叶的猫· 2025-07-04 20:41
在这个信息爆炸的时代,每天都有大量的信息涌进来,我们在星球( Global Semi Research ) 中, 每天也会分享行业的动态和行业的关键数据,但大部分的球友对这些数据并不会做深入的分析,也 不会特意去记这些数据,等到需要用的时候,回头再来找,就发现忘记是哪个资料中有这个数据 了。 现在星球中领券后只需要390元,无论是我们自己做投资,还是对行业有更深入的研究,都是非常值得 的。扫描下图中的二维码可进星球。 图片 | 类别 | 2024 | 2025e | 2026e | 2027e | | --- | --- | --- | --- | --- | | capacity for Local GPU(kwpm) | 2 | 10 | 20 | 26 | | . B capacity (kwpm) | 2 | 9 | 0 | O | | C C capacity (kwpm) | 0 | 1 | 10 | ნ | | Clork capacity (kwpm) | 0 | 0 | 10 | 20 | | Die per wafer 13 | 78 | 78 | 78 | 78 | | Die per ...
Deepseek爆火之后的现状如何?
傅里叶的猫· 2025-07-04 20:41
DeepSeek R1发布与市场影响 - DeepSeek R1于2025年1月20日推出,性能与OpenAI推理模型相当,但定价极具颠覆性,输入/输出token价格仅为10美元,引发全球AI市场震动 [3] - 低价策略导致行业价格战,OpenAI输出token价格下降8美元以上,迫使旗舰模型价格调整 [3] - 据Reuters报道,DeepSeek低成本策略导致美国科技股市值蒸发数十亿美元,投资者重新评估AI巨头估值 [4] 技术进步与强化学习 - 模型通过强化学习(RL)显著升级,编码领域表现突出,SWE-Bench显示性能提升同时成本降低 [5] - 2025年5月29日发布的R1-0528升级版通过增加计算资源和算法优化,AIME 2025测试准确率从70%提升至87.5%,每题平均token使用量从12K增至23K [5] - 性能提升伴随延迟增加和吞吐量降低,牺牲部分用户体验以实现低成本 [5] 用户使用趋势 - 第三方托管平台使用量激增,自发布以来增长近20倍,但自托管模型用户增长乏力 [6] - 移动应用曾短暂超越ChatGPT成为Apple App Store榜首,但直接用户增长随后放缓,更多用户转向第三方托管服务 [6] - 2025年2月至5月,月活跃用户从6.147亿降至4.362亿(-29%),而ChatGPT同期增长40.6%至54.92亿 [14] token经济学与性能对比 - 通过高批量处理降低每token成本,但导致高延迟和低吞吐量,自托管模型用户体验较差 [7] - 关键性能指标对比显示DeepSeek R1延迟高、吞吐量低(64K上下文窗口),每token成本0.01美元,与Parsail相当但性能落后 [9] - Microsoft Azure提供中等性能,每token成本0.015美元,平衡价格与体验 [9] 硬件与计算限制 - 低成本策略依赖高批量处理,减少推理资源使用,目标为扩大全球影响力而非盈利 [10] - 中国推理模型规模化受出口管制限制,R2延误传闻与管制相关,但训练能力未受显著影响 [10][16] - R1-0528在编码领域进步显著,显示中国AI训练技术仍强,推理规模化需克服硬件和政策障碍 [10] 竞争格局与行业动态 - 用户转向腾讯元宝、字节豆包等第三方平台,导致DeepSeek官方工具使用量下降 [15] - 出口管制对训练影响有限,R2延迟可能涉及审查要求等非硬件因素 [16] - 行业数据显示2025年本地GPU产能预计从2kwpm增至10kwpm,2027年达26kwpm,晶圆良率逐步提升 [21]
2025 Q2中国半导体市场分析
傅里叶的猫· 2025-07-03 21:03
半导体市场Overview - 2025年半导体市场季度简报涵盖全球及中国大陆半导体市场增长趋势、不同应用类别市场情况(如智能手机、个人电脑、数据中心服务器、汽车等)以及关税政策对中国半导体产业的影响 [1] - 报告基于大量市场调研,内容详实可靠 [1] 中国市场 - 2025Q1中国半导体行业总营收达379.66亿元人民币,同比增长20.3%(2024Q1为315.67亿元) [10] - 行业平均毛利率从2024Q1的34.11%降至2025Q1的32.68%,营业利润率保持稳定(9.23% vs 9.25%) [10] - 2024全年行业总营收达1,492.01亿元人民币 [10] 模拟芯片 - 2025Q1模拟芯片总营收109.20亿元,同比增长8%(2024Q1为101.10亿元) [13] - 行业营业利润率从2024Q1的-0.98%改善至2025Q1的0.75% [13] - 2024全年模拟芯片总营收457.33亿元 [13] 分立器件 - 2025Q1分立器件总营收219.91亿元,同比下降6.9%(2024Q1为236.10亿元) [19] - 行业毛利率显著提升,从2024Q1的14.70%增至2025Q1的19.46% [19] - 2024全年分立器件总营收1,080.95亿元 [19] 终端市场 - 数据中心服务器市场格局变化显著,2024年Top 10供应商中Foxconn、Dell Technologies、QCT等因NVIDIA合作伙伴关系获得市场份额提升 [29] - 中国厂商Huawei和H3C成为中国云服务市场主要供应商 [29] 产能与收入预测 - 本地GPU产能预计从2024年的2kwpm大幅扩张至2025年的10kwpm,2027年达26kwpm [38] - 2025年GPU总收入预计达146,107百万元人民币,同比增长240% [38] - 2027年GPU总收入预计进一步增长至286,567百万元人民币,年均复合增长率35% [38] 行业资源 - 提供GPU服务器资源(A100/H100/H200/B200等)及行业数据统计文件(HBM市场、IDC数据、晶圆厂信息等) [33][37] - 知识星球提供每日更新的行业调研纪要、外资投行/券商研报及半导体行业数据 [36][38][39]