Workflow
Rubin GPU
icon
搜索文档
英伟达盯上新型封装,抛弃CoWoS?
半导体行业观察· 2025-07-31 09:20
核心观点 - NVIDIA正在考虑将CoWoP作为下一代Rubin GPU的封装解决方案,以替代目前主流的CoWoS技术 [3] - CoWoP技术具有信号完整性更佳、散热效果更好、成本更低等优势 [4][5] - 公司计划2025年8月开始测试功能齐全的GB100 CoWoP设备,2026年底量产GR150 Rubin解决方案 [4][7] - 台积电CoWoS产能争夺战激烈,预计2026年全球需求达100万片,NVIDIA将占据60%份额 [9][10] 技术优势 - CoWoP封装信号和电源完整性更佳,减少基板损耗,电压调节更接近GPU芯片 [4] - 无需封装盖,散热解决方案可直接与硅片接触,降低成本 [4][5] - 改进电迁移和AISC成本,更好地服务于Dielet模型的长期愿景 [5] - 尺寸为110x110mm,早期测试基于GB100 GPU和Dummy GPU/HBM解决方案 [4] 产品规划 - 2025年8月开始测试功能齐全的GB100 CoWoP设备,评估可制造性、电气功能等 [4] - 2026年底量产GR150 Rubin CoWoP解决方案,预计2027年上市 [7] - GR100 CoWoP将作为测试平台,为GR150量产铺路 [7] - 公司不会放弃CoWoS,将同时使用两种技术 [7] 行业竞争 - 2026年全球CoWoS晶圆需求预计达100万片,年增率40-50% [9][11] - NVIDIA预计占据60%份额(59.5万片),其中51万片由台积电代工 [10] - AMD预计获得10.5万片(11%份额),博通15万片(15%份额) [10] - 台积电月产能将从2024年3.2万片提升至2026年9.3万片 [11] 供应链 - 台积电主导CoWoS产能分配,预计2026年AI收入占总收入25% [9][11] - NVIDIA委托Amkor与日月光分担约8万片产能 [10] - 亚马逊通过Alchip预定5万片,Marvell为AWS和微软预定5.5万片 [10] - 联发科为谷歌TPU项目预留2万片产能 [10]
小摩:HBM短缺料延续至2027年 AI芯片+主权AI双轮驱动增长
智通财经· 2025-07-07 17:13
HBM市场供需与技术趋势 - HBM供应紧张局面预计将持续至2027年,2026-2027年供应过剩逐步缓解,渠道库存预计增加1-2周 [2] - 三星HBM认证延迟叠加英伟达Rubin GPU位元需求增长是当前供需紧张主因 [2] - HBM4位元供应量2026年预计占比30%,2027年HBM4与HBM4E合计占比超70% [2] - 市场规模2026年同比增长超70%,占DRAM总TAM的45%、总位元需求的10% [2] - 2027年Vera Rubin GPU(1024GB容量)推出将成为主要增长动力 [2] 需求端驱动因素 - 2027年HBM位元需求重新加速,核心驱动力来自Vera Rubin GPU和AMD MI400(432GB HBM) [3] - 2024-2027年ASIC/英伟达/AMD位元需求CAGR超50%,英伟达2025-2027年位元占比超60% [3] - 谷歌TPU到2027年占ASIC总需求超50% [3] - 主权AI需求成为新变量:沙特计划投资100亿美元采购1.8万颗英伟达GPU,韩国推出100万亿韩元主权AI计划 [3] 定价与成本结构 - HBM4较HBM3E12Hi预计有30-40%价格溢价以弥补更高芯片损耗 [4] - 逻辑芯片成本占比高:4nm逻辑芯片晶圆成本13-14k美元/片,12nm约9-10k美元/片 [4] - 单颗Rubin GPU(8个HBM立方体)系统成本1000-1400美元 [4] 市场竞争格局 - 三星因认证延迟导致份额下滑,美光预计抢占其份额 [5] - 美光2025Q3 HBM营收环比增50%,季度营收运行率达15亿美元 [6] - SK海力士HBM4第六代产品份额预计保持60%以上领先 [6] 行业长期影响 - HBM推动DRAM进入5年上行周期,2030年占DRAM营收比例将从19%提升至56% [7] - 2025-2030年DRAM ASP CAGR 3%,高于历史周期 [7] - 三大厂商DRAM资本开支持续增长,2025年侧重基础设施,2026年后设备开支加速 [7]
集邦咨询:预计HBM4溢价幅度将突破30%
快讯· 2025-05-22 18:59
HBM技术发展 - HBM技术发展受AI Server需求带动,三大原厂积极推进HBM4产品进度 [1] - HBM4的I/O数增加导致芯片设计复杂化,晶圆面积增加,部分供应商改用逻辑芯片架构以提高性能,推升了成本 [1] - HBM3e刚推出时的溢价比例约为20%,预计HBM4溢价幅度将突破30% [1] HBM4产品特性 - HBM4的I/O数从1024翻倍提升至2048 [1] - HBM4数据传输速率维持在8.0Gbps以上,与HBM3e相当 [1] - 在相同传输速度下,较高通道数的HBM4传输数据量将倍增 [1] 行业竞争格局 - NVIDIA在GTC大会亮相最新Rubin GPU,将搭载HBM4 [1] - AMD推出MI400与NVIDIA竞争,也将搭载HBM4 [1]
研报 | HBM4新规格拉高制造门槛,预期溢价幅度逾30%
TrendForce集邦· 2025-05-22 12:05
HBM技术发展 - HBM4技术受AI服务器需求推动 三大原厂正加速推进产品进度 [1] - HBM4因I/O数增加至2048 芯片设计复杂度提升导致晶圆面积扩大 部分供应商改用逻辑芯片架构以提高性能 [1][5] - HBM4预计溢价幅度超30% 高于HBM3e初期20%的溢价比例 [1] HBM产品规格对比 - HBM4计划2026年推出 核心密度24Gb 层数12/16层 速度8-10Gbps I/O数2048 [2] - HBM3e当前主流规格为24Gb密度 8/12/16层 速度8-9.8Gbps I/O数1024 [2] - HBM4传输速率与HBM3e相当 但通道数翻倍使数据吞吐量倍增 [5] 厂商动态与技术升级 - NVIDIA Rubin GPU与AMD MI400均将搭载HBM4 [5] - SK海力士与三星HBM4采用逻辑芯片架构 整合HBM与SoC功能 减少延迟并提升高速传输稳定性 [5] - SK海力士预计占据HBM4市场过半份额 三星与美光需提升良率及产能以追赶 [6] 市场前景预测 - 2026年HBM总出货量预计突破300亿Gb [6] - HBM4市占率将于2026年下半年超越HBM3e成为主流 [6]
台积电巨型芯片计划
半导体行业观察· 2025-04-27 09:26
半导体封装技术发展 - 台积电正在扩大芯片封装技术规模,新一代CoWoS技术可组装比目前大得多的多芯片处理器,应用于AMD Instinct MI300X和Nvidia B200 GPU等产品 [2] - 当前CoWoS解决方案可容纳面积达2,831平方毫米的中介层,是标准光掩模版面积(830-858平方毫米)的3倍多 [2] - 为应对AI和高性能计算需求增长,台积电开发CoWoS-L技术,支持4,719平方毫米中介层(光罩极限5.5倍),基板尺寸100×100毫米,可容纳12个高带宽存储器堆栈 [4] - 未来计划推出7,885平方毫米中介层(光罩极限9.5倍),基板尺寸120×150毫米,可容纳4个3D堆叠芯片系统、12个HBM4内存堆栈和多个I/O芯片 [6] 晶圆级系统技术 - 台积电提供SoW-X技术可将整块晶圆集成到单个芯片,目前被Cerebras和特斯拉等公司用于专用AI处理器 [9] - 晶圆级集成面临巨大工程挑战,大型多芯片组件需要数千瓦功率,远超传统服务器设计承受能力 [9] - 公司将先进电源管理电路直接集成到芯片封装,利用N16 FinFET技术嵌入电源管理IC和晶圆上电感器,实现高效电源传输 [11] - 该方法降低电阻提高电源完整性,实现动态电压调节和快速响应工作负载变化,嵌入式深沟槽电容器稳定电气性能 [13] 技术挑战与解决方案 - 更大尺寸芯片封装面临基板物理尺寸挑战,100×100毫米和120×150毫米尺寸可能突破现有模块标准(OAM 2.0)极限 [15] - 热管理是关键挑战,硬件制造商探索直接液冷和浸没式冷却技术以应对芯片高功耗 [19] - 台积电与合作伙伴开发数据中心浸入式冷却解决方案,显著降低能耗并稳定芯片温度 [19] - 系统级共同优化趋势明显,电力输送、封装和硅设计被视为相互关联元素 [15]
台积电先进封装,再度领先
半导体行业观察· 2025-03-27 12:15
下一代芯片封装技术SoIC发展 - NVIDIA下一代Rubin AI架构将首次采用SoIC封装 并集成HBM4等领先组件 预计引发硬件市场革命[1] - SoIC技术允许不同功能芯片异质整合 相比传统SoC可减少内部线路空间并降低成本 AMD为最早采用该技术的厂商[2] - 台积电正加速建设SoIC封装厂 南科AP8和嘉义AP7工厂将于2024年下半年陆续投产 设备进驻和人力调配同步推进[1][2] 主要厂商技术路线图 - NVIDIA Rubin GPU将采用SoIC封装 设计包含2颗N3P制程GPU和1颗N5B制程I/O die 整合后性能达50-100 PFLOPS FP4[5] - 苹果计划在M5芯片中导入SoIC封装 并与自研AI服务器集成 预计应用于未来iPad和MacBook产品线[5] - AMD已率先采用SoIC技术 苹果将于2024年下半年跟进 形成三大芯片厂商共同推动技术迭代的格局[2] 台积电产能与供应链动态 - 台积电2024年底SoIC产能预计达1.5-2万片/月 2025年将实现翻倍扩增至2万片/月[2][6] - 当前生产重心仍以CoWoS封装为主 第二季度起南科厂开始出货CoWoS-L/R设备 但后续扩产计划可能受限[2] - 公司积极调配8吋厂人力支援先进封装厂 同时扩大招募 2024年计划新增8000名员工 总人数向10万目标迈进[3] 技术规格与性能参数 - SoIC为先进3D芯片堆叠技术 可实现CPU/内存/I/O等多芯片集成 已在AMD 3D V-Cache处理器验证应用[3] - Rubin NVL144平台配置288GB HBM4内存 NVL576平台则搭载1TB HBM4e内存 采用4颗Reticle尺寸芯片组合[5] - 台积电SoIC技术采用异质整合方案 显著降低芯片制造成本 成为下一代先进封装的核心发展方向[2]
高带宽内存需求即将激增,现在是抄底美光的最佳时机吗?
美股研究社· 2025-03-24 19:10
文章核心观点 - 美光科技作为全球第三大DRAM生产商,所处的DRAM市场周期性强,公司经营受价格波动和固定成本影响大;HBM市场增长潜力大,但随着各公司增加投资提高产能,供应最终会赶上需求,目前美光的风险/回报不够吸引人 [2][3][13] 行业情况 - DRAM市场呈寡头垄断,最大的三家公司占全球销售额约98%,市场高度周期性,是半导体行业中最不稳定的领域之一,平均周期约四年,2023年美国经济衰退时DRAM价格同比下降近60% [2][3] - HBM市场预计将从2023年的40亿美元增长到2033年的1300亿美元,到2033年HBM销售额可能占全球DRAM销售额的50%,两年前这一比例几乎为零 [6] - HBM内存制造需EUV光刻机,这是全球半导体供应链的关键瓶颈,组装一台需12到18个月,每台价格高达3.7亿美元 [7] - 英伟达GPU的内存强度将从2023年的每芯片80GB增加到2026年的每芯片288GB,增长260%,可弥补HBM市场不足 [7][8] 美光科技情况 财务表现 - 2025财年第二季度,DRAM收入61.23亿美元,占比76%;NAND收入18.55亿美元,占比23%;其他(主要是NOR)收入7500万美元,占比1%,总收入80.53亿美元 [3] - 总收入从2022财年的308亿美元下降到2023财年的155亿美元,下降约50%,销售成本基本不变,毛利润从2022财年的139亿美元下降到2023财年的 - 14亿美元 [4][5] - 2025年2月底总债务144亿美元,减去82亿美元现金、现金等价物和短期投资后,净债务62亿美元 [9] - 2025财年上半年经营现金流72亿美元,资本支出62亿美元,相对于约1050亿美元市值,每年20亿美元自由现金流收益率略低于2.0% [10] 业务发展 - 美光在最近财务业绩中宣布HBM销售额环比增长超50%,首次超10亿美元,2025年HBM产量已售罄,2026年供应协议谈判正在进行 [6] - 2024年6月宣布在制造过程中增加EUV光刻技术 [7] - 2025年1月宣布投资70亿美元在新加坡建设专注于HBM内存的封装工厂,还宣布将在20年内投资高达1000亿美元在纽约州克莱市建造一座大型晶圆厂,预计2025年资本支出达140亿美元左右 [8][9] 投资分析 - DRAM市场自2023年低点大幅复苏,HBM内存需求增长,购买美光最佳时机是DRAM价格暴跌、公司巨额运营亏损时,目前情况更微妙 [12] - 预计未来几年HBM市场增长惊人,但三星、SK海力士和美光有望提高产能,鉴于美光市值约1050亿美元,目前风险/回报不够吸引人 [13]
一文读懂英伟达GTC:有关Blackwell全家桶、硅光芯片和黄仁勋的“新故事”
投中网· 2025-03-19 14:44
英伟达GTC 2025大会核心要点 硬件产品线更新 - 推出Blackwell Ultra GPU,采用台积电N4P工艺,搭配HBM3e内存显存提升至288GB,FP4精度算力达15PetaFLOPS,推理速度比Hopper架构提升2.5倍 [8][11] - 发布Blackwell Ultra NVL72机柜,含72颗GPU+36颗Grace CPU,显存20TB,总带宽576TB/s,推理性能比H100提升50倍,6710亿参数模型推理速度达每秒1000 tokens [13][14][16] - 预告2026年Rubin架构GPU及Vera Rubin NVL144机柜,FP4精度算力3.6ExaFLOPS,性能是Blackwell Ultra的3.3倍 [16][17] - 推出DGX Super POD超算工厂,含576颗Blackwell Ultra GPU,FP4算力11.5ExaFLOPS,支持生成式AI全流程 [18][22] 软件生态布局 - 推出开源推理加速软件Nvidia Dynamo,可使Llama模型性能翻倍,DeepSeek推理模型token生成提升30倍,支持千级GPU集群扩展 [36][38][41][46] - 发布48B参数Llama Nemotron模型,token吞吐量达Llama 3 70B的5倍,但训练效率低于DeepSeek V3 [47][49][51] - 推出AI Agent开发平台NVIDIA AIQ,集成RAG系统与多Agent工作流,支持企业数据智能分析 [53][54][59][60] 具身智能战略 - 发布世界基础模型Cosmos,含Transfer/Predict/Reason三模块,支持物理世界模拟与行为预测 [64][65][67] - 推出人形机器人基础模型Isaac GR00T N1,采用双系统架构,已应用于1X等头部机器人公司 [68][71] - 构建DGX训练计算机+AGX边缘计算机+Omniverse数据生成计算机的三位一体算力体系 [75][77] 市场数据与趋势 - 2024年美国四大云厂商采购130万颗Hopper芯片,2025年Blackwell GPU采购量预计达360万颗 [6] - 云厂商AWS/Google Cloud/Azure及服务器厂商Dell/HPE等15家制造商将成为Blackwell产品首批客户 [16] - 光电共封模块(CPO)交换机性能提升3.5倍,部署效率提升1.3倍,扩展弹性超10倍 [29][32]
刚刚,老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世
创业邦· 2025-03-19 11:17
文章核心观点 英伟达在GTC大会展示过去一年进展,发布新产品路线图,强调Scaling Law未撞墙,未来数据中心建设规模将达万亿美元,还推出开源推理软件和通用机器人模型,有望在AI和机器人领域持续引领发展[1][23][27] 分组1:大会亮点与行业趋势 - 英伟达老黄在GTC大会介绍过去一年进展,称今年GTC是AI的超级碗,每个人都是赢家 [2] - Blackwell全面投产,因AI拐点至,训练推理AI/智能体系统对计算量需求大增 [3] - 英伟达预言未来有工厂的公司将有实体工厂和AI工厂,CUDA核心及算力将引爆行业变革 [4] - 通用计算到尽头,行业正从通用计算机转向加速器和GPU上运行的机器学习软件,计算机成为生成token的工具 [28] - 加速计算趋势无法阻挡,AI将进入各行业,英伟达CUDA - X库为科学领域提供加速框架 [29] 分组2:产品路线图 - AI芯片每年一更,下一代Rubin明年亮相,英伟达构建云上、企业和机器人AI基础设施 [5][8] - 今年下半年将问世的Blackwell Ultra提升训练和测试时推理能力,显存从192GB提升到288GB,GB300 NVL72的AI性能比NVIDIA GB200 NVL72高出1.5倍 [6][7] - 2026年下半年预计发布Vera Rubin,推理时每秒50千万亿次浮点运算,比Blackwell速度高出一倍多,显存升级为HBM4,带宽从8TB/s提高到13TB/s,扩展NVLink吞吐量提升到260TB/s,机架间CX9链路达28.8TB/s [9][10] - 2027年下半年预计推出Rubin Ultra版本,FP4精度推理性能达15 ExaFLOPS,FP8精度训练性能为5 ExaFLOPS,相比GB300 NVL72性能有14倍提升,配备HBM4e内存,带宽为4.6 PB/s,支持NVLink 7,带宽为1.5 PB/s,较上一代提升12倍,机架支持CX9,带宽达115.2 TB/s [11] - 2028年将上市Feynman,命名致敬美国理论物理学家Richard Feynman [17] 分组3:桌面级产品 - 推出Blackwell RTX PRO工作站和服务器系列,包括数据中心、桌面和笔记本GPU,为开发者等提供AI支持,RTX PRO 6000 Blackwell吞吐量高达1.5倍,第五代Tensor Core每秒4000万亿次AI运算,第四代RT Core性能提升2倍 [19] - 带来两款由Blackwell驱动的DGX个人桌面AI超级计算机DGX Spark和DGX Station,DGX Spark是最小的AI超级计算机,配备128GB内存,核心是GB10 Grace Blackwell超级芯片,每秒1000万亿次AI计算能力;DGX Station将数据中心级性能带到桌面,采用GB300 Grace Blackwell Ultra桌面超级芯片,配备784GB统一内存 [20][22] 分组4:Scaling Law与数据中心 - 老黄称Scaling Law没撞墙,推理计算量需求大增,数据可通过强化学习和合成数据获取,AI处于转折点 [25][26] - 2024年全球TOP 4云服务商买进130万块Hopper架构芯片,预计2028年数据中心建设规模达一万亿美元 [27] 分组5:架构与扩展 - 英伟达通过网络InfiniBand和Spectrum X实现scale up,Spectrum X具备低延迟和拥塞控制特性,成功扩展最大单GPU集群 [14] - 官宣首个共封装硅光子系统,每秒1.6T的CPO,基于「微环谐振器调制器」技术,用台积电工艺构建,可扩展至数十万甚至百万GPU规模 [15][16] - HGX系统架构解决纵向扩展问题,包含8个GPU,通过MVLink 8连接到CPU架,再通过PCI Express连接,用InfiniBand连接多个设备,NVLink交换机让GPU全带宽通信,液冷压缩计算节点,实现一个机架Exaflops级超算 [31][32][33] 分组6:推理Scaling问题与解决 - 推理Scaling是「终极计算」问题,推理中响应时间和吞吐量存在矛盾,需最大化生成token曲线下方面积,还需巨大带宽和浮点运算能力 [36] - 传统LLM用不到500个token快速回答问题但结果错误,推理模型需超8000个token推理简单问题,计算量增加150倍,万亿级参数模型需通过管线、张量和专家并行组合解决,NVlink可实现规模终极Scaling [37][38][39] 分组7:NVIDIA Dynamo - 发布开源推理软件NVIDIA Dynamo,被称为「AI工厂的操作系统」,能协调加速数千个GPU间推理通信,分配LLM处理和生成阶段到不同GPU,优化GPU资源利用 [41][42] - Dynamo能让运行Llama模型的AI工厂在Hopper架构上性能和收入双双翻倍,在GB200 NVL72集群上运行DeepSeek - R1模型时,每个GPU生成token数量提升超30倍,还能动态分配GPU、卸载推理数据降低成本 [42] - Dynamo完全开源,支持PyTorch、SGLang、NVIDIA TensorRT - LLM和vLLM [43] 分组8:性能对比与效益 - 新的Blackwell架构比Hopper强,能耗固定时性能提升25倍,推理模型上高40倍,用MVLink 8技术加速,引入4位浮点数优化,能效高的架构对未来数据中心重要 [44] - Blackwell扩展到MVLink 72加上Dynamo软件效果更好,能适应不同工作负载,老黄认为大型项目投资最新技术如Blackwell可避免落后,买得越多赚得越多 [45][46] 分组9:通用机器人模型 - 预计本世纪末世界劳动力短缺超5000万,通用机器人时代到来,具身智能遵循三大Scaling Law,数据短缺问题可由英伟达Omniverse和Cosmos解决 [48][49] - 官宣世界首个开源、完全可定制的通用人形机器人模型GROOT N1,采用「双系统架构」,慢思考系统推理规划行动,快思考系统转化为精确动作,可执行多步骤任务 [50][51][52] - 与DeepMind、迪士尼研究开发下一代开源的Newton物理引擎,让机器人精确处理复杂任务,以星球大战BDX机器人为灵感的Blue上台互动,老黄预言机器人领域将成最大产业 [54][55][56]
英伟达GB 300展望:HBM激增,TDP高达1400W
半导体行业观察· 2025-03-15 11:46
文章核心观点 摩根大通发布对NVIDIA GTC 2025的预期,包括新芯片亮点、下一代架构特点、CPO技术路线图及子GPU本地化工作细节等内容 [1][2][7] 分组1:Blackwell Ultra GPU(GB)预期 - 有望成为NVIDIA GTC 2025展会明星 [2] - 逻辑结构与B芯片类似,HBM容量为GB,利用HBMe 12高堆叠技术,TDP高达.kW,FP计算性能提升50% [2] - 预计2025年第三季度开始出货 [2] 分组2:Rubin GPU预期 - 逻辑结构与Blackwell类似,配备2个台积电N工艺芯片,为双逻辑芯片结构 [2] - 有八个HBM堆栈,总容量为GB [3] - TDP约为1.kW [4] - Vera ARM CPU升级至台积电N工艺,采用.D封装结构 [4] - 配备1.T网络和两个ConnectX - NIC [5] - 可能引入NVL和NVL机架结构 [6] - 初始生产预计于2025年底或2026年初开始,2026年第二季度开始大规模出货 [7] 分组3:CPO技术预期 - NVIDIA将披露共封装光学(CPO)技术路线图更多细节,旨在增加带宽、减少延迟和降低功耗 [7] - GPU级CPO面临散热、可靠性和基板变形等重大技术挑战 [7] - 预计CPO在2027年得到广泛采用,2026年Rubin迭代可能将其作为交换机可选功能 [7] 分组4:子GPU本地化工作预期 - NVIDIA于2025年3月6日申请新专利,设想GPU离散部分本地工作以减少访问远程计算资源延迟 [7] - 可能在GTC上透露子GPU本地化工作新细节 [7]