Workflow
半导体行业观察
icon
搜索文档
比GPU强100倍的芯片,挑战AI芯片霸主
半导体行业观察· 2025-12-18 09:02
公司核心技术与产品 - 公司开发了模拟处理单元(APU),这是一种将计算和内存融合于同一平面的新型芯片架构,旨在解决人工智能的能耗瓶颈 [1] - APU以模拟方式执行AI工作负载中最繁重的矩阵乘法运算,其架构比当今顶级GPU和所有竞争对手的AI ASIC的能效高出100倍 [1][4] - APU在能耗方面是硅芯片中最接近人脑的,一次乘加运算(MAC)仅消耗17飞焦耳的能量,比在现有GPU上执行相同运算的能效高出1000倍 [4] - 公司拥有全球首款量产的模拟计算芯片,其APU架构每瓦特每秒可执行120万亿次运算(TOPS)[1][4] - 公司的“神经元”由高度成熟的硅存储单元构成,迄今为止已出货1500亿个,并采用标准半导体材料在美国及其盟友国家生产 [6] 性能优势与基准测试 - 内部基准测试表明,在运行1T参数大型语言模型(LLM)时,APU的每瓦每秒令牌数(Tokens/s/W)比NVIDIA的高端GPU高出750倍 [5] - 下一代APU展现出巨大的成本优势,与最新的GPU相比,其每百万代币成本最多可降低80倍 [6] - 在1000亿参数LLM模型中,APU每百万代币的成本低至0.5美分,在1T参数模型中每百万代币的成本低至4美分 [6] - APU可以轻松扩展到1T参数模型,且无需像GPU那样通过NVLINK建立高速APU间连接 [5] 市场战略与目标行业 - 公司计划进军四个万亿美元产业:数据中心、汽车、机器人和国防 [5] - 公司的独特战略是成为AI领域每瓦性能的绝对领导者,并实现100%的研发杠杆 [5] - 公司凭借其突破性的节能架构,发明了一种名为Starlight的新型传感设备,该设备功耗低于1瓦,并将图像传感器的性能提升了50倍 [7] - 公司是唯一一家能够将强大而超低功耗的AI引擎集成到传感器中的公司 [7] 融资情况与投资者 - 公司在由DCVC领投的超额认购融资轮中筹集了1.25亿美元 [1] - 投资财团包括NEA、Atreides、Future Ventures、软银韩国(SBVA)、S3 Ventures、Linse Capital等众多机构 [2] - 战略投资者本田汽车和洛克希德·马丁公司也加入了投资行列,这两家公司分别位列各自行业(汽车和国防)的世界前十 [2] - 公司经历了密集的转型期,在新领导层的带领下彻底重建了其架构、路线图、软件和战略 [2] 行业背景与问题阐述 - 预计到本十年末,美国电网十分之一的电力将用于运行由GPU驱动的人工智能工作负载的数据中心 [3] - 传统的冯·诺依曼架构中,内存和计算在物理上分离,导致人工智能领域90%的能源被浪费在数据传输上 [3] - 现有的基于GPU的人工智能加速器试图通过高带宽内存(HBM)来弥补缺陷,但无法阻止当前人工智能系统最终因“能耗墙”而崩溃 [3] 软件生态与开发工具 - 公司的CAMP(内存模拟计算处理)SDK目前已支持在其第一代APU上流畅运行深度神经网络(DNN)应用程序 [8] - SDK原生支持ONNX、PyTorch和TensorFlow,同时还可通过NVIDIA的TensorRT在包括NVIDIA Jetson在内的多个CPU平台上运行 [8] - 一项德国研究报告显示,CAMP在同类内存计算处理器中成熟度最高 [8] - 公司专注于软件开发和SDK成熟度,以有效对抗NVIDIA根深蒂固的CUDA平台 [8] 公司领导与愿景 - 公司由前NVIDIA高管Taner Ozcelik领导,他创立了NVIDIA的汽车业务 [5] - 公司认为能效将决定人工智能计算的未来,其超高能效的APU将成为除GPU之外的首选加速计算机 [5] - 公司的技术路线图实力雄厚,其下一代技术有望使用户无需网络连接即可在口袋里使用ChatGPT3+级别的逻辑层模型,而成本仅为现有解决方案的百分之一左右 [9]
台积电真正的瓶颈显现
半导体行业观察· 2025-12-18 09:02
台积电先进制程产能与策略 - 为满足AI GPU与CSP自研ASIC的庞大需求,台积电正加速进行产能优化与制程重配置,策略包括将台中Fab 15的7纳米旧产能及台南Fab 18的5纳米产线转进3纳米制程 [1] - 2026年多数高阶AI芯片将全面导入3纳米或其强化版本,例如辉达VR系列、AWS Trainium 3、Google TPU等 [1] - 比起先进封装产能,3纳米制程才是2025年真正的产能瓶颈,公司通过优化与转换既有产线来提升资本使用效率,而非单纯依赖新厂扩建 [1] - 台积电预计2纳米制程将于2025年开启,其产能已排至2026年底,为满足需求,公司启动三座新生产线建设,预计总投资达286亿美元 [4] - 台积电计划在2026年底将其2纳米月产量提升至10万片,该技术将成为其成长的主要驱动力 [5] 先进封装技术发展 - 台积电CoWoS仍是AI芯片的主流封装方案,预计至2024年底月产能上看12万片 [1] - 封装需求外溢至专业封测代工厂,不仅可纾解短期产能压力,也有助于降低未来封装技术世代更迭风险 [1] - 随着AI芯片设计复杂化,单位晶圆可切割的有效晶粒数下降,放大了对先进制程晶圆的需求,例如辉达Rubin GPU在8倍光罩尺寸下可切割晶粒只有4颗 [2] - CoPoS(Chip on Polymer Substrate)将是2025年技术发展重点,代工龙头预计在2025年第二季建置CoPoS研发实验线,研发预计2027年底完成、2028年进入量产 [2] - CoPoS技术将处理更大的晶圆,机台面积需放大,且因处理良品裸晶粒导致报废成本高,机台复杂度提升很多 [2] 2纳米制程技术竞争与客户需求 - 台积电2纳米制程采用GAA架构,旨在提升效能与效率,与FinFET相比,能在相同功耗下实现10-15%的效能提升,或在特定效能等级下降低25-30%的功耗 [4] - 苹果A20和A20 Pro等芯片组将成为推动台积电2纳米技术普及的主要动力 [4] - 高通、联发科、苹果、超微等众多客户都是2纳米制程的知名用户,但据传苹果为压制竞争对手,已预定了超过一半的初始产能 [5] - 三星已于2024年稍早开始量产其2纳米GAA制程,但与先前的3纳米GAA制程相比,已公布的性能、效率和面积数据并不十分详尽,可能由于良率尚未达到最佳状态 [6]
MEMS时钟新贵,要革命SiTime
半导体行业观察· 2025-12-18 09:02
新型MEMS时钟技术突破 - 研究人员开发出基于微机电系统(MEMS)的微型时钟,利用硅掺杂技术实现了创纪录的稳定性,运行8小时后偏差仅为102纳秒,接近原子钟标准 [1] - 该时钟在空间和功耗上比原子钟具有显著优势,其体积比方糖表面还小,功耗仅为微型原子钟的十分之一到二十分之一 [1][5] - 该技术由密歇根大学团队研发,并在第71届IEEE国际电子器件年会上展示 [1] 技术原理与核心创新 - 时钟核心为一块覆盖压电薄膜的硅片,以其固有频率振动,电子电路测量振动,微型加热器保持最佳温度,三者紧密集成作为一个协调系统工作 [3] - 关键创新在于对硅材料进行磷掺杂,精确控制其机械性能,使谐振器在-40°C至85°C的温度范围内频率基本保持不变,环境稳定性极高 [3] - 系统集成了自主温度传感和调节功能,谐振器以两种模式运行:主模式用作时间参考,另一种模式作为温度传感器,实现内置自校正 [4] - 掺杂使硅导电,允许电子元件微妙调节机械驱动强度,以主动抵消频率的长期微小漂移,这是与以往MEMS时钟最显著的物理特性差异 [4] 性能指标与比较优势 - 该MEMS时钟连续运行8小时误差为102纳秒,线性放大到一周运行时间,误差仅略多于2微秒 [5] - 其稳定性足以媲美微型原子钟,但体积比芯片级原子钟小10到100倍,功耗低90%至95% [5] - 与石英等传统材料相比,硅基半导体制造受益于尺寸小型化,是下一代时钟的理想选择 [4] 应用前景与行业意义 - 该技术源于DARPA项目,目标是制造能连续运行一周且误差仅为1微秒的时钟,在GPS信号不可用的极端环境(如太空、水下)导航中具有潜力 [6] - 未来在高速数据传输(如手机通信)中,精确计时对数据包传输至关重要,MEMS时钟可作为低功耗、小型化的解决方案 [7] - 研究人员认为几乎所有现代技术都需要同步,该时钟有望填补当前时间同步领域的空白 [6] 竞争环境与研发自信 - 目前已有公司(如SiTime)生产MEMS时钟并集成于苹果和英伟达设备中,市场竞争存在 [7] - 研发团队对其解决方案充满信心,声称其方法完全基于对半导体基础物理的深入研究,旨在使谐振器精度比SiTime的产品高100倍,从而避免对复杂系统的需求 [7]
英伟达最强GPU:B200详解解读
半导体行业观察· 2025-12-18 09:02
英伟达Blackwell B200 GPU架构与性能分析 - 英伟达推出新一代顶级计算GPU Blackwell B200,放弃了传统的单芯片设计,转而采用两个光罩大小的芯片,在软件层面被视为一个独立的GPU,成为公司首款芯片级GPU [1] - 每个B200芯片物理上包含80个流式多处理器(SM),但每个芯片支持74个SM,因此整个GPU共有148个SM,时钟频率与H100的高功率SXM5版本相似 [1] - 与上一代H100 SXM5相比,B200的功耗目标为1000W(H100为700W),采用台积电4NP制程,配备288 GB HBM3E显存,带宽高达8 TB/s [2] 缓存与内存子系统 - B200的L1缓存/共享内存容量与H100相同,为256 KB,开发者可通过CUDA API调整L1缓存与共享内存的分配比例 [4] - B200的L2缓存容量大幅提升至126 MB,而H100为50 MB,A100为40 MB,直接连接到同一L2分区的延迟约为150纳秒 [7] - 从单线程角度看,B200表现类似三级缓存架构,其L2缓存的分区特性很可能对应于其两个芯片,跨芯片延迟增加很小 [8] - 与AMD MI300X相比,英伟达的L1缓存容量更大、速度更快,但AMD的L2缓存延迟更低,且拥有256 MB末级缓存,实现了低延迟和高容量的结合 [9] 内存带宽与延迟表现 - B200的显存带宽为8 TB/s,显著高于H100的3.3 TB/s和AMD MI300X的5.3 TB/s [2][23] - 在L2带宽测试中,B200在本地L2分区内带宽可达21 TB/s,当数据在两个分区间传输时,带宽下降至16.8 TB/s [20] - B200的VRAM延迟似乎高于MI300X以及更早的H100和A100,但延迟回归的程度并不严重,表明其多芯片设计运行良好 [10] - B200在共享内存延迟方面表现出色,访问速度比测试过的任何AMD GPU都要快,包括RDNA系列的高频型号 [12] 计算吞吐量与原子操作 - SM数量的增加使B200在大多数向量运算中拥有比H100更高的计算吞吐量,但FP16运算是个例外,B200不能以FP32两倍的速度执行FP16运算 [30] - AMD的MI300X能进行双倍速率的FP16计算,其强大的运算能力在大多数向量运算方面远超H100和B200 [32] - B200的每个SM每个周期可以执行32次原子加法操作,而AMD CDNA3计算单元每个周期可以执行16次原子加法,这使得B200尽管核心数量较少,却依然能够胜出 [16] - 在全局内存原子操作吞吐量上,B200芯片每个周期可以支持GPU上近512次此类操作,而AMD的MI300A芯片在这项测试中表现不佳 [30] 张量内存与AI优化 - Blackwell引入了张量内存(TMEM),类似于专用于张量核心的寄存器文件,其组织结构为512列 x 128行,每个单元格为32位,每个SM子分区都有一个512列 x 32行的TMEM分区 [34][35] - TMEM容量为64 KB,与AMD CDNA架构上的累加器寄存器文件(Acc VGPR)容量相同,但TMEM的实现更加完善和成熟,采用了动态分配方案 [35] - 引入TMEM有助于降低常规寄存器文件的容量和带宽压力,Blackwell的CTA级矩阵指令每个周期、每个分区可以支持1024次16位MAC操作 [38] - 与AMD CDNA架构相比,TMEM的源矩阵可以来自共享内存或TMEM自身,而CDNA的MFMA指令源矩阵可以来自常规或Acc VGPRs [36] 实际应用基准测试 - 在FluidX3D基准测试中,B200充分发挥了其显存带宽优势,性能超越了MI300X,该测试采用256x256x256单元配置,FP32模式下需要1.5 GB内存,访问模式对缓存不友好 [42] - 当使用IEEE FP16格式进行存储时,AMD的MI300A在FluidX3D测试中略有进步,但仍然远胜于B200 [45] - 在FP64性能方面,B200的基本FP64运算速度为FP32的一半,远超消费级GPU,在自行编写的基准测试中表现优于消费级GPU和H100,但MI300X凭借其庞大体积依然显露优势 [40] 多芯片架构与竞争格局 - 与AMD的MI300X(采用12芯片设计)相比,英伟达的双芯片策略显得较为保守,但软件无需考虑多芯片架构,是H100和A100的直接继任者 [51] - AMD即将推出的MI350X预计将把显存带宽提升至8 TB/s,在B200已经领先的领域迎头赶上 [51] - 英伟达的优势在于其CUDA软件生态系统,GPU计算代码通常首先针对英伟达GPU编写,硬件只需足够优秀以阻止竞争对手填补CUDA的“护城河” [54] - 英伟达保守的硬件策略给AMD留下了机会,像MI300X这样的GPU展现了AMD实现高难度设计目标的能力,其是否能在硬件上挑战英伟达的软件主导地位值得关注 [57] 测试中遇到的问题 - 在数周的测试中,遇到了三次GPU挂起问题,表现为GPU进程卡死,任何尝试使用系统八个GPU中任何一个的进程都会挂起,只有重启系统才能恢复GPU功能 [47] - 内核消息显示,Nvidia统一内存内核模块(nvidia_uvm)在禁用抢占的情况下获取了锁,可能导致软件死锁 [47][48] - `nvidia-smi`提供了重置GPU的选项,但如果GPU正在使用中就无法生效,这违背了提供重置选项的初衷,希望英伟达能提供无需重启系统即可解决问题的方法 [48][49]
德州仪器巨型晶圆厂,官宣投产
半导体行业观察· 2025-12-18 09:02
德州仪器谢尔曼工厂投产 - 德州仪器位于德克萨斯州谢尔曼市的半导体工厂已正式投产,距离破土动工仅三年半时间 [1][4] - 该工厂是先进的300毫米半导体晶圆厂,名为SM1,将根据客户需求逐步提高产能,最终目标为日产数千万颗芯片 [3][4][7] 投资与产能规模 - 谢尔曼工厂项目耗资400亿美元 [1] - 该工厂是德州仪器更广泛投资计划的一部分,该计划将在德州和犹他州的七座半导体制造厂投资超过600亿美元,这将是美国历史上对基础半导体制造的最大一笔投资 [5][7] - 工厂规划建设多达四个相互连接的晶圆厂,将根据市场需求进行建设和设备配备 [5] 产品与应用领域 - 工厂生产的芯片为模拟和嵌入式处理芯片,是几乎所有现代电子设备的基础半导体 [4][5] - 首批投产的产品类别是模拟电源产品,未来几年将能够生产公司全系列产品 [6][8] - 芯片应用领域广泛,包括汽车、智能手机、数据中心、日常电子产品、救生医疗设备、工业机器人、智能家居设备、卫星等 [1][4][7][9][10] 就业与产业影响 - 谢尔曼工厂将直接创造多达3,000个新的就业岗位,并在相关行业带动数千个就业岗位 [1][5] - 许多工作岗位并非都需要大学学位,通过高中或职业培训课程即可获得 [2] - 该工厂有助于德州保持尖端半导体制造中心的地位 [1] 公司战略与优势 - 公司通过拥有并掌控自身的制造运营、工艺技术和封装技术,以更好地控制供应链,确保为客户提供长期可靠的支持 [4][5] - 德州仪器是美国最大的基础半导体制造商,也是最大的模拟和嵌入式处理半导体制造商,拥有近百年的创新传统 [4][5][7] - 公司在全球拥有15个制造基地,依托数十年来久经考验的制造经验 [5] 行业意义与未来展望 - 半导体对于构建定义未来的人工智能基础设施至关重要 [1] - 工厂生产的芯片将推动从汽车到下一代数据中心等各行各业的关键创新,使技术更智能、更高效、更可靠 [7][10] - 公司技术为世界赖以生存的事物提供动力,如果设备有电池、电缆或电源,就很可能包含德州仪器的技术 [11]
日本新贵,要弯道超车台积电
半导体行业观察· 2025-12-17 09:38
文章核心观点 - 日本芯片制造商Rapidus开发出基于大型玻璃基板的中介层技术 旨在降低AI半导体生产成本 挑战台积电的领先地位 并推动日本建立从尖端芯片制造到AI半导体组装的完整国内供应链 [1][2] 技术突破与优势 - Rapidus打造了全球首个由大型玻璃基板切割而成的中介层原型 基板为边长600毫米的正方形玻璃 [1] - 与传统从300毫米圆形硅片切割方形中介层的方法相比 新方法因尺寸更大、废料更少 使单块基板可生产的中介层数量增加10倍 [1] - 该原型中介层的表面积比其他中介层大30%到100% 可容纳更大的芯片 [1] - 玻璃材料相比硅具有更优异的电性能 为技术带来额外优势 [1] - 作为行业后来者 Rapidus不受现有做法束缚 可直接采用最适合AI半导体的最新材料(如玻璃)[2] 生产计划与目标 - Rapidus的目标是在2028年开始量产该玻璃基板中介层 [1] - 公司计划大规模生产2纳米芯片 并计划在2027财年开始晶圆前端工艺(形成电路)[2] - 公司已在2024年7月生产出第一个2纳米晶体管 [2] - 包含芯片连接与封装的后端工艺大规模生产预计于2028年开始 [2] - 公司将在2025年于东京开幕的日本半导体展上展示其原型玻璃基板 [3] 竞争格局与产业背景 - Rapidus的直接竞争对手台积电在其封装技术中使用硅中介层 并为英伟达生产AI半导体 [2] - 英特尔也一直在努力采用玻璃基板技术 [2] - 目前全球后端(封装等)生产主要集中在中国大陆(占30%)和台湾地区(占28%) 日本仅占6% [3] - AI芯片的组装更为复杂 不再仅依赖低廉劳动力 Rapidus正与其他日本公司合作尝试实现后端生产自动化 [3] 公司支持与战略意义 - 日本经济产业省承诺向Rapidus提供1.72万亿日元(约111亿美元)的援助 其中1805亿日元将专门用于后端流程 [2] - 此项技术的发展旨在使日本拥有从尖端芯片生产到AI半导体组装的完全国内供应链 [2] - 为应对玻璃材质脆弱、易破损和易变形等挑战 Rapidus聘请了曾在夏普等日本显示器制造商工作过的工程师 将LCD玻璃加工技术应用于半导体领域 [1][2]
万字拆解371页HBM路线图
半导体行业观察· 2025-12-17 09:38
文章核心观点 - 高带宽内存是AI算力发展的关键基础设施,其性能直接决定了AI模型训练和推理的速度与效率 [1] - 韩国KAIST大学发布的HBM技术路线图详细规划了从HBM4到HBM8的未来发展蓝图,揭示了HBM技术将持续突破带宽、容量和能效极限,以支撑未来AGI等高级AI应用的需求 [1][15] - HBM通过3D堆叠等核心技术解决了传统内存的带宽瓶颈、高延迟和高功耗问题,已成为AI服务器不可或缺的组件 [4][7][14] HBM技术定义与核心优势 - **技术定义**:HBM是一种采用“三明治式”3D堆叠技术的“超级内存”,通过硅通孔实现数据在堆叠芯片层间的垂直高速传输,解决了传统平面内存的带宽和延迟瓶颈 [7][8][59] - **带宽碾压**:HBM带宽远超传统内存,HBM3带宽为819GB/s,HBM4将达2TB/s,HBM8更将飙升至64TB/s,相当于每秒传输16万部高清电影,这是AI训练速度的关键 [12] - **功耗减半**:HBM的垂直传输设计更省电,传输1TB数据,HBM3功耗是DDR5的60%,HBM4将进一步降至50%,有助于数据中心大幅降低电费 [13] - **体积迷你**:HBM模块体积小,可直接集成在GPU封装旁,使AI服务器能容纳更多GPU,算力密度提升3倍,是高密度AI服务器的必然选择 [10][14] HBM技术发展路线图(2026-2038) - **HBM4**:预计2026年推出,核心创新在于定制化Base Die,可直连低成本LPDDR内存以扩展容量,带宽提升至2TB/s,单模块容量达36-48GB,采用直触液冷散热应对75W功耗 [17][18][22][24] - **HBM5**:预计2029年推出,引入近内存计算技术,在内存堆叠中集成计算单元,可减少GPU 40%的工作量,带宽达4TB/s,容量80GB,采用浸没式冷却应对100W功耗 [27][28][29] - **HBM6**:预计2032年推出,采用“多塔架构”提升吞吐量,使LLM推理吞吐量较HBM5提升126%,带宽达8TB/s,容量96-120GB,并集成L3缓存专门存储KV缓存以降低延迟 [32][35][36][38][40] - **HBM7**:预计2035年推出,实现内存与高带宽闪存的融合,集成容量达2TB的HBF作为低成本大容量存储,系统总内存容量可达17.6TB,带宽24TB/s,采用嵌入式冷却 [41][42][44][46][47] - **HBM8**:预计2038年推出,采用全3D集成技术,将GPU裸片垂直堆叠在HBM之上,实现“算力无瓶颈、数据零等待”,带宽达64TB/s,容量200-240GB,采用双面嵌入式冷却 [49][52][54][56][57] 支撑HBM性能的关键技术 - **硅通孔**:在芯片上制造微米级垂直孔道,使数据能在堆叠芯片层间直接传输,路径缩短90%以上,是3D堆叠的基础,其布局从对称演进到同轴以降低干扰 [59][63][66][67] - **混合键合**:采用铜-铜直接键合工艺连接芯片,相比早期的微凸点技术,电阻降至1/10,连接更牢固密集,使堆叠层数增至24层、I/O数量达16384个成为可能 [68][70][71] - **AI辅助设计**:利用AI模型大幅缩短HBM复杂结构的设计周期,如PDNFormer模型可在1毫秒内完成电源阻抗分析,将设计周期从数月缩短至数周 [72][74][76][77][79] HBM产业格局与挑战 - **市场格局**:2025年全球HBM市场规模达300亿美元,2030年预计突破980亿美元,SK海力士、三星、美光三巨头垄断90%以上产能,订单已排至2026年 [80][81] - SK海力士为行业龙头,占全球HBM3E出货量的55%,其M15X新工厂投产后月产能将提升至17.8万片 [81] -三星的HBM3E产能已被谷歌、博通等头部客户包圆,并与OpenAI签署了713亿美元的四年供应大单 [84] -美光增速快,其HBM3E已通过英伟达认证,目标是在2026年将市场份额从7%提升至24% [85] - **主要挑战**: - **成本**:HBM3每GB成本约为DDR5的5倍,HBM4因工艺复杂成本预计再增30%,需通过提升良率、扩大产能和技术创新来降本 [87] - **散热**:未来HBM8功率可能突破200W,需研发新型散热材料、芯片级冷却方案和智能温控系统来应对 [88] - **生态协同**:需要GPU/CPU硬件接口、AI软件框架及行业标准进行深度适配与优化,以充分发挥HBM性能并降低应用门槛 [88][89]
全球芯片设备销售,破纪录!
半导体行业观察· 2025-12-17 09:38
全球半导体设备市场展望 - 2025年全球半导体制造设备销售额预计年增13.7%至1,330亿美元,创历史新高[1] - 预计2026年销售额将增长至1,450亿美元,2027年进一步增长至1,560亿美元,持续改写历史纪录[1] - 市场增长的主要驱动力来自AI相关投资,包括先进逻辑、记忆体及先进封装技术[1] - 全球芯片设备销售稳健,前段与后段制程领域将连续3年成长,2027年将史上首度突破1,500亿美元大关[1] - 因AI需求投资较预期更活络,SEMI在2025年7月后上修了芯片设备销售预估[1] 前段制程设备市场分析 - 2025年全球前段制程制造设备销售额预计年增11.0%至1,157亿美元,高于年中预估的1,108亿美元,续创历史新高[2] - 上修预估主要反映AI运算推动DRAM及HBM投资超预期,以及中国持续扩大产能带来的重大贡献[2] - 因先进逻辑及记忆体需求增加,预计2026年全球WFE销售额年增9.0%,2027年进一步年增7.3%至1,352亿美元[2] - 截至2027年,中国、台湾、南韩预计为芯片设备采购额前三大区域[2] - 预测期间内,中国因持续投资成熟制程与特定先进节点,将维持龙头位置,但2026年后成长将放缓、销售额预估逐步下滑[2] - 台湾藉由大规模扩增最先进产能,2025年设备投资预估将持续稳健[2] - 南韩因对包含HBM在内的先进记忆体技术进行巨额投资,将支撑设备销售[2] 其他区域与半导体销售预测 - 藉由政府奖励、在地化布局及扩大特殊用途产品产能,预估其他区域2026年和2027年的投资将会增加[3] - 根据WSTS预测,因AI数据中心投资成为主要推动力,带动记忆体、GPU等逻辑芯片需求维持高成长,预估2026年全球半导体销售额将年增26.3%至9,754.60亿美元,逼近1兆美元大关,连续第3年创历史新高[3] 日本半导体设备市场表现 - 2025年10月日本制芯片设备销售额为4,138.76亿日圆,较去年同期增加7.3%,连续第22个月增长,创下历年同月历史新高[5] - 月销售额连续第24个月突破3,000亿日圆,且连续第12个月高于4,000亿日圆[5] - 累计2025年1-10月,日本芯片设备销售额达4兆2,143.51亿日圆,较去年同期大增17.5%,创历史同期新高[6] - 日本芯片设备全球市占率(以销售额换算)达3成,仅次于美国位居全球第2大[6] - 东京威力科创因业绩优于预期,将2025财年合并营收目标自2.35兆日圆上修至2.38兆日圆,合并营益目标自5,700亿日圆上修至5,860亿日圆,合并纯益目标自4,440亿日圆上修至4,880亿日圆[6] - SEAJ预估2025财年日本制芯片设备销售额自4兆6,590亿日圆上修至4兆8,634亿日圆,将较2024年度增加2.0%,年销售额将连续第2年创历史新高[7] - 上修预估因AI伺服器用GPU、HBM需求旺盛,台积电开始量产2纳米带动投资增加,以及南韩对DRAM/HBM的投资增加[7]
三星否认停产SSD
半导体行业观察· 2025-12-17 09:38
文章核心观点 - 三星公司否认了其计划逐步停止生产消费级SATA固态硬盘的传闻,但人工智能基础设施的扩张正导致NAND闪存供应紧张、价格飙升,并深刻重塑存储行业的供应链与生产优先级[1][2][3] 市场传闻与公司回应 - YouTube频道“摩尔定律已死”报道称,由于NAND闪存供应趋紧,三星计划永久停止SATA III固态硬盘的生产,并将其部分NAND工厂改造为生产DRAM[1] - 三星公司明确否认了上述关于其计划逐步停止生产消费级SATA固态硬盘的报道[1] - 尽管三星否认,但存储市场面临的整体供应压力依然十分严峻[2] NAND闪存市场供需与价格动态 - NAND闪存持续短缺导致价格大幅上涨,例如1Tb TLC NAND芯片价格从2025年7月的4.80美元飙升至11月的10.70美元,在不到六个月的时间里翻了一番还多[2] - MLC和QLC NAND的价格也呈现类似的上涨趋势[2] - 短缺已扰乱多个品牌的供应链,例如创见自去年10月以来就未收到任何NAND闪存供货,预计供应紧张局面可能还需三到五个月才能缓解[2] - 人工智能应用的需求巨大,正从个人电脑存储和通用DRAM等消费领域抽取资源,导致全球库存持续减少[2] 行业结构性转变与未来展望 - 人工智能基础设施发展推动半导体存储器需求激增,大量原本用于消费级硬件的NAND闪存正被重新分配给超大规模数据中心和人工智能实验室[1] - 这种转变造成了近年来存储资源最为紧张的局面,主要组件供应商不得不重新分配生产和库存[1] - 行业分析师预测,这种供需不平衡局面可能会持续数年,超大规模数据中心将继续吸收大部分NAND和DRAM产量[3] - 一些预测表明,生产要到下一个硬件周期(可能在2027年左右)才会完全重新平衡以适应消费者需求,届时本地AI工作负载和新一代游戏主机将重新激发对高速闪存存储的需求[3] SATA固态硬盘市场现状与影响 - 尽管发烧友兴趣下降,SATA接口在主流市场仍占据固态硬盘销售的相当大份额,数据显示亚马逊畅销固态硬盘中约有五分之一仍为SATA接口型号[2] - 如果SATA固态硬盘停止供应,可能会推高整个SSD市场的价格,包括依赖相同NAND组件的NVMe产品[2] - 三星目前仍是消费级固态硬盘市场的基石,其否认态度暂时安抚了系统组装商和PC升级用户[3] - 即便SATA硬盘继续生产,人工智能驱动的组件需求压力也仍在不断重塑全球最大内存供应商的优先事项[3]
刚刚,沐曦上市,开盘暴涨超500%
半导体行业观察· 2025-12-17 09:38
公司上市与市场表现 - 沐曦股份于A股科创板上市,开盘股价大涨超500%,公司市值直逼3000亿元 [1] - 公司发行价格为104.66元/股,对应市值约418.74亿元,市销率为56.35倍 [13] - 本次发行共产生19331个中签号码,网上发行最终中签率仅为0.03348913% [13] 公司概况与核心技术 - 沐曦集成电路(上海)股份有限公司于2020年9月在上海成立,并在多地设有全资子公司暨研发中心 [3] - 公司核心团队平均拥有近20年高性能GPU产品端到端研发经验,曾主导过十多款世界主流高性能GPU产品研发及量产 [3] - 公司致力于为异构计算提供全栈GPU芯片及解决方案,产品采用完全自主研发的核心GPU IP、指令集和架构,并配有兼容主流生态的软件栈 [4] 产品线与发展战略 - 公司打造全栈GPU芯片产品,包括用于智算推理的曦思N系列、用于通用计算的曦云C系列以及用于图形渲染的曦彩G系列 [4] - 公司坚持“1+6+X”发展战略,与智算中心、服务器整机厂、操作系统厂商、大模型厂商、AI应用方等建立了合作生态 [5] - 截至报告期末,公司GPU产品累计销量超过25,000颗,应用部署于10余个智算集群,算力网络覆盖国家人工智能公共算力平台、运营商智算平台和商业化智算中心 [5] 财务业绩与增长 - 报告期各期,公司营业收入分别为42.64万元、5,302.12万元、74,307.16万元和32,041.53万元,2022-2024年三年复合增长率为4,074.52% [5] - 公司预计2025年全年实现营业收入15.0亿元至19.8亿元,相较2024年增幅为101.86%至166.46% [7] - 2025年1-9月,公司实现利润总额-3.41亿元、净利润-3.46亿元,较上年同期分别减亏56.31%和55.79% [8] - 2025年4-6月,公司营业收入5.95亿元,同比增长237.87%,归母净利润4661.89万元,实现单季度盈利;2025年7-9月,公司营业收入3.21亿元,同比增长665.32%,归母净利润-1.60亿元,同比减亏40.64% [8] 募投项目与产品规划 - 公司拟将募集资金用于新型高性能通用GPU研发及产业化项目、新一代人工智能推理GPU研发及产业化项目、面向前沿领域及新兴应用场景的高性能GPU技术研发项目 [10] - 新型高性能通用GPU研发及产业化项目投资总额为340,992.38万元,拟使用募集资金245,919.76万元,包括第二代(C600)和第三代(C700)高性能通用GPU研发子项目 [11] - 主力产品曦云C500系列预计未来1-2年内仍是重要收入来源;基于国产供应链的曦云C600系列已回片,预计2025年底进行风险量产;曦云C700研发项目已于2025年4月立项 [11][12] 行业挑战与竞争格局 - 国产GPU面临国际巨头(如英伟达)的竞争压力,在技术积累、人才、规模及资金实力上存在差距,产品性价比短期内难以突破 [15] - 商业客户(如互联网企业)对GPU产品性能及稳定性要求极高,采购决策周期长,国产GPU目前占比较低且多集中于推理场景 [16] - 国产GPU软件生态相对薄弱,虽然具备兼容CUDA的理论基础,但生态适配、迭代和培育是一项长期工程 [17] - 全球半导体产业链受到地缘政治影响,部分客户对国产GPU的供应链稳定性存在担忧 [18] 公司竞争优势 - 公司完全自主掌握GPU IP、指令集和架构等底层核心技术,能够根据客户需求快速迭代、优化产品软硬件技术组合方案 [19] - 公司可提供高性价比、多形态(PCIe板卡、OAM模组)的产品选择,帮助商业化智算中心实现更优的PUE运营水平 [19] - 公司较早启动了国产供应链布局,首款国产供应链产品曦云C600已完成回片点亮,性能测试结果及市场反响良好 [19] - 公司产品在通用性、单卡性能、集群性能和CUDA兼容等方面均具有国内领先优势 [18]