Workflow
半导体行业观察
icon
搜索文档
芯片的十字路口
半导体行业观察· 2025-12-27 09:33
行业整体表现与核心矛盾 - 2025年第三季度全球半导体营收达到2163亿美元,为历史上首次单季突破2000亿美元大关 [1] - 2025年全年半导体收入预计将超过8000亿美元,比2024年增长近20% [1] - 行业呈现“K型复苏”,核心矛盾是需求重心从“消费电子驱动的量增”转向“数据中心驱动的价升” [4] - 行业增长由“算力堆叠 + HBM溢价”共同驱动,AI训练/推理拉动高端GPU/加速器需求,同时推高DRAM尤其是HBM的利润 [4] AI与存储成为核心引擎 - AI与存储是行业增长的主要引擎,共同决定了行业增长的斜率 [7] - 第三季度营收排名前四的公司为英伟达、三星、SK海力士和美光,合计占半导体总收入的40%以上 [7] - 行业进入“利润黑洞”阶段,极少数公司攫取绝大部分利润 [7] - 存储芯片供需紧张,Counterpoint预计先进与传统内存价格在4Q25可能上涨约30%,并可能在2026年初再涨约20% [4] - 受内存价格上行推动,三星存储与SK hynix的毛利率在4Q25可能达到约63%–67% [5] 资本开支与设备投资 - 全球半导体设备销售额预计2025年约1330亿美元,并预计2026年1450亿、2027年1560亿美元 [5] - 后道设备(测试、封装装配)被明确点名为增长动力 [5] - 连续多年的资本开支增长曲线,意味着行业相信AI需求是多年期的基础设施建设,但也意味着供给扩张在路上 [5] 成熟制程与细分市场的结构性困境 - 成熟工艺需求疲软,面临议价危机,传统应用(如部分消费电子、工业末梢、低端车规MCU/PMIC)补库动力匮乏 [10] - 成熟产能持续开出,需求修复速度赶不上供给侧扩张,导致订单可见度低迷,价格战成为常态 [10] - 模拟芯片巨头TI于第三季度调涨部分产品价格(涨幅达10%-30%),ADI也宣布自2026年2月起全线提价约15%,被视为毛利触底后的主动防御 [10] - 智能手机市场温和复苏,2025年第三季度全球智能手机出货同比增长2.6%,逻辑更接近“销量回归 + 结构升级” [11] 汽车与工业市场的结构性分化 - S&P Global Mobility对2025–2026年车用半导体给出同比约16.5%的增长预期 [11] - 受智驾技术迭代驱动,单台AI服务器或智能座舱对Power IC的需求激增,单柜价值量已达1.2万至1.5万美元 [11] - 与智驾、功率半导体(SiC/IGBT)的火热相比,传统车身控制等通用器件仍处于价格拉锯战中,行业呈现“增收不增利”的结构性矛盾 [11] AI泡沫的三层讨论 - **第一层需求泡沫**:核心指标是GPU/HBM的交付周期是否突然缩短、订单取消是否增多、云厂商是否延后数据中心上线,与宏观衰退及AI应用变现不及预期相关 [13] - **第二层资本开支泡沫**:Alphabet、Amazon、Meta、Microsoft这“四巨头”在2025年的资本开支轨迹可能接近3200亿美元量级,关键不是“花不花钱”,而是“花的钱能否在合理期限内转化为可持续现金流” [14][15] - **第三层财务呈现泡沫**:围绕折旧年限等会计处理的讨论正在升温,可能影响投资者对盈利质量的判断,AI竞赛推高资本开支后,盈利质量与回报率成为新的争夺点 [16] - AI泡沫争论中容易被忽略的变量是“电”,算力扩张开始受制于供电、土地、并网审批与建设周期,可能影响需求曲线 [14] 行业未来展望 - 行业已进入更高的名义规模区间,但这是一个被AI重塑的利润结构,AI成为最大增长引擎的同时也成为最大的波动源 [18] - 中期景气的关键变量将从“供给能否扩张”转向“回报能否兑现”,数据中心利用率、推理成本下降速度、企业与云厂商的AI变现能力将决定投入是否形成可持续的自由现金流 [18]
对话原诚寅:从“缺芯”到“体系战”,中国汽车芯片正在换一种打法
半导体行业观察· 2025-12-27 09:33
文章核心观点 中国汽车芯片产业正经历从“规模竞争”到“体系竞争”的转变,产业发展阶段已从解决“有无”问题跨越至追求“好用”和规模化上车,并围绕技术突围、生态构建、市场演进等方面进行系统性创新,联盟的角色也从应急协调平台演进为产业生态构建者[1][3][17][18] 产业发展阶段:从“能用”到“好用” - 国产汽车芯片已基本解决“有无”问题,90%的紧缺芯片产品已有对应产品并进入验证过程,部分车型上国产芯片搭载率已超过20%[3] - 产业发展已从“能用”阶段进入“好用”和规模化上车的起步阶段,但仍有10%的核心难题需要攻克[3] - 并非所有芯片都适合自主研发,应把握好全自主化的节奏,关键在于具备自主研发能力证明不会被“卡脖子”[3][14] 技术突围:聚焦关键变量 - **开源架构**:将RISC-V视为摆脱对ARM、X86依赖、解决技术来源问题的重要战略选择,联盟已联合整车及芯片企业成立工作组,旨在打造有中国特色的协同创新生态[5] - **功率半导体**:是国产化率进展最好的领域,碳化硅已进入规模应用,氮化镓正从消费级向车规级转化,联盟通过“以用促研”模式联合车企攻关可靠性与工艺问题[5] - **芯软融合**:推动中国自主的硬件芯片、软件操作系统及中间件深度协同,打造拥有自主知识产权的整体解决方案,实现从器件供应到系统方案的产业思维升级[5][6] 生态构建:从单兵作战到协同作战 - **供需对接**:联盟发布的2025版汽车芯片供给手册收录了100多家芯片企业的500款产品,其线上平台4.0版本旨在成为整车企业选型的关键平台和行业认可的共性服务工具[8] - **标准建设**:针对海外Tier1内部标准不开放、AEC-Q标准仅为基础等痛点,参与制定《国家汽车芯片标准体系建设指南》,旨在构建涵盖国标、行标、团标及企业标准的完整体系[8] - **测试认证**:筹建测试认证专委会,旨在建立可用、可信的测试认证流程,解决主机厂对芯片产品能否放心使用的核心顾虑,打通从实验室到量产应用的“最后一公里”[9] 市场演进:结构性分化与供应链趋势 - **市场特征**:预计2026年汽车芯片市场将呈波动型供给,并非所有芯片都会缺货,但涉及AI的存储、先进计算类芯片可能因AI需求量大而存在短缺风险[11] - **技术需求变化**:AI与汽车结合推动芯片需求变革,传感器需具备AI处理能力,通讯协议需向高速以太、SerDes等升级,处理芯片需更强算力、更大存储和实时通讯能力,融合性芯片将增多[11] - **供应链布局**:地缘政治因素加剧企业对供应链安全的担忧,促使供应链布局区域化以及车企建立AB点供应链体系,这为国产芯片扩大市场份额提供了战略窗口期[12] 发展理念:理性务实与长期主义 - **理性突围**:产业不盲目追求全自主,对于在技术、成本或性价比上短期内难以超越国外的产品,可通过市场化手段获取,同时欢迎合作的海外供应商加入中国供应链体系[14][15] - **联盟定位演进**:联盟已从应对“缺芯”的应急平台,发展为覆盖技术、标准、测试、资本支持的综合性产业组织,其核心定位是帮助产业形成更好的创新生态,助力自主可控产品上车[17] - **未来规划**:2026年规划包括完善芯片技术路线图3.0、建设RISC-V标准体系、推动中央计算平台用“大芯片”联合定义、成立四个专委会,并探索芯片在机器人、低空经济等新场景的应用[17]
日本组团搞存储,旨在干掉HBM
半导体行业观察· 2025-12-26 09:57
项目概述与目标 - 富士通加入由软银集团牵头的公私合作项目,共同开发用于人工智能和超级计算机的下一代存储器[1] - 项目旨在重振日本曾经的存储器生产技术,使其公司成为世界顶级存储器生产商之一[1] - 软银新成立的Saimemory公司将作为项目的指挥中心,与富士通及其他合作伙伴协调[1] - 项目致力于开发高性能存储器,以替代目前通过堆叠DRAM芯片实现的高带宽存储器[1] 项目规划与投资 - 项目计划在2027财年前投资80亿日元(约合5120万美元)完成原型机的研发,并力争在2029财年前建立量产体系[1] - 软银将在2027财年之前向Saimemory公司注资30亿日元[1] - 富士通和日本理研国家科学研究所将共同出资约10亿日元[1] - 预计日本政府也将通过支持下一代半导体研发的项目补贴部分费用[1] 技术目标与合作方 - Saimemory的目标是量产存储容量是HBM两到三倍、功耗仅为HBM一半的内存,价格与HBM持平甚至更低[2] - 公司将采用英特尔和东京大学联合开发的半导体技术[2] - 将与新光电气工业株式会社和台湾力芯半导体制造股份有限公司合作进行生产和原型制作[2] - 英特尔将提供在美国国防高级研究计划局支持下开发的底层堆叠技术,其关键特性在于芯片采用垂直堆叠,从而增加单个设备上可容纳的内存芯片数量,同时缩短数据传输距离[2] - 项目还将采用东京大学等机构开发的有助于散热和流畅数据传输的技术[2] - Saimemory将专注于知识产权管理和芯片设计,并将生产外包给外部公司[2] 行业背景与动机 - 随着生成式人工智能的普及,预计到2030年,日本所需的计算能力将比2020年增长300多倍[2] - 日本半导体元件的自给率较低,导致供应不稳定和价格上涨等风险[2] - 韩国企业占据了全球HBM市场约90%的份额,高性能内存市场已被少数国家和企业所主导[2] - 2000年前后,日本企业相继退出存储器制造领域,富士通在1999年后由于存储器商品化和激烈价格竞争,在重组过程中逐渐停止了内部生产[3] - 人工智能的出现或许正在改变行业格局[3] 参与方背景与战略 - 富士通曾是日本一度世界领先的半导体产业的关键参与者,尽管已退出存储器生产领域,但在大规模生产和质量控制方面拥有丰富的专业知识[1] - 富士通持续研发节能型中央处理器,并与客户保持着紧密的合作关系,日本顶级超级计算机“富岳”采用了富士通的产品[1] - 软银正着手建设自己的大型数据中心[3] - 富士通在研发用于数据中心和通信基础设施的CPU,目标是在2027年实现实际应用[3]
场效应管:100周年
半导体行业观察· 2025-12-26 09:57
场效应晶体管(FET)的百年发展历程 - 文章核心观点:场效应晶体管(FET)的概念于1925年由尤利乌斯·埃德加·利连菲尔德发明,但其从原理提出到最终实现并走向实用化,经历了长达约35年的曲折历程,期间半导体物理、材料纯度和关键结构(如PN结、肖特基结)的发现与技术进步起到了决定性作用 [1][4][11][32] FET的早期概念与发明 - 1925年,德国物理学家尤利乌斯·埃德加·利连菲尔德发明了金属半导体场效应晶体管(MES FET),其结构以铝箔为栅极,硫化铜(Cu₂S)为源极、漏极和沟道 [5][7] - 1928年,利连菲尔德进一步发明了金属氧化物半导体场效应晶体管(MOS FET),使用氧化铝薄膜(Al₂O₃)作为栅极绝缘膜 [8] 实现FET面临的核心挑战 - 早期半导体材料纯度极低,缺陷和杂质多,导致无法精确测量和控制材料特性 [11] - 半导体内部存在大量电荷,难以像真空管那样通过栅极电压有效控制电流,需要在半导体内部创建类似“真空”的极低电荷区域 [11] - 半导体表面存在的表面态电荷会屏蔽栅极电场,阻碍其对半导体内部电荷的控制,这一问题在1946年被约翰·巴丁指出 [22] 关键技术与结构的突破 - 1939/1940年,贝尔电话实验室的罗素·舒梅克·奥尔发现了PN结,其交界处形成的“耗尽层”是一个无电荷区域,为控制电流提供了关键结构 [18] - 1938年,德国西门子公司的沃尔特·肖特基提出了肖特基结理论,解释了金属-半导体接触面的整流原理,其接触面半导体侧也会形成极薄的无电荷区域(耗尽层) [19][20] - 1958年,贝尔电话实验室的马丁·阿塔拉开发了硅表面热氧化生成二氧化硅(SiO₂)薄膜的技术,该薄膜可作为MOS FET的栅极绝缘层,稳定硅表面 [27] 从双极晶体管到实用FET的演进 - 1947年12月,贝尔电话实验室的约翰·巴丁和沃尔特·H·布拉顿制造出世界上第一个实用的“点接触型”晶体管(结型晶体管) [13] - 1948年1月,威廉·肖克利提出了双极结型晶体管(BJT) [15] - 20世纪50年代,硅单晶生长、杂质掺杂、光刻等双极晶体管技术的发展,为后续MOS FET的实现奠定了基础 [21] - 1953年,威廉·肖克利与沃尔特·L·布朗制造出结型场效应晶体管(JFET)原型 [24] - 1959年,贝尔电话实验室的Dawon Kahng和Martin Atala发明了MOS场效应晶体管,并于1960年在学术会议上展示 [29][30] 发展阶段的划分 - 岩井博教授将FET的百年(1925-2025)划分为两个时期:前45年(1925-1970)为“循序渐进的时期”,是在未知道路上的探索;后55年(1970-2025)为“成功故事的时期”,以“规模定律”和“摩尔定律”为标志 [4]
三星将自研GPU
半导体行业观察· 2025-12-26 09:57
文章核心观点 - 三星电子计划于2027年发布搭载自研GPU的应用处理器Exynos 2800,此举旨在通过掌握GPU架构核心技术,减少对外部供应商的依赖,并提升其在AI时代移动设备及新兴AI平台(如智能眼镜、自动驾驶汽车、人形机器人)的竞争力,标志着其系统LSI事业部向全球无晶圆厂公司迈进 [1][2][3][5] 三星GPU自研战略与产品规划 - 公司计划将基于自主“基础蓝图”(架构)制造的GPU应用于预计2027年左右发布的下一代应用处理器(AP),暂定名Exynos 2800 [1] - 为Galaxy S26手机搭载的Exynos 2600处理器(预计明年发布)将采用基于美国AMD架构设计的GPU,而Exynos 2800将转向自研GPU [1] - 自主研发GPU旨在确保能及时供应针对Galaxy手机等设备优化的“定制GPU”,以提升IT设备领域的竞争力 [2] - 公司计划未来将集成其专有GPU的Exynos应用处理器应用于智能眼镜、自动驾驶汽车软件和人形机器人 [2][5] GPU的重要性与市场格局 - GPU负责图形处理和人工智能(AI)计算,是决定AI手机等设备性能的关键半导体元件 [1] - GPU利用“并行计算”能力,能同时处理多个任务,如视频播放和图像生成 [2] - GPU市场大致分为服务器产品(英伟达主导,市场份额约为90%)和移动产品(高通、AMD和苹果主导) [1][3] - 三星此次开发的架构属于移动GPU [1] 自研GPU的驱动因素 - 在AI时代,GPU从辅助角色跃升为实现生成式AI的“明星”,重要性日益增长 [2][3] - 公司认为通用GPU无法充分发挥其IT产品(如Galaxy系列)的AI功能,因其需跨品牌运行,难以针对三星软件优化,且功耗过高、计算能力会下降 [3] - 自主研发GPU可以解决功耗和优化问题,这与谷歌、亚马逊和Meta等公司在服务器端自研AI加速器的逻辑类似 [4] - 移动GPU需具备低功耗特性,并要将图像处理、游戏运行和AI计算等多种功能集成到一块米粒大小(10-30微米)的芯片中 [4] 技术积累与人才投入 - 公司已掌握GPU的架构技术,即GPU的基本蓝图 [2] - 过去两三年,三星电子美国半导体部门投入最多精力招募GPU专家,其年薪通常在3亿至4亿韩元之间,高级职位年薪高达5亿至10亿韩元 [2] - 近期,曾任AMD副总裁的GPU专家约翰·雷菲尔德(John Rayfield)加入了三星 [2] - 公司最初研发用于中大型设备(如游戏主机和台式机)的GPU,随后通过实现低功耗和软件优化,加快了GPU内部化进程 [4] 应用场景与业务展望 - 移动GPU可应用于所有无需网络连接即可自主运行的AI设备,例如自动驾驶汽车必须以高达每秒100帧(fps)的速度处理来自五到六个摄像头和十到二十个传感器的实时信息,这项任务由GPU完成 [4] - 人形机器人中,GPU负责将摄像头信息转换为图像的“认知功能” [5] - 公司计划从AI手机开始,向其AI生态系统中的关键平台提供搭载自研GPU芯片的应用处理器,在积累业绩后,还将积极进军根据客户订单生产“定制芯片”的专用集成电路(ASIC)业务 [5] - 三星电子系统LSI事业部有望成为“下一个博通”或“下一个Marvell” [5] 三星半导体的整体进展 - 继在存储器和晶圆代工领域取得成功后,三星半导体在相对薄弱的芯片设计领域也开始崭露头角 [1][5] - 三星晶圆代工(Samsung Foundry)7月获得特斯拉价值22万亿韩元的AI芯片供应合同,10月又与苹果签署合同为其提供最新的图像传感器 [5] - 在存储器领域,公司近期开始向英伟达供应第五代高带宽内存(HBM3E),其下一代产品HBM4也已准备量产,目前正在接受英伟达的“质量验证” [5] - 业内人士预测,继三星晶圆代工之后,无晶圆厂公司也在加速推进其系统半导体业务的正常化,自主研发GPU的成功标志着其系统LSI部门正式跻身全球无晶圆厂公司之列 [5]
摩尔线程:五年“长考”,筑起全功能算力的硬核长城
半导体行业观察· 2025-12-26 09:57
文章核心观点 - 国产GPU厂商摩尔线程正通过构建软硬深度融合的统一架构MUSA和繁荣的开发者生态,以突破长期由英伟达CUDA主导的行业壁垒,其战略核心是打造“全功能GPU”作为通用算力底座,并已取得显著的技术与生态进展 [1][3][12] MUSA统一系统架构 - MUSA是摩尔线程自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架的全栈技术体系,而不仅仅是一个软件包 [4][5][6] - MUSA定义了从芯片设计到软件生态的统一技术标准,是类似于Android或Windows的平台,所有公司软硬件产品均基于此架构 [8] - MUSA 5.0软件栈全面升级,实现了对全功能GPU四大引擎的深度适配,为AI训练、3D图形渲染到科学计算等全场景应用提供统一技术底座 [35][36][37] - MUSA 5.0的核心竞争力在于“无边界”适配能力,完美兼容国际主流与国产CPU操作系统及开发环境,计划于明年上半年规模化落地 [37] 全功能GPU战略 - 公司坚持“全功能GPU”路线,旨在打造一个能同时实现图形图像处理、AI张量计算、物理仿真和超高清视频编解码等多种任务协同处理的“万能算力底座” [9][12] - 全功能GPU的优势在于“图算结合”,能够跨域支持多模态未来对AI计算、图形渲染和视频传输的多样化需求,无论计算范式如何变迁都能保持灵活性 [14][15] - 全功能GPU不仅面向AI模型训练和智算中心,也能支撑游戏图形、视频渲染等大众级应用场景,具备高度通用性与生态承载力 [12] 芯片架构与产品进展 - 公司自2022年起保持每年发布一代新架构的节奏,五年推出五代架构,最新一代为“花港”架构 [16][17] - “花港”架构基于新一代指令集,算力密度提升50%,计算能效实现10倍提升,新增MTFP6/MTFP4及混合低精度端到端加速技术 [19] - “花港”架构提供新一代异步编程模型加速技术,并集成自研高速互联MTLink技术,可支持十万卡以上规模智算集群 [19] - 基于“花港”架构,公司正在研发两款GPU芯片:“华山”和“庐山” [23] - “华山”是AI训推一体芯片,对标国外顶尖产品,集成新一代Tensor Core、专为LLM定制的加速引擎及ACE2.0异步通信引擎,支持超十万卡级别的“AI工厂”技术 [24][25][27] - “庐山”是高性能图形渲染芯片,与S80相比,3A游戏性能提升15倍,AI计算性能提升64倍,几何处理性能提升16倍,并内置AI生成式渲染功能 [28][30] 大规模集群与AI工厂 - 公司推出超十万卡级AI工厂技术,突破了传统GPU集群瓶颈,支持Scale-up系统可扩展至1024个GPU [32][34] - 新一代MTLink 4.0技术支持多种协议兼容,具备1314 GB/s的片间互联带宽 [34] - 通过ACE 2.0异步通信引擎、RAS 2.0容错能力及MTT C256超节点解决方案,确保超大规模集群的高效、稳定与高可用性 [34] 开发者生态建设 - 公司认识到开发者生态是决定芯片厂商生死存亡的关键,正致力于解决迁移成本高、工具链不成熟等痛点,目标是让国产GPU从“能用”到“好用”再到“愿意用” [45][46] - MUSA软件栈的策略是先对齐主流生态的使用习惯,降低开发者学习与迁移成本,同时通过AIBOOK等工具降低生态参与门槛 [47] - 为发挥底层架构创新,公司提出两条路径:一是通过高层抽象的DSL/编译技术将硬件优势显性化;二是与开发者及平台伙伴深度协作进行生态共建 [49][51] - 生态共建已见成效,例如与硅基流动对MTT S5000深度优化后,在DeepSeek 671B全量模型推理中,单卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s [51] 具身智能新赛道 - 公司入局具身智能领域,发布仿真训练平台MT Lambda,整合物理、渲染与AI三大核心引擎,提供从场景构建到仿真训练的高效工作流 [38][39] - 公司首颗AI SoC芯片“长江”正式亮相,集成了CPU、GPU、NPU、VPU、DPU、DSP和ISP等多维算力核心,为边缘侧提供强悍计算内核 [39] - 公司推出完整解决方案MT Robot,通过KUAE智算集群作为“云端大脑”和内置“长江”芯片的MTT E300模组作为“端侧小脑”,实现从虚拟训练到物理落地的全栈路径 [42][43] 公司技术积累与投入 - 过去五年,公司已推出5颗芯片,研发投入超43亿元,研发人员占比高达77%,活跃开发者生态超20万 [3] - 截至今年6月30日,公司已申请专利1000余件,其中授权专利500余件,发明专利468件,专利数量在国内GPU企业中领先 [21] - “花港”架构集成了自研的4层安全架构(安全域、信任域、保护域和功能域),为芯片提供安全守护 [21]
传华硕有意进军DRAM
半导体行业观察· 2025-12-26 09:57
华硕进军DRAM制造的传闻 - 据传华硕计划于2026年第二季度末前建立专门的DRAM生产线,以应对内存短缺并确保其PC产品线的稳定供应 [1] - 华硕作为全球主要PC厂商之一,若进军DRAM市场,将首先专注于优化其华硕、ROG和TUF系列笔记本电脑与台式机的内存供应 [2] - 该传闻源于波斯科技媒体Sakhtafzarmag的爆料,该媒体此前曾准确爆料AMD和英特尔CPU信息,但建议对消息持保留态度 [1] DRAM市场现状与价格趋势 - 当前内存危机已影响整个PC行业,导致产品价格上涨和未来几年交付延迟,短缺预计持续到2027年底甚至2028年 [1] - 2024年内存价格已开始上涨,较前一年的低谷期增长了88% [6] - TechInsights分析师预测,DRAM价格预计至少要到2026年才会达到峰值,并在2027年趋于稳定,随后在2028年再次上涨 [3][6] 人工智能对DRAM市场的影响 - 人工智能热潮是推动内存价格飞涨的关键因素,其兴起时机对内存供应商而言最为糟糕,导致扩建产能的财务压力巨大 [6] - 人工智能正推动对高带宽内存的需求,导致晶圆产能从消费级存储器转向HBM,使内存市场分化为消费级与企业级两个彼此分离的市场 [7][8] - HBM几乎完全用于高端数据中心GPU和AI加速器,例如Nvidia的B300和AMD的MI355X,其带宽远高于普通DRAM模块 [8] DRAM行业的产能与供应挑战 - DRAM供应商如三星、SK海力士和美光需要四到五年时间才能在新工厂实现产能提升,而市场状况到那时可能已发生巨变 [6] - 美光科技首席执行官表示,由于人工智能数据中心的强劲需求,在可预见的未来,整个行业的供应量将远低于需求量 [9] - 尽管内存制造商利润丰厚,例如美光科技2026财年第一季度营收增长56%,净利润从18.7亿美元增至52.4亿美元,但新建晶圆厂至少需三年才能投产,且大部分新产能可能用于生产HBM等企业级产品 [9] 不同厂商受到的影响差异 - 大型硬件OEM厂商如戴尔和惠普因提前锁定订单,受内存短缺和价格波动的影响较小,而小型厂商则更易受现货价格波动冲击 [7] - 游戏内存供应商G.Skill已将产品价格上涨归咎于人工智能导致的全行业DRAM供应严重受限和成本大幅增加 [7] - 消费市场的需求已非常旺盛,但OEM厂商的需求压力预计还有大约一年时间才会显现 [7]
AMD Strix Halo对线Nvidia DGX Spark,谁最强?
半导体行业观察· 2025-12-26 09:57
文章核心观点 文章对英伟达DGX Spark与基于AMD Strix Halo的惠普Z2 Mini G1a两款AI迷你工作站进行了全面的性能对比与评估,旨在为不同需求的用户提供选购参考[1][53][54] 核心结论是:选择取决于用户需求是“一台专门的AI机器”还是“一台能胜任大多数AI工作的通用PC”[54] 对于主要关注单批次LLM推理、需要运行Windows/Linux以及玩游戏的用户,基于AMD Strix Halo的惠普Z2 Mini G1a是更具性价比和灵活性的选择[55][57] 对于专注于原型代理、模型微调或图像/视频生成等高性能AI工作负载的用户,尽管价格更高,但英伟达DGX Spark凭借其2-3倍的性能优势和更成熟的软件生态,是更专业的“开箱即用的AI实验室”[57] 产品定位与价格 - **产品定位**:DGX Spark被设计为开箱即用的AI实验室,专注于多节点AI计算环境[10][57];惠普Z2 Mini G1a则是一款能够流畅运行Windows/Linux和游戏的通用PC,同时能处理大多数AI工作负载[52][57] - **官方售价**:DGX Spark建议零售价为3,999美元,惠普Z2 Mini G1a的测试配置零售价约为2,949美元[12] - **市场价格弹性**:两款系统均有更便宜的OEM或简化配置版本,例如128GB Strix Halo系统价格可略高于2000美元,而1TB存储的Spark OEM版本起价约为3000美元[13] 设计与硬件配置 - **外观与设计**:Spark采用全金属机身,体积更小(150mm x 150mm x 50.5mm),重量1.2kg,设计更精致[4][12];G1a机箱更大(85mm x 168mm x 200mm),重量2.3kg,外壳为塑料但内部为金属机箱,维护更方便[4][5][12] - **核心平台**:Spark基于英伟达Grace Blackwell (GB10)超级芯片[11];G1a基于AMD Ryzen AI Max+ Pro 395 (Strix Halo) APU[11] - **计算单元**:Spark拥有6,144个CUDA核心、192个第五代Tensor核心和48个第四代RT核心[11];G1a的GPU(Radeon 8060S)拥有2,560个流处理器和40个计算单元[11] - **内存与存储**:两款系统均配备128 GB LPDDR5x内存,Spark内存带宽为273 GB/s,G1a为256 GB/s[11][26];Spark配备4 TB NVMe存储,G1a配备2个1 TB M.2 NVMe SSD[11] - **I/O与连接**:Spark优先高速网络,配备1个10GbE端口和2个总计200Gbps的QSFP端口用于集群[10][12];G1a提供更丰富的通用接口,包括2个40 Gbps Thunderbolt 4端口、1个2.5 GbE端口和多个USB端口,并支持HP Flex IO模块扩展[9][12] CPU性能 - **CPU架构**:G1a采用16个Zen 5核心,频率最高5.1GHz[11][15];Spark采用20核Arm CPU(10个X925性能核心+10个A725能效核心)[11][15] - **性能表现**:在Sysbench、7zip和HandBrake等测试中,G1a的CPU性能比Spark高出10%到15%[15];在Linpack高性能计算基准测试中,G1a的双精度浮点性能达到1.6 teraFLOPS,是Spark(708 gigaFLOPS)的两倍多[16] GenAI理论性能与内存带宽 - **理论峰值性能**:Spark宣称AI算力可达1 petaFLOPS(稀疏FP4),但实际稠密FP8/FP16峰值性能约为250/125 teraFLOPS,实测BF16下为101 teraFLOPS,FP8下为207 teraFLOPS[18];Strix Halo平台宣称总性能为126 TOPS,其中NPU占50 TOPS,GPU估计峰值性能约为56 teraFLOPS(稠密BF16/FP16),实测达到理论值的82%,约46 teraFLOPS[19] - **性能优势比较**:理论上,Spark在原始AI算力上比Strix Halo具有2.2至9倍的优势[20] - **内存带宽**:Spark内存带宽为273 GB/s,G1a为256 GB/s,两者差距不大[11][26] LLM推理性能 - **单批次/单用户推理**:在Llama.cpp测试中,两款系统生成令牌的速度相近,G1a在使用Vulkan后端时略有优势[24][26];但在处理提示(首次输入时间)时,Spark的GPU速度是G1a的2-3倍,对于长序列或大型文档输入,Spark优势更明显[27] - **多批次推理**:在使用vLLM处理大批量任务(1-64批次)时,Spark凭借更强的GPU,在吞吐量和完成时间上均超越G1a[29][31] 模型微调性能 - **内存适应性**:两款128GB内存的系统都适合进行模型微调,包括使用LoRA/QLoRA技术[34] - **性能对比**:在对Llama 3.2 3B进行完整微调时,Spark的完成时间约为G1a的三分之二[36];在对Llama 3.1 70B使用QLoRA微调时,Spark耗时约20分钟,G1a耗时超过50分钟[38] - **适用场景**:对于不频繁进行的微调任务,Spark的性能优势可能不足以抵消其更高的价格[38] 图像生成性能 - **性能差距**:在ComfyUI中运行FLUX.1 Dev图像生成模型时,Spark的BF16性能约为120-125 teraFLOPS,是G1a(约46 teraFLOPS)的2.5倍左右[42] - **结论**:图像生成不是Strix Halo系统的强项[42] NPU性能与应用 - **硬件配置**:Strix Halo集成了XDNA 2 NPU,提供50 TOPS的额外AI算力[11][44] - **软件生态**:NPU的软件支持有限,主要用于音频/视频降噪等低功耗场景[44];在LLM推理上,纯NPU运行Mistral 7B仅4-5 tok/s,远低于预期[44];解耦推理(NPU处理提示,GPU处理解码)性能有提升,但仍不及纯GPU[45] - **特定优势**:在Amuse软件中运行Stable Diffusion 3模型时,NPU性能优于GPU,能在1分多钟生成1024x1024图像,而GPU需要约两倍时间[46][48] 软件与生态系统 - **英伟达优势**:Spark拥有基于CUDA的成熟、活跃的软件生态,几乎所有CUDA软件都能无缝运行[48][57] - **AMD进展**:AMD的ROCm和HIP软件栈已取得显著进展,许多PyTorch脚本无需修改即可运行,但体验仍不如CUDA流畅[48][49];部分软件(如vLLM、Llama.cpp)仍需从源码编译或使用特定分支[49] - **硬件限制**:Strix Halo基于较老的RDNA 3.5架构,不支持Spark Blackwell GPU提供的许多低精度数据类型(如FP4、FP8),经常被迫以16位精度运行模型[50] 游戏与其他工作负载 - **游戏兼容性**:G1a能流畅运行《孤岛危机:重制版》等游戏,在1440p中等画质下可达90-100帧[52];Spark基于Arm CPU,运行x86游戏需借助FEX等工具,过程更复杂,但最终也能流畅运行[52] - **通用性结论**:对于同时需要AI能力和通用计算(包括游戏)的用户,G1a或类似Strix Halo系统是更自然的选择[52][57]
英伟达的最大威胁:谷歌TPU凭啥?
半导体行业观察· 2025-12-26 09:57
谷歌TPU的发展背景与动机 - 谷歌作为全球最大的信息检索系统公司,其使命“组织全球信息”高度依赖机器学习技术,该技术自2000年代中期起已广泛应用于搜索排序、垃圾邮件过滤、广告点击率预测等核心业务,为公司创造了每年数十亿美元的收入[10][11] - 在深度学习兴起前,谷歌通过大规模通用服务器集群支撑复杂模型训练,例如一篇2012年的论文记录使用一个由1,000台机器、共16,000个CPU核心组成的集群,连续运行约三天来训练一个拥有10亿连接、处理1000万张图像的模型[11][12] - 随着模型规模和计算密度急速扩张,依赖通用CPU集群的方式触及性能与能耗瓶颈,促使谷歌转向专用机器学习加速器路线[13] - 谷歌于2011年启动Google Brain项目,旨在结合深度神经网络与公司庞大的分布式计算基础设施和海量数据,训练此前规模难以企及的神经网络系统[13] - 早期深度学习开发完全基于CPU运行,直到Alex Krizhevsky在2013年加入谷歌后,才引入GPU进行神经网络训练,谷歌随后于2014年决定购买约40,000个NVIDIA GPU,花费约1.3亿美元[18][23] - 尽管GPU在训练上表现优异,但在全球范围内大规模部署模型进行推理时面临挑战,例如,若每位Android用户每天仅使用三分钟语音识别,通过CPU进行深度学习推理将迫使公司服务器数量增加两到三倍,成本高昂[24][25] - 依赖GPU存在潜在效率损失和单一供应商的战略风险,促使谷歌考虑定制硬件方案,目标是在推理任务上相较GPU实现约10倍的成本性能优势[26][27] 第一代TPU (TPU v1) 的诞生与设计 - 谷歌在15个月内完成了从概念到数据中心部署的壮举,于2015年初成功部署第一代TPU[4][42] - 项目快速成功的关键因素包括:团队的单一日程焦点、采用700 MHz的时钟频率和完全调试的28nm工艺,以及数据中心部署团队的高效协调[42] - TPU v1的架构灵感源于1978年H.T. Kung和Charles E. Leiserson提出的“脉动阵列”理论,该设计通过有节奏的数据流动和计算,非常适合大规模矩阵运算[31][33][50] - TPU v1的核心是一个256x256的脉动阵列矩阵乘法单元,执行8位整数乘法,采用量化技术以节省芯片面积和能耗[62][65] - TPU v1采用CISC设计,仅有约20条指令,通过PCIe接口从主机接收指令,关键指令包括读取主机内存、读取权重、执行矩阵乘法/卷积、应用激活函数以及写回主机内存[66][67][68][69][70][72] - 软件栈方面,谷歌开发了驱动程序使其深度学习框架TensorFlow能够与TPU v1协同工作,确保与CPU和GPU软件栈的兼容性[73] - TPU v1由台积电采用28nm工艺制造,芯片面积的24%用于矩阵乘法单元,29%用于统一缓冲区内存,仅2%用于控制逻辑,体现了架构的简洁高效[74][75] - 在性能上,TPU v1专注于推理任务,其拥有NVIDIA K80 GPU 25倍的乘累加单元和3.5倍的片上内存,在推理速度上比K80 GPU和Intel Haswell CPU快约15至30倍,能源效率更是高出25至29倍[78][79] TPU的迭代演进与技术升级 - **TPU v2 (2017)**: 定位为服务端AI推理和训练芯片,架构上进行多项重大改变,包括引入通用向量单元、将矩阵单元作为向量单元的卸载、采用高带宽内存,并添加互连以实现高带宽扩展,其核心采用超长指令字架构和线性代数指令集[82][83][90][91][92] - **TPU v3 (2018)**: 在v2基础上温和升级,矩阵单元和HBM容量增加两倍,时钟速率、内存带宽和芯片间互连带宽提升1.3倍,算力达420TFlops,内存128GB,并首次引入分布式训练框架和液冷技术[95] - **TPU v4i (2020)**: 定位为服务器端推理芯片,单核设计,增加了片上SRAM存储,引入四维张量DMA引擎和共享片上互连,时钟频率达1.05 GHz[99][100][104][106][108] - **TPU v4 (2021)**: 采用7nm工艺,峰值算力275TFLOPS,性能全球领先,通过引入光路交换机解决大规模集群的互连规模和可靠性问题,并公开了对稀疏模型的支持[114][117] - **TPU v5e (2023)**: 强调成本效益,专为大模型和生成式AI打造,与TPU v4相比,每美元训练性能提升高达2倍,每美元推理性能提升高达2.5倍,成本不到TPU v4的一半,支持从13B到2万亿参数的模型[119][120][123][126] - **TPU v5p (2023)**: 性能大幅提升,浮点运算次数和内存带宽分别提升2倍和3倍,大语言模型训练速度实现2.8倍的代际提升,提供459 teraFLOPS的bfloat16性能或918 teraOPS的Int8性能,支持95GB高带宽内存[127] - **TPU v6/Trillium (2024)**: 训练效果提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,高带宽内存容量和芯片间互连带宽均实现翻倍,在12个Pod规模下扩展效率高达99%[129][133] - **TPU v7/Ironwood (2025)**: 采用3nm制程工艺,实现全方位突破,FP8峰值算力高达4614TFlops,较第二代TPU提升3600倍,配备192GB的HBM3E显存,单芯片内存带宽达7.2TBps,并首次在TPU系列中支持FP8计算[142][143][145] TPU v7的核心架构创新 - 应用3D堆叠技术,通过混合键合将逻辑层与内存层以10微米间距堆叠,减少信号延迟,并将功耗降低30%[147] - 引入新型计算核心FlexCore,每个核心包含4096个乘累加单元,支持FP32、FP16、BF16、FP8混合精度计算,并采用三级缓存结构,其中L3缓存容量达64MB/核心[148] - FlexCore集成了稀疏计算加速器,通过动态稀疏化技术,在训练中可自动屏蔽80%的零值数据,提升计算效率[149] - 采用光互联技术,在芯片上直接集成激光器和光调制器实现硅光子集成,利用波分复用技术使单链路带宽达1.6TB/s,将芯片间通信延迟从第六代的20微秒降低至5微秒[150] 软件生态与系统优化 - 编译器XLA得到显著改进,通过优化技术使模型在TPU v7上的运行速度提高30%[152] - 分布式训练框架针对大规模集群优化,在训练万亿参数语言模型时,训练时间较上一代缩短40%[153][154] - 配备增强版SparseCore,专为处理推荐系统等场景中的超大稀疏嵌入而设计,能大幅提升相关计算效率[154] - Pathways机器学习运行时在跨芯片计算中发挥关键作用,能高效协调数万个TPU芯片,在训练大型语言模型时可将效率提高50%[155] 应用表现与市场意义 - TPU v7在超大规模模型训练中展现卓越性能,其高算力、大内存和高带宽能显著缩短训练时间,并有望降低30%至50%的总体训练成本[156][157][158] - 在AI推理场景,特别是针对混合专家模型,TPU v7通过软硬件协同优化,可实现推理延迟降低50%以上,成本降低40%以上[158][160][161] - TPU系列的成功迭代证明了定制化AI加速硬件的可行性与巨大潜力,挑战了NVIDIA GPU在AI计算领域的绝对主导地位,表明市场存在多元化的竞争路径[5][163]
0.2nm将在15年内实现
半导体行业观察· 2025-12-26 09:57
韩国半导体技术路线图核心内容 - 韩国半导体工程师学会发布《2026年半导体技术路线图》,预测未来15年硅基半导体技术发展,目标是提升长期技术与产业竞争力、推动学术研究落地、完善人才培养体系 [1] - 路线图预计到2040年半导体电路制程将突破至0.2纳米,迈入埃米级(Å)技术时代,但实现1纳米以下晶圆制程目标道阻且长 [1] - 路线图重点聚焦九大核心技术方向:半导体器件与制造工艺、人工智能半导体、光互连半导体、无线连接半导体传感器、有线连接半导体、功率集成电路模块(PI M)、芯片封装技术以及量子计算 [1] 先进制程与晶体管架构演进 - 三星已推出全球首款2纳米全环绕栅极(GAA)芯片Exynos 2600,代表着全球光刻制程最高水平 [2] - 三星已完成第二代2纳米GAA工艺节点基础设计,并计划在两年内落地第三代2纳米GAA技术SF2P+工艺 [2] - 路线图指出,到2040年,0.2纳米制程将采用互补场效应晶体管(CFET)的全新晶体管架构,并搭配单片式3D芯片设计方案 [2] 三星的研发规划与技术应用 - 三星已组建专项团队启动1纳米芯片研发工作,目标在2029年实现量产 [2] - 技术突破将应用于移动终端系统级芯片(SoC)和存储芯片领域 [2] - DRAM内存电路制程将从目前的11纳米缩减至6纳米 [2] - 高带宽内存(HBM)有望从现有的12层堆叠、2TB/s带宽,提升至30层堆叠、128TB/s带宽 [2] 存储与AI芯片技术展望 - 在NAND闪存领域,SK海力士已研发出321层堆叠的QLC技术,路线图预测未来将实现2000层堆叠的QLC NAND闪存 [3] - 当前人工智能处理器算力最高可达10 TOPS(每秒万亿次运算) [3] - 路线图预计15年后,用于模型训练的AI芯片算力可达1000 TOPS,用于推理任务的芯片算力也将达到100 TOPS [3]