半导体行业观察
搜索文档
这桩收购后,英伟达打造最强闭环
半导体行业观察· 2025-12-19 09:40
开源项目的商业化支持模式 - 开源项目的持续发展通常需要商业实体的支持,以提供产品整合和技术支持,因为开发者需要获得报酬 [1] - Linux内核是得到企业和机构支持的著名例子,其商业支持版本包括Red Hat Enterprise Linux、SUSE Linux、Canonical Ubuntu等 [2] - 云服务商和Nvidia等公司也会定制自己的Linux发行版以满足特定需求 [2] 英伟达在集群管理软件领域的收购与整合 - 英伟达于2022年1月收购了Bright Computing,该公司是Bright Cluster Manager的开发商,收购前共融资1650万美元,其工具在全球拥有超过700家用户 [3] - 收购后,该工具被更名为Base Command Manager,并集成到英伟达的AI Enterprise软件堆栈中,每个GPU每年的授权费用为4500美元 [3] - 英伟达为BCM提供了一个名为Mission Control的叠加层,用于自动部署其“AI工厂”,并整合了Run.ai实现的Kubernetes和Docker等技术 [6] - 2024年10月,英伟达停止单独销售Bright Cluster Manager,仅将其作为AI Enterprise Stack的一部分提供 [9] Slurm工作负载管理器的地位与英伟达的收购 - Slurm工作负载管理器在过去十年中,被约60%的Top500超级计算机所使用,代表数千台机器 [11] - Slurm项目始于2001年,由多个机构合作开发,其商业支持公司SchedMD由项目创始人在2010年创立 [10] - 英伟达已同意收购SchedMD,并表示将继续将Slurm作为开源、厂商中立的软件进行开发和分发 [11] - Slurm代码以GNU GPL v2.0许可证提供,这意味着如果英伟达试图限制它,其他人可以获取代码并进行分叉开发 [12] 英伟达的软件战略与控制意图 - 英伟达通过收购Bright Computing和SchedMD,旨在为其AI与HPC集群提供一个自上而下的集群和工作负载管理工具 [7][12] - 公司目前在全球拥有数千套BCM安装案例,并提供管理最多8个GPU节点的免费许可证,但该免费许可不提供技术支持且可能被撤销 [5][6] - 英伟达的整合面临挑战,需要将Run.ai、Slurm与Base Command Manager的功能结合,并考虑对仅使用CPU的机器及非英伟达加速器的支持 [12] - 有观点认为,英伟达作为全球重要的IT供应商,其本身也相当注重控制 [9]
美国芯片法案,再遭重创
半导体行业观察· 2025-12-19 09:40
文章核心观点 - 美国商务部终止了对SMART USA研究所价值2.85亿美元的五年期合同资助 该决定并非基于项目绩效 而是政府单方面行使合同中的“出于方便”终止条款 此举是特朗普第二任期开始后第二个被取消资助的CHIPS法案相关机构 引发了行业和政界对美国政府研发资助政策连续性和信誉的担忧 [1][2][6] SMART USA项目概况与目标 - SMART USA是一家由美国《芯片与科学法案》资助的公私合作组织 专注于芯片制造数字孪生技术 其目标是联合学术界和工业界创建“虚拟制造模型” [1] - 项目具体目标包括:将研发和制造成本降低35%以上 将制造研发时间缩短30% 并将制造良率提高40% 同时计划在五年内培训11万名工人 [1] - 该组织于2025年1月赢得政府合同后成立 总部位于北卡罗来纳州罗利市 是“美国制造”(Manufacturing USA)创新网络的成员 由SRC制造联盟公司运营 而后者是半导体研究公司(SRC)的全资子公司 [1] 资金终止事件详情 - 美国商务部于12月10日通知SMART USA终止合作 并在12月12日通过邮件告知其121名成员 资金被“出于方便”而撤回 [2] - SMART USA管理层强调 商务部承认该组织已建立高效架构并达到所有绩效目标 资金终止并非由于绩效不佳 [2][3] - 这是自2025年1月特朗普第二任期开始以来 联邦政府取消资助的第二个与《芯片法案》相关的机构 此前商务部从负责运营国家半导体技术中心(NSTC)的Natcast撤回了74亿美元资金 [5][6] 事件影响与各方反应 - **对研究项目的直接影响**:资金终止打乱了原有的研究计划 例如一位科学家已获SRC批准的三年45万美元研究提案 其第二年和第三年资助被取消 并被邀请转向申请SMART USA项目 但新项目因难以获得足够的行业成员资金承诺而未能提交提案 [4][5] - **SMART USA与SRC的表态**:组织表示正与商务部和成员协调确保平稳过渡 并强调行业对微电子和先进封装研发的需求依然存在 SRC将继续通过其他项目资助研究并培育行业合作 [2][3] - **政治层面的质疑**:两位美国众议院科学、空间和技术委员会成员致信商务部 质疑其暂停或推迟国会授权的半导体研发项目及违反对业界和学术界现有义务的决定 [6] - **对NIST声誉的担忧**:议员们指出 商务部下属的美国国家标准与技术研究院(NIST)作为CHIPS法案执行机构 其中立、可靠的合作伙伴声誉正面临巨大风险 政府频繁取消义务的行为可能使企业不愿与之合作 [3][7] - **政策模式转向的批评**:信中还批评NIST在Natcast事件后 其研发资助模式似乎转向类似风险投资基金 以知识产权和股权交换来资助高风险研究 议员认为这违背了CHIPS法案的文本和立法意图 [7] 与Natcast事件的对比 - 两起资金撤回事件在基调和处理上不同 商务部未就SMART USA事件发表公开声明 但在Natcast事件中 商务部长曾公开暗示该组织及其领导层存在不当行为 导致Natcast迅速裁员并倒闭 [6]
干掉铜缆,又一家公司横空出世
半导体行业观察· 2025-12-19 09:40
公司概况与融资 - 美国深科技初创公司Enlightra宣布筹集1500万美元资金,用于解决人工智能基础设施中快速、节能数据传输的瓶颈[1] - 公司致力于为下一代数据传输构建芯片级多波长激光器[1] - 公司成立于2022年,总部位于瑞士洛桑,专注于光子学、半导体制造和人工智能基础设施的交叉领域[3] - 公司团队拥有25人,由联合首席执行官John Jost和Maxim Karpov共同领导[3] - 公司投资者包括Y Combinator、Runa Capital、Pegasus Tech Ventures、Protocol Labs、Halo Labs、Asymmetry Ventures和TRAC VC等[1][4] 核心技术:多波长激光器 - 公司核心技术是专利的多色梳状激光平台,旨在以紧凑型超高带宽光链路取代数据中心和AI集群中的铜线[1][4] - 该技术用一个集成光源取代数十个独立的激光器,每种颜色作为一个独立的数据通道,仅需一个激光光源即可创建数十个高带宽连接[2] - 技术能够比铜缆更快、更高效地连接人工智能集群中的计算芯片(如GPU、TPU),在实现目标速度和功率水平下进行无差错数据传输[1][3] - 激光器采用行业标准的硅光子制造工艺制造,有利于大规模生产,为全球数据中心每年部署数百万台激光器创造条件[2] 市场机遇与行业背景 - 人工智能训练需要GPU之间更快的连接速度,而当前大多数连接仍依赖在速度和功耗方面存在限制的铜线[2] - NVIDIA、博通、谷歌和META等行业领导者已在光纤互连方面投入巨资,以应对数据指数级增长[2] - 据麦肯锡预测,到2030年,节能互连技术的市场规模预计将达到240亿美元[1] - 人工智能正在推动一场光学革命,公司的多波长激光器被认为是未来十年高性能计算的基础技术[3] 产品进展与未来愿景 - 公司已设计并制造出符合客户AI芯片互连规格的8通道和16通道激光器[3] - 试生产计划于2027年启动[3] - 公司愿景超越人工智能集群,其可扩展的梳状激光平台有望为未来整个数据中心、海底光缆乃至芯片与内存互连提供光链路支持[3] - 该技术在量子通信和天基通信领域也展现出巨大潜力[3] 技术优势与价值主张 - 公司的激光技术在大幅降低功耗的同时,显著提高了数据传输速度[1] - 技术能够将性能增长与能耗和成本增加分离,帮助人工智能集群和数据中心高效扩展[2] - 公司致力于解决制约现代人工智能可扩展性的关键能源瓶颈,以超高效的光通信取代耗能的电信号数据传输[4]
SiC供过于求,中国加速设备国产化
半导体行业观察· 2025-12-18 09:02
行业现状与市场周期 - 功率型碳化硅市场正从2019-2024年的投资浪潮进入调整期,汽车市场放缓降低了对碳化硅的需求,改变了供应链[1] - 上游产能严重过剩,预计到2025年,上游工艺产能利用率降至50%左右,器件生产线产能利用率降至70%左右,低迷状态预计持续到2027-2028年[1] - 设备资本支出在2023年达到峰值后将大幅下降,预计在2027/2028年触底,导致2024年至2030年的复合年增长率为-7%[5] - 尽管市场放缓,碳化硅在电气化路线图中仍占据核心地位,预计到2030年其器件收入将接近100亿美元[1] 市场增长与投资趋势 - 受电动汽车和工业需求推动,功率型碳化硅器件市场预计2024年至2030年将以23.9%的复合年增长率增长[5] - 垂直整合型企业以低于2023年的水平继续投资,以提升盈利能力,随着周期触底反弹,新的投资将转向器件加工和后端领域[5] - 测试设备表现突出,预计2024年至2030年的复合年增长率将达到3%,反映出对先进验证需求的增长[5] 地域格局与产能转移 - 中国大陆正在迅速扩张产能,到2024年,中国企业已占据约40%的碳化硅晶圆和外延晶圆产能,并正迅速扩张至器件制造领域[1] - 预计未来五年内,全球超过50%的晶圆产能将位于中国,而器件产能则主要仍由在东南亚运营晶圆厂的西方企业掌控[8] - 设备生态系统随之转移,中国本土供应商快速扩张,国际供应商也越来越多地在东南亚设立制造和销售机构[8] - 大部分新增设备资本支出集中在中国大陆,因为政府鼓励本地采购设备[1] 技术发展与供应链动态 - 预计市场在2027-2028年迎来新增长,届时8英寸生产平台以及下一代沟槽和超结MOSFET将带来新动力[1] - 碳化硅价值链为设备供应商带来挑战和机遇,上游晶锭和外延晶圆工序需要专用的SiC设备,但大多数器件工艺仍可利用硅设备[12] - SiC独特的材料特性维持了对设备升级和新系统的强劲需求,在2023年高峰年,SiC在大多数设备类别中的销售额占比仅为个位数,但对于高温化学气相沉积和离子注入机供应商,其收入占比达到了20%[12] - 随着材料质量提高,2025年至2030年期间,晶圆尺寸转变和器件架构多样化将推动增长,支撑整个生态系统中设备的持续销售[12] 竞争格局与本土化进展 - 尽管中国国内生态系统正在发展,IDM厂商仍在200mm SiC产能和先进MOSFET架构方面进行战略投资,并保持着全球领先地位[4] - 中国在碳化硅前端加工能力方面正在迅速追赶,中国本土供应商已在碳化硅晶体生长和外延方面与国际企业展开正面竞争[2] - 虽然设备生态系统尚未完全实现自给自足,但国内供应商在PVT和HTCVD设备领域已取得显著进展[1]
英特尔豪赌下一代晶体管
半导体行业观察· 2025-12-18 09:02
文章核心观点 - 英特尔晶圆代工与imec联合展示了适用于300毫米晶圆制造的关键工艺模块集成,标志着二维场效应晶体管(2DFET)向现实应用迈出了关键一步,解决了二维材料与大规模半导体制造兼容的历史性难题 [1][2][3] 二维晶体管的技术背景与行业趋势 - 现代领先逻辑工艺技术如英特尔18A、三星SF3E、台积电N2均依赖于环栅器件,行业正在开发互补型场效应晶体管以进一步提升密度 [1] - 持续的微缩将使硅沟道逼近物理极限,导致静电控制和载流子迁移率下降,业界正评估二维材料作为解决方案,因其可形成仅几个原子厚且电流控制能力强的沟道 [1] 英特尔与imec合作的技术突破 - 研究聚焦于过渡金属二硫化物,使用WS₂和MoS₂作为n型晶体管沟道,WSe₂作为p型沟道材料 [2] - 核心创新是开发了与晶圆厂兼容的触点和栅堆叠集成方案,通过选择性氧化物蚀刻形成镶嵌式顶部触点,保护了脆弱的二维沟道免受污染和物理损伤 [2] - 该镶嵌式顶部接触方法解决了2DFET开发中形成低电阻、可扩展接触的关键挑战,并展示了可制造的栅堆叠模块 [2] 合作的意义与英特尔的战略考量 - 合作意义在于降低基于二维材料的芯片开发和生产的长期风险,而非立即产品化,二维晶体管预计要到2030年代后半期甚至2040年代才能实现 [3] - 在生产级环境中验证工艺模块,使客户和内部设计团队能用实际可扩展的工艺假设评估二维沟道,加速器件基准测试、紧凑建模和早期设计探索 [3] - 英特尔将二维材料视为未来选项进行前瞻性评估,旨在尽早解决制造挑战,避免未来需要新材料时出现意外 [3] - 此次公告向行业传递了英特尔晶圆代工致力于长期技术研发,是值得信赖的制造合作伙伴,并强调新晶体管概念在研发阶段就必须考虑可制造性 [3]
难怪高通急了
半导体行业观察· 2025-12-18 09:02
文章核心观点 - 联发科凭借其在云端ASIC设计服务领域的核心技术(特别是SerDes)和深度绑定头部客户(如谷歌、Meta)的策略,正迎来订单与盈利的爆发式增长,成功开辟了高利润的新增长曲线,市场对其价值存在重估空间 [1][4][19] - 高通尽管财务表现稳健,但过度依赖增长见顶的手机业务,在AI算力等新增长领域进展缓慢且战略模糊,其通过密集收购进行多元化的策略与当年英特尔面临相似挑战,能否有效整合并形成清晰战略方向是成败关键 [7][9][15][17] - AI时代的半导体竞争逻辑正在转变,专注核心技术与深度客户协作带来的执行力和交付能力,比广泛但分散的多元化布局更具优势,联发科与高通的现状对比是这一趋势的直观体现 [19][20] 联发科:AI与ASIC业务突破 - **订单与产能爆发**:联发科为谷歌操刀的TPU v7e将于2026年Q1末风险性试产,并已拿下TPU v8e订单,其向台积电协商的CoWoS年产能从2026年约1万片倍增至2万片,2027年更暴增至15万片以上,是2026年的七倍以上 [1] - **盈利贡献巨大**:市场估算,仅TPU v7e从2026年至2027年的出货,总计可为联发科贡献超过两个股本的获利,公司CEO设定的2026年云端ASIC相关营收10亿美元、2027年达数十亿美元的目标被认为保守 [1] - **试产即量产模式**:由于谷歌需求强劲,v7e风险性试产的产出将视同量产产品供应,这种模式能快速满足客户需求并为联发科带来业绩贡献 [2] - **核心技术优势**:联发科的核心竞争力在于其SerDes技术,其112Gb/s DSP在4纳米制程上实现超过52dB损耗补偿,并已推出专为数据中心的224G SerDes且完成硅验证 [4] - **客户与市场拓展**:除了谷歌,联发科即将获得Meta一款2纳米工艺ASIC(代号Arke)的大额订单,预计2027年上半年量产,同时与英伟达的合作已扩展至IP领域及共同设计GB10 Grace Blackwell超级芯片 [4][5] - **业务转型动因**:ASIC设计服务为联发科提供了比竞争激烈的手机芯片市场更高的利润率和更稳定的客户关系,是其关键突破口 [5] 高通:增长焦虑与战略挑战 - **营收结构隐忧**:高通2025财年Q4总营收112.7亿美元(同比增长10%),但手机芯片业务营收69.6亿美元(增长14%)仍占总营收62%以上,汽车(10.5亿美元)和物联网(18.1亿美元)业务规模远小于手机业务 [8] - **核心业务面临压力**:全球智能手机市场增长放缓、竞争加剧,同时联发科在高端SoC持续逼近,苹果推进自研调制解调器,削弱了高通的确定性,高利润率的授权业务营收当季同比下滑7% [8][9] - **AI布局进展缓慢**:在博通、Marvell、联发科等已获AI芯片大单时,高通仍主要被视为“手机芯片公司”,其AI200与AI250服务器级加速芯片计划于2026、2027年推出,但尚未形成清晰的规模性收入贡献 [9][16] - **密集收购以换时间**:2025年高通加速并购,包括以24亿美元收购SerDes IP领导者Alphawave Semi,收购边缘AI公司Edge Impulse、开源硬件公司Arduino及RISC-V初创公司Ventana Micro Systems等 [11] - **收购策略的成效与疑问**:收购Nuvia获得的Oryon CPU核心在PC市场成功商业化,但2025年的收购更多解决“能力是否齐备”问题,无法短期内改变对手机业务的依赖,且面临资源分散、整合与战略方向不清晰的挑战 [12][13][17] - **与英特尔历史的相似性**:两者都高度依赖单一核心业务(英特尔x86 vs. 高通手机芯片),并在业绩未崩塌时通过激进收购寻求多元化,但英特尔当年大量收购因战略不清晰导致整合失败、资源浪费 [13][14][15] 行业竞争逻辑演变 - **路径对比:专注 vs. 多元**:联发科选择“窄而深”路线,专注ASIC设计服务细分赛道并将SerDes等关键技术做到极致,深度绑定头部客户稳步推进;高通则在多重不确定性中试探,业务横跨PC、服务器、AI芯片和物联网,但缺乏清晰主线和决定性突破 [19] - **竞争要素转变**:AI时代的竞争逻辑正在变化,专注核心技术的持续深挖、深度客户关系与定制化协作能力比单一产品规格领先更重要,执行与交付能力比宏大战略叙事更关键 [20] - **时间窗口紧迫**:联发科已从谷歌TPU订单中获得实际回报,而高通仍在为2026年及以后的产品做准备,在高速发展的AI芯片市场,这种时间差可能直接转化为机会成本 [20]
比GPU强100倍的芯片,挑战AI芯片霸主
半导体行业观察· 2025-12-18 09:02
公司核心技术与产品 - 公司开发了模拟处理单元(APU),这是一种将计算和内存融合于同一平面的新型芯片架构,旨在解决人工智能的能耗瓶颈 [1] - APU以模拟方式执行AI工作负载中最繁重的矩阵乘法运算,其架构比当今顶级GPU和所有竞争对手的AI ASIC的能效高出100倍 [1][4] - APU在能耗方面是硅芯片中最接近人脑的,一次乘加运算(MAC)仅消耗17飞焦耳的能量,比在现有GPU上执行相同运算的能效高出1000倍 [4] - 公司拥有全球首款量产的模拟计算芯片,其APU架构每瓦特每秒可执行120万亿次运算(TOPS)[1][4] - 公司的“神经元”由高度成熟的硅存储单元构成,迄今为止已出货1500亿个,并采用标准半导体材料在美国及其盟友国家生产 [6] 性能优势与基准测试 - 内部基准测试表明,在运行1T参数大型语言模型(LLM)时,APU的每瓦每秒令牌数(Tokens/s/W)比NVIDIA的高端GPU高出750倍 [5] - 下一代APU展现出巨大的成本优势,与最新的GPU相比,其每百万代币成本最多可降低80倍 [6] - 在1000亿参数LLM模型中,APU每百万代币的成本低至0.5美分,在1T参数模型中每百万代币的成本低至4美分 [6] - APU可以轻松扩展到1T参数模型,且无需像GPU那样通过NVLINK建立高速APU间连接 [5] 市场战略与目标行业 - 公司计划进军四个万亿美元产业:数据中心、汽车、机器人和国防 [5] - 公司的独特战略是成为AI领域每瓦性能的绝对领导者,并实现100%的研发杠杆 [5] - 公司凭借其突破性的节能架构,发明了一种名为Starlight的新型传感设备,该设备功耗低于1瓦,并将图像传感器的性能提升了50倍 [7] - 公司是唯一一家能够将强大而超低功耗的AI引擎集成到传感器中的公司 [7] 融资情况与投资者 - 公司在由DCVC领投的超额认购融资轮中筹集了1.25亿美元 [1] - 投资财团包括NEA、Atreides、Future Ventures、软银韩国(SBVA)、S3 Ventures、Linse Capital等众多机构 [2] - 战略投资者本田汽车和洛克希德·马丁公司也加入了投资行列,这两家公司分别位列各自行业(汽车和国防)的世界前十 [2] - 公司经历了密集的转型期,在新领导层的带领下彻底重建了其架构、路线图、软件和战略 [2] 行业背景与问题阐述 - 预计到本十年末,美国电网十分之一的电力将用于运行由GPU驱动的人工智能工作负载的数据中心 [3] - 传统的冯·诺依曼架构中,内存和计算在物理上分离,导致人工智能领域90%的能源被浪费在数据传输上 [3] - 现有的基于GPU的人工智能加速器试图通过高带宽内存(HBM)来弥补缺陷,但无法阻止当前人工智能系统最终因“能耗墙”而崩溃 [3] 软件生态与开发工具 - 公司的CAMP(内存模拟计算处理)SDK目前已支持在其第一代APU上流畅运行深度神经网络(DNN)应用程序 [8] - SDK原生支持ONNX、PyTorch和TensorFlow,同时还可通过NVIDIA的TensorRT在包括NVIDIA Jetson在内的多个CPU平台上运行 [8] - 一项德国研究报告显示,CAMP在同类内存计算处理器中成熟度最高 [8] - 公司专注于软件开发和SDK成熟度,以有效对抗NVIDIA根深蒂固的CUDA平台 [8] 公司领导与愿景 - 公司由前NVIDIA高管Taner Ozcelik领导,他创立了NVIDIA的汽车业务 [5] - 公司认为能效将决定人工智能计算的未来,其超高能效的APU将成为除GPU之外的首选加速计算机 [5] - 公司的技术路线图实力雄厚,其下一代技术有望使用户无需网络连接即可在口袋里使用ChatGPT3+级别的逻辑层模型,而成本仅为现有解决方案的百分之一左右 [9]
台积电真正的瓶颈显现
半导体行业观察· 2025-12-18 09:02
台积电先进制程产能与策略 - 为满足AI GPU与CSP自研ASIC的庞大需求,台积电正加速进行产能优化与制程重配置,策略包括将台中Fab 15的7纳米旧产能及台南Fab 18的5纳米产线转进3纳米制程 [1] - 2026年多数高阶AI芯片将全面导入3纳米或其强化版本,例如辉达VR系列、AWS Trainium 3、Google TPU等 [1] - 比起先进封装产能,3纳米制程才是2025年真正的产能瓶颈,公司通过优化与转换既有产线来提升资本使用效率,而非单纯依赖新厂扩建 [1] - 台积电预计2纳米制程将于2025年开启,其产能已排至2026年底,为满足需求,公司启动三座新生产线建设,预计总投资达286亿美元 [4] - 台积电计划在2026年底将其2纳米月产量提升至10万片,该技术将成为其成长的主要驱动力 [5] 先进封装技术发展 - 台积电CoWoS仍是AI芯片的主流封装方案,预计至2024年底月产能上看12万片 [1] - 封装需求外溢至专业封测代工厂,不仅可纾解短期产能压力,也有助于降低未来封装技术世代更迭风险 [1] - 随着AI芯片设计复杂化,单位晶圆可切割的有效晶粒数下降,放大了对先进制程晶圆的需求,例如辉达Rubin GPU在8倍光罩尺寸下可切割晶粒只有4颗 [2] - CoPoS(Chip on Polymer Substrate)将是2025年技术发展重点,代工龙头预计在2025年第二季建置CoPoS研发实验线,研发预计2027年底完成、2028年进入量产 [2] - CoPoS技术将处理更大的晶圆,机台面积需放大,且因处理良品裸晶粒导致报废成本高,机台复杂度提升很多 [2] 2纳米制程技术竞争与客户需求 - 台积电2纳米制程采用GAA架构,旨在提升效能与效率,与FinFET相比,能在相同功耗下实现10-15%的效能提升,或在特定效能等级下降低25-30%的功耗 [4] - 苹果A20和A20 Pro等芯片组将成为推动台积电2纳米技术普及的主要动力 [4] - 高通、联发科、苹果、超微等众多客户都是2纳米制程的知名用户,但据传苹果为压制竞争对手,已预定了超过一半的初始产能 [5] - 三星已于2024年稍早开始量产其2纳米GAA制程,但与先前的3纳米GAA制程相比,已公布的性能、效率和面积数据并不十分详尽,可能由于良率尚未达到最佳状态 [6]
MEMS时钟新贵,要革命SiTime
半导体行业观察· 2025-12-18 09:02
新型MEMS时钟技术突破 - 研究人员开发出基于微机电系统(MEMS)的微型时钟,利用硅掺杂技术实现了创纪录的稳定性,运行8小时后偏差仅为102纳秒,接近原子钟标准 [1] - 该时钟在空间和功耗上比原子钟具有显著优势,其体积比方糖表面还小,功耗仅为微型原子钟的十分之一到二十分之一 [1][5] - 该技术由密歇根大学团队研发,并在第71届IEEE国际电子器件年会上展示 [1] 技术原理与核心创新 - 时钟核心为一块覆盖压电薄膜的硅片,以其固有频率振动,电子电路测量振动,微型加热器保持最佳温度,三者紧密集成作为一个协调系统工作 [3] - 关键创新在于对硅材料进行磷掺杂,精确控制其机械性能,使谐振器在-40°C至85°C的温度范围内频率基本保持不变,环境稳定性极高 [3] - 系统集成了自主温度传感和调节功能,谐振器以两种模式运行:主模式用作时间参考,另一种模式作为温度传感器,实现内置自校正 [4] - 掺杂使硅导电,允许电子元件微妙调节机械驱动强度,以主动抵消频率的长期微小漂移,这是与以往MEMS时钟最显著的物理特性差异 [4] 性能指标与比较优势 - 该MEMS时钟连续运行8小时误差为102纳秒,线性放大到一周运行时间,误差仅略多于2微秒 [5] - 其稳定性足以媲美微型原子钟,但体积比芯片级原子钟小10到100倍,功耗低90%至95% [5] - 与石英等传统材料相比,硅基半导体制造受益于尺寸小型化,是下一代时钟的理想选择 [4] 应用前景与行业意义 - 该技术源于DARPA项目,目标是制造能连续运行一周且误差仅为1微秒的时钟,在GPS信号不可用的极端环境(如太空、水下)导航中具有潜力 [6] - 未来在高速数据传输(如手机通信)中,精确计时对数据包传输至关重要,MEMS时钟可作为低功耗、小型化的解决方案 [7] - 研究人员认为几乎所有现代技术都需要同步,该时钟有望填补当前时间同步领域的空白 [6] 竞争环境与研发自信 - 目前已有公司(如SiTime)生产MEMS时钟并集成于苹果和英伟达设备中,市场竞争存在 [7] - 研发团队对其解决方案充满信心,声称其方法完全基于对半导体基础物理的深入研究,旨在使谐振器精度比SiTime的产品高100倍,从而避免对复杂系统的需求 [7]
英伟达最强GPU:B200详解解读
半导体行业观察· 2025-12-18 09:02
英伟达Blackwell B200 GPU架构与性能分析 - 英伟达推出新一代顶级计算GPU Blackwell B200,放弃了传统的单芯片设计,转而采用两个光罩大小的芯片,在软件层面被视为一个独立的GPU,成为公司首款芯片级GPU [1] - 每个B200芯片物理上包含80个流式多处理器(SM),但每个芯片支持74个SM,因此整个GPU共有148个SM,时钟频率与H100的高功率SXM5版本相似 [1] - 与上一代H100 SXM5相比,B200的功耗目标为1000W(H100为700W),采用台积电4NP制程,配备288 GB HBM3E显存,带宽高达8 TB/s [2] 缓存与内存子系统 - B200的L1缓存/共享内存容量与H100相同,为256 KB,开发者可通过CUDA API调整L1缓存与共享内存的分配比例 [4] - B200的L2缓存容量大幅提升至126 MB,而H100为50 MB,A100为40 MB,直接连接到同一L2分区的延迟约为150纳秒 [7] - 从单线程角度看,B200表现类似三级缓存架构,其L2缓存的分区特性很可能对应于其两个芯片,跨芯片延迟增加很小 [8] - 与AMD MI300X相比,英伟达的L1缓存容量更大、速度更快,但AMD的L2缓存延迟更低,且拥有256 MB末级缓存,实现了低延迟和高容量的结合 [9] 内存带宽与延迟表现 - B200的显存带宽为8 TB/s,显著高于H100的3.3 TB/s和AMD MI300X的5.3 TB/s [2][23] - 在L2带宽测试中,B200在本地L2分区内带宽可达21 TB/s,当数据在两个分区间传输时,带宽下降至16.8 TB/s [20] - B200的VRAM延迟似乎高于MI300X以及更早的H100和A100,但延迟回归的程度并不严重,表明其多芯片设计运行良好 [10] - B200在共享内存延迟方面表现出色,访问速度比测试过的任何AMD GPU都要快,包括RDNA系列的高频型号 [12] 计算吞吐量与原子操作 - SM数量的增加使B200在大多数向量运算中拥有比H100更高的计算吞吐量,但FP16运算是个例外,B200不能以FP32两倍的速度执行FP16运算 [30] - AMD的MI300X能进行双倍速率的FP16计算,其强大的运算能力在大多数向量运算方面远超H100和B200 [32] - B200的每个SM每个周期可以执行32次原子加法操作,而AMD CDNA3计算单元每个周期可以执行16次原子加法,这使得B200尽管核心数量较少,却依然能够胜出 [16] - 在全局内存原子操作吞吐量上,B200芯片每个周期可以支持GPU上近512次此类操作,而AMD的MI300A芯片在这项测试中表现不佳 [30] 张量内存与AI优化 - Blackwell引入了张量内存(TMEM),类似于专用于张量核心的寄存器文件,其组织结构为512列 x 128行,每个单元格为32位,每个SM子分区都有一个512列 x 32行的TMEM分区 [34][35] - TMEM容量为64 KB,与AMD CDNA架构上的累加器寄存器文件(Acc VGPR)容量相同,但TMEM的实现更加完善和成熟,采用了动态分配方案 [35] - 引入TMEM有助于降低常规寄存器文件的容量和带宽压力,Blackwell的CTA级矩阵指令每个周期、每个分区可以支持1024次16位MAC操作 [38] - 与AMD CDNA架构相比,TMEM的源矩阵可以来自共享内存或TMEM自身,而CDNA的MFMA指令源矩阵可以来自常规或Acc VGPRs [36] 实际应用基准测试 - 在FluidX3D基准测试中,B200充分发挥了其显存带宽优势,性能超越了MI300X,该测试采用256x256x256单元配置,FP32模式下需要1.5 GB内存,访问模式对缓存不友好 [42] - 当使用IEEE FP16格式进行存储时,AMD的MI300A在FluidX3D测试中略有进步,但仍然远胜于B200 [45] - 在FP64性能方面,B200的基本FP64运算速度为FP32的一半,远超消费级GPU,在自行编写的基准测试中表现优于消费级GPU和H100,但MI300X凭借其庞大体积依然显露优势 [40] 多芯片架构与竞争格局 - 与AMD的MI300X(采用12芯片设计)相比,英伟达的双芯片策略显得较为保守,但软件无需考虑多芯片架构,是H100和A100的直接继任者 [51] - AMD即将推出的MI350X预计将把显存带宽提升至8 TB/s,在B200已经领先的领域迎头赶上 [51] - 英伟达的优势在于其CUDA软件生态系统,GPU计算代码通常首先针对英伟达GPU编写,硬件只需足够优秀以阻止竞争对手填补CUDA的“护城河” [54] - 英伟达保守的硬件策略给AMD留下了机会,像MI300X这样的GPU展现了AMD实现高难度设计目标的能力,其是否能在硬件上挑战英伟达的软件主导地位值得关注 [57] 测试中遇到的问题 - 在数周的测试中,遇到了三次GPU挂起问题,表现为GPU进程卡死,任何尝试使用系统八个GPU中任何一个的进程都会挂起,只有重启系统才能恢复GPU功能 [47] - 内核消息显示,Nvidia统一内存内核模块(nvidia_uvm)在禁用抢占的情况下获取了锁,可能导致软件死锁 [47][48] - `nvidia-smi`提供了重置GPU的选项,但如果GPU正在使用中就无法生效,这违背了提供重置选项的初衷,希望英伟达能提供无需重启系统即可解决问题的方法 [48][49]