半导体行业观察

搜索文档
传统NPU供应商,碰壁了!
半导体行业观察· 2025-06-12 08:41
NPU技术发展现状 - 当前NPU赛道发展迅猛,传统和新兴厂商均在布局,但主流方案仍采用传统核心+硬连线加速器的架构[1][2] - 行业普遍通过微调指令集和提供矩阵加速器来应对早期ML基准测试(如Resnet、Mobilenet),但仅能覆盖约20个图运算符[1] 传统IP厂商的技术困境 - 五年前CPU/DSP/GPU IP厂商为保持竞争力,选择附加外部矩阵加速器的短期方案,而非开发专用可编程NPU[4][5] - 该架构需对算法进行分区运行,在Transformer等新模型出现后暴露缺陷,加速器无法有效支持新算子(如自注意力机制)[4][5] - 厂商陷入创新者窘境:既需维护传统IP核价值,又需投入资源开发竞争性新架构,导致连续两代加速器设计重复相同缺陷[5] 技术路线对比 - 理想方案应为矩阵计算与通用计算深度集成的统一架构,而非物理分离的加速器模块[1] - 专用可编程NPU需支持2000+图形运算符,但开发周期长且技术风险高,传统厂商因既有利益束缚难以转型[4][5] 行业影响 - 客户被迫承担硅片重新流片的高成本,因加速器无法适应快速演进的AI算子需求[4] - Transformer模型的出现成为技术分水岭,原有架构性能骤降,倒逼IP厂商重新评估技术路线[4][5]
中科院团队自研大模型,自动设计超强芯片
半导体行业观察· 2025-06-12 08:41
核心观点 - 提出全新处理器芯片软硬件全自动设计系统QiMeng,包含底层大型处理器芯片模型(LPCM)、中间层硬件/软件设计代理和顶层应用的三层架构 [1][9] - LPCM通过多模态架构、跨阶段协作训练和反馈驱动推理三大创新设计,解决知识表示缺口、数据稀缺、正确性保证和巨大解空间四大挑战 [10][23] - 硬件设计代理采用双循环机制实现从功能规范到物理布局的端到端自动化设计,软件设计代理实现基础软件无缝适配和性能优化 [11][39] - 已实现自动化前端设计、HDL生成等应用,其中QiMeng-CPU-v2性能达到Arm Cortex A53水平 [59][60] 技术挑战 - 制造工艺接近7纳米以下物理极限,量子隧穿和短沟道效应使传统性能扩展方法失效 [4] - 传统设计流程需要大量专业知识和验证迭代,导致开发周期长、成本高昂 [4] - RISC-V等开放指令集带来组合爆炸问题,软件生态适配复杂度呈指数级增长 [50] - 32位CPU设计解空间达10^10540量级,远超传统方法处理能力 [7] LPCM创新设计 - 多模态架构同时处理文本和AST/DFG/CFG等图数据,通过GNN编码和对比学习实现特征对齐 [26][27] - 跨阶段协作训练通过级联单阶段模型自动生成TB级跨阶段对齐数据,缓解数据稀缺问题 [28][29] - 反馈驱动推理集成功能正确性验证(准确率99.99999999999%)和性能优化双循环机制 [33][34][36] 硬件设计代理 - 外部性能优化循环通过模块分解将解空间降低4个数量级,内部验证修复循环确保功能正确性 [45][47] - 采用二进制推测图(BSD)表示电路,通过香农展开实现错误节点自动修复,验证精度渐近收敛至100% [59] - 已实现400万门规模的QiMeng-CPU-v1和1700万门超标量QiMeng-CPU-v2,后者性能达Cortex A53水平 [59][60] 软件设计代理 - 外部循环采用LLM引导的蒙特卡洛树搜索优化性能,内部循环通过SMT求解器保证功能等价 [52][53] - AutoOS方法在1天内完成Linux内核15000个配置项的优化,性能提升最高达25.6% [71] - QiMeng-Xpiler实现CUDA到国产AI芯片的程序转译,平均准确率95% [77] 应用成果 - CodeV系列模型在Verilog生成任务上pass@1达81.9%,超越GPT-4和专用开源模型 [63][69] - QiMeng-GEMM生成的矩阵乘法算子在RISC-V平台性能达OpenBLAS的2.11倍 [80] - QiMeng-Attention在NVIDIA T4平台生成的注意力算子性能为cuDNN的3.04倍 [84]
PCIe 7.0正式发布,光纤规范同步亮相,启动PCIe 8.0预研
半导体行业观察· 2025-06-12 08:41
PCIe 7.0规范发布 - PCI-SIG正式发布PCIe 7.0规范,速度达到128.0 GT/s,面向AI/ML、800G以太网、云计算和量子计算等数据驱动型应用 [1] - PCIe 8.0规范的探索工作已在进行中,以支持行业在PCIe技术生态系统中的持续投资 [1] - PCIe技术在过去二十多年一直是高带宽、低延迟IO互连的首选,PCIe 7.0延续了每三年将IO带宽翻一番的传统 [4] PCIe 7.0技术特性 - 通过x16配置提供128.0 GT/s原始比特率和高达512 GB/s的双向速率 [4] - 采用PAM4信令和基于Flit的编码 [4] - 提供更高的电源效率 [4] - 保持与前几代PCIe技术的向后兼容性 [4] - 带宽是PCIe 6.0的两倍,双向传输速度高达512 GB/s [15] PCIe技术演进 - PCIe 7.0将在2025年发布完整规范 [9] - PCIe 6.0规范于2022年发布,速度为64.0 GT/s [5] - PCIe 5.0规范于2019年发布,速度为32.0 GT/s [5] - PCIe 4.0规范于2017年发布,速度为16.0 GT/s [5] - PCIe 3.0规范于2010年发布,速度为8.0 GT/s [5] PCIe 7.0的应用优势 - 满足AI/ML、1.6T/800G以太网网络、HPC以及量子计算等数据密集型应用的巨大带宽需求 [15] - 在加速器、处理器、网卡和其他组件之间提供低延迟、低功耗且可靠的连接 [15] - 降低对AI算法中实时处理和响应能力以及HPC中高速数据处理至关重要的延迟 [15] - 保持与前几代PCIe的向后兼容性,确保与现有硬件的互操作性 [15] PCIe光纤互连解决方案 - PCI-SIG宣布推出PCIe光纤互连解决方案 [9] - "光学感知重定时器工程变更通知"(ECN)修订了PCIe 6.4和7.0规范,为通过光纤实现PCIe技术提供了首个行业标准化方法 [10] - 预计该技术将首先应用于AI/ML和云等数据中心应用 [13] - 光纤解决方案具有更低延迟和增强热管理能力等优势 [19]
印度首颗芯片,终于来了,28nm工艺
半导体行业观察· 2025-06-12 08:41
印度自主研发半导体芯片进展 - 印度首款完全本土生产的28纳米和90纳米工艺节点芯片将于2025年中期推出,标志着该国首次实现半导体制造从设计到生产的全链条突破 [1] - 印度联邦信息技术部长确认芯片已进入测试阶段,通过验证后将于2024年内开始大规模推广,产品定位为实际商用而非原型展示 [2] 技术节点定位与市场意义 - 28纳米工艺仍广泛应用于汽车电子、工业设备和低端智能手机,90纳米节点则服务于传统嵌入式系统,两者占据全球供应链关键环节 [2] - 尽管工艺落后国际领先水平(台积电/苹果已采用3纳米),但印度选择成熟节点切入市场,旨在建立基础设施并替代中国大陆/台湾供应链 [2][4] 产业生态建设与战略意图 - 美光、富士康等国际企业投资印度晶圆厂,配合政府半导体园区政策和海外人才回流,形成制造生态闭环 [3] - 计划核心目标为对冲全球芯片短缺风险,减少进口依赖,实现数字主权,而非短期技术超越 [4][5] 国家战略层面的突破 - 芯片自主化象征印度从"软件代工"转向"硬件创造",首次参与全球半导体产业规则制定权竞争 [3][5] - 28纳米芯片量产被视为基础设施、人才、政策协同发展的里程碑,为长期技术升级奠定基础 [4][5]
美光,跑赢三星海力士
半导体行业观察· 2025-06-11 09:39
核心观点 - NVIDIA委托三星、SK海力士和美光开发SoCEM内存模组,美光成为首家获得量产批准的公司,速度领先于三星和SK海力士[1] - SoCEM是由NVIDIA构思的内存模块,采用16个堆叠的LPDDR5X芯片,每4个一组,旨在为AI加速器提供辅助支持以优化性能,预计将用于NVIDIA下一代AI GPU Rubin(2026年推出)[1] - SoCEM采用引线键合技术(铜线连接16个芯片),相比HBM的垂直钻孔技术,铜的高导热性可最小化DRAM芯片发热量,美光最新低功耗DRAM功率效率比竞争对手高20%[1] 技术细节 - NVIDIA下一代AI服务器(搭载Rubin AI GPU和Vera CPU)将使用4个SoCEM模块,总计256个LPDDR5X内存芯片[2] - 美光因较晚采用EUV光刻设备,反而通过设计结构创新实现低发热技术并提升内存性能,早于三星和SK海力士供货[2] - 美光在多项技术升级中展现实力:成为三星Galaxy S25系列主要内存供应商(首次超越三星自家产品),2022年率先开发全球首款LPDDR5X并导入iPhone 15系列[2] 行业影响与布局 - 美光凭借低热量技术有望扩大HBM市占率,当前行业正推进12层堆叠HBM4(下半年量产)和16层堆叠HBM4(明年上半年推出)[3] - 美光虽进入HBM市场较晚,但依托散热管理技术和美国企业地缘优势可能快速追赶,其在新加坡、日本广岛、美国纽约及中国台湾建设HBM厂,今年资本支出达140亿美元[3]
HBM4,变贵了
半导体行业观察· 2025-06-11 09:39
HBM4生产成本上升原因 - 核心裸晶尺寸增加导致单位晶圆可产芯片数减少,I/O数量从HBM3E的1024个增至HBM4的2048个,直接扩大裸晶尺寸[2][3] - 基础裸晶转由晶圆代工厂生产,存储企业不再使用自家DRAM工艺,代工成本更高[4] - 制程复杂度提升,三星采用10nm第六代DRAM(1c DRAM),虽单位晶圆产出量略增,但制造成本高于上一代[3] 厂商技术差异与竞争格局 - 三星HBM4单位晶圆芯片数预计上升,因采用更先进的10nm第六代DRAM(1c DRAM),而SK海力士和美光沿用第五代(1b DRAM)[3] - 美光打破SK海力士对英伟达的HBM独占供应,其月产能从2023年底2万片增至2024年底6万片,加剧行业竞争[1][3] - SK海力士与台积电合作基础裸晶代工,仅外包后段布线工艺(BEOL),三星则使用自家代工厂[4] HBM4价格与行业趋势 - HBM4 12层堆叠产品价格预计超600美元,较HBM3 8层(200美元出头)和HBM3E 8层(300美元后段)显著上涨[3] - AI芯片公司(英伟达、AMD、微软)要求基础裸晶定制化,推动3D HBM等新型态产品开发[4] - 存储厂商难以完全转嫁成本上涨,因美光扩产加剧价格竞争,行业利润空间可能压缩[1][3]
恩智浦,抛弃8英寸
半导体行业观察· 2025-06-11 09:39
公司战略调整 - NXP将关闭荷兰奈梅亨工厂和美国三家工厂 预计关闭过程将持续数年[1] - 关闭计划尚未确定具体时间表 但公司认为这一决定"合乎逻辑"[1] - 生产将转移至德累斯顿和新加坡的新工厂 采用12英寸晶圆技术 产量是现有8英寸工厂的两倍[1][4] 新工厂规划 - 德累斯顿和新加坡工厂预计2027年投入运营 采用合资模式降低风险[2][4] - 新工厂将降低固定成本和生产成本 提高利润率[2] - 整个迁移过程预计耗时十年 旧工厂将彻底关闭[4] 奈梅亨工厂现状 - 工厂主要生产车用芯片 产品应用于全球大多数汽车[4] - 拥有1700名来自50多个国家的员工 被称为欧洲最大芯片制造基地之一[4] - 2023年因行业低迷裁员12人 但获得10亿欧元欧盟贷款用于新一代芯片研发[4] 行业背景 - 8英寸晶圆工厂被淘汰是行业趋势 12英寸技术成为新标准[1][2] - 荷兰奈梅亨工厂自1988年运营 被预计最迟2037年关闭[6] - 行业分析师认为荷兰并非新建先进工厂的理想地点[6]
苹果和英特尔,彻底分手!
半导体行业观察· 2025-06-11 09:39
苹果终止英特尔芯片支持 - 公司确认macOS 26 Tahoe将是最后一个支持英特尔芯片的版本,标志着双方20年合作关系的终结 [2] - 过渡期原计划两年但实际延长至2023年,部分英特尔机型如2019款Mac Pro和2018款Mac Mini持续销售 [4] - 基于Arm架构的Apple Silicon芯片在能效比方面表现更优,促使公司2020年宣布转型 [3] 技术路线转型背景 - 移动设备兴起推动行业重视性能功耗比,数据中心运营商如谷歌开始关注该指标 [2] - Arm架构硬件在每瓦性能指标上超越x86架构,被研究数据证实 [3] - 英特尔因战略失误未能有效应对移动市场和GPU市场竞争,导致前CEO于2024年离职 [4] 过渡期安排 - 2006年公司开始采用英特尔处理器,首款产品为搭载酷睿双核的MacBook Pro [2] - 安全更新将持续提供至2028年末,保障现有英特尔硬件用户权益 [5] - 开发者关系高管表示将集中资源投入Apple Silicon创新 [2]
日本2nm,再获大投资
半导体行业观察· 2025-06-11 09:39
本田投资Rapidus的战略布局 - 本田汽车正考虑在2025财年下半年投资日本芯片制造商Rapidus 投资金额预计达数十亿日元[1] - Rapidus主要股东包括丰田汽车 NTT和索尼集团 现有股东已合计投资73亿日元(约5040万美元)[1] - 本田计划通过投资确保在日本本土的半导体供应 同时支持Rapidus量产尖端芯片并拓展客户[1] Rapidus的技术与资金需求 - Rapidus正在研发2纳米节点尖端半导体 与台积电技术路线相同[1] - 公司计划2027年开始量产 但需要筹集5万亿日元资金[2] - 日本经济产业省已决定注资1.72万亿日元 Rapidus仍需筹集超过3万亿日元[2] 本田的半导体战略 - 本田计划自主开发自动驾驶汽车芯片 但将委托外部代工厂生产[1] - 2023年本田已与台积电签署战略合作协议 采购汽车芯片[1] - 与Rapidus合作可降低地缘政治风险 避免台海紧张局势影响供应链[1]
下一代先进封装,终于来了?
半导体行业观察· 2025-06-11 09:39
台积电CoPoS封装技术进展 - 公司预计2026年设立首条CoPoS实验线并引入采钰 大规模量产厂选址嘉义AP7 目标2028年底至2029年实现量产 首家客户为英伟达 [1] - CoPoS技术采用310x310毫米方形设计 相比传统圆形可增加主轴空间利用率 降低成本 主要锁定AI等高端应用 其中CoWoS-R制程服务博通 CoWoS-L服务英伟达及AMD [1] - 嘉义AP7规划八个阶段 P4厂将用于CoPoS大规模量产 P1厂为苹果WMCM专用基地 P2/P3厂优先补充SoIC产能 [2] 先进封装技术整合布局 - 公司强化多种技术整合 2纳米以下HPC芯片将采用SoIC+CoWoS/CoPoS/InFo混搭方案 如AMD已采用SoIC+CoWoS组合 [2] - AP7因腹地更大且厂房完善 成为WMCM/SoIC/CoPoS等新技术量产据点 而CoWoS产能集中在南科AP8(原群创旧厂改建) [2] 量产时间表与客户规划 - 2025年中旬启动实验线设备进机 2027年进入小批量生产 2028年完成制程验证 2028年底后正式大规模量产 终端产品将由英伟达率先推出 [2] - 采钰实验线侧重光学技术整合 未来可能结合硅光与CPO技术趋势 但量产核心仍在嘉义AP7 [1][2]