半导体行业观察

搜索文档
陈立武重整英特尔高管团队
半导体行业观察· 2025-06-19 08:50
公众号记得加星标⭐️,第一时间看推送不会错过。 来源:内容 编译自 nextplatform 。 距离新任首席执行官陈立武 (Lip-Bu Tan) 在英特尔 2025 愿景活动上发表主题演讲已经过去了两个 半月,而在过去几十年里,英特尔按照自己的标准来说一直比较平静,因为陈立武正在摸索形势,试 图规划公司重建代工业务、重新定位和集中芯片设计和销售业务的路线。 陈立武是一位工程师——尽管他是一位核工程师,但如果你稍微思考一下核裂变和核聚变,或许他更 适合这个称号——他承诺将带领英特尔重拾其工程根基。过去十年,英特尔经历了数波市场营销和销 售人员的洗牌,最终误入歧途。英特尔并不介意代工厂的运营,尽管代工厂一度落后于台积电,这令 人尴尬——如果英特尔运气不好的话——将是永久性的。修复英特尔或许是目前整个科技市场面临的 最大工程挑战,但正如陈立武在四月份所解释的那样,他之所以这么做,是因为他钦佩并热爱这家历 史悠久的公司。 这意味着明确使命并安排合适的人员来完成该使命。 谢尔是英特尔最有活力的高管之一,但他并非工程师。谢尔拥有法国诺玛商学院和德国罗伊特林根高 等商学院的工商管理学位。他在惠普担任过多个打印机和个人电 ...
华为CloudMatrix384超节点:官方撰文深度解读
半导体行业观察· 2025-06-18 09:26
华为CloudMatrix384超节点发布 - 华为在2025华为云生态大会上推出CloudMatrix 384超节点,面向AI时代海量算力需求,基于"一切可池化、一切皆对等、一切可组合"的新型高速互联总线设计 [1] - 该架构实现从服务器级到矩阵级的资源供给模式转变,具备"高密、高速、高效"特点,在算力、互联带宽、内存带宽等方面全面领先 [2] - 架构突破传统分层设计,通过统一总线(UB)实现全节点直接通信,支持计算、内存和网络资源动态池化与独立扩展 [3] 架构核心特性 - 集成384个昇腾910C NPU和192个鲲鹏CPU,通过UB网络实现点对点全互联,节点间带宽衰减<3%,延迟增加<1µs [10] - 提供四项基础功能:1)支持TP/EP的可扩展通信 2)灵活的异构工作负载资源组合 3)统一的融合工作负载基础架构 4)通过分解式内存池实现内存级存储 [7][8] - 包含三个网络平面:UB平面(392GB/s单向带宽)、RDMA平面(400Gbps)、VPC平面(400Gbps),分别处理纵向扩展、横向扩展和外部连接 [12][14][16] 硬件配置细节 - 昇腾910C NPU采用双芯片封装,每封装提供752 TFLOPS BF16/FP16算力,128GB封装内内存,3.2TB/s内存带宽 [17][18] - 每个计算节点集成8个NPU+4个CPU+7个UB交换芯片,节点内UB带宽达392GB/s,RDMA带宽总计3.2Tbps [22] - 超级节点横跨16个机架(12计算+4通信),采用无阻塞双层UB交换拓扑,L2交换机分为7个子平面保持全系统无阻塞 [24][26] 软件生态系统 - CANN软件栈包含驱动层、运行时层和库层,实现与PyTorch/TensorFlow/MindSpore等框架的无缝集成,功能对标NVIDIA CUDA [27][28][30][33] - 云基础设施软件包括MatrixResource(资源管理)、MatrixLink(网络服务)、MatrixCompute(生命周期协调)和MatrixContainer(Kubernetes容器服务) [35][37] - ModelArts提供端到端AI平台服务,包含Lite(裸机访问)、Standard(完整MLOps)和Studio(MaaS)三个层级 [37] 性能表现与未来方向 - 在DeepSeek-R1模型测试中实现预填充6,688 tokens/NPU/秒和解码1,943 tokens/NPU/秒的吞吐量,延迟<50ms [57] - 未来演进方向包括:1)统一VPC和RDMA平面 2)扩展超级节点规模 3)实现CPU物理分解与池化 4)推进组件级微服务架构 [41][43][48][50] - 研究表明384 NPU配置可实现94%分配率,比224 NPU配置提升3个百分点,交换机利用率达100%且单位成本不变 [44][45]
兆芯IPO,募资42亿
半导体行业观察· 2025-06-18 09:26
公众号记得加星标⭐️,第一时间看推送不会错过。 来源:内容来自半导体行业观察综合 。 据说明书介绍,CPU 是构建信息系统安全防护体系的起点和根基,与网络信息安全存在着 不可分割 的紧密联系。目前,我国 CPU 芯片自给率仍处于较低水平,自主研发安全可靠的 CPU 对我国信息产业至 关重要。 公司全面掌握 CPU 芯片设计研发全环节的关键核心技术,成功实现自主指令集拓展与内核微架构设 计、自主互连架构设计、自主 IP 设计、自主设计方法、自主测试验证体系及自主知识产权体系六大 自主创新突破,建立了可自主迭代发展、成熟完备的 CPU 技术体系,核心技术的全面自主可以有效 避免"漏洞"、"后门"等潜在风险。 同时,公司自主通用处理器产品支持安全启动技术、可信计算和密钥管理等安全机制,并自主定义 GMI 国密算法的指令集在 CPU 硬件中实现 SM2、SM3、SM4 国密算法,保障了程序和数据的完整 性、机密性和可用性,为国家信息技术产业创新与发展提供安全保障。 报告期内,公司营业收入分别为 34,004.41 万元、55,512.82 万元和 88,921.52万元,营收快速增 长。主要原因为随着下游市场需求逐步 ...
重磅!泰瑞达与昂科技术达成战略合作,共握中国存储测试产业新变量
半导体行业观察· 2025-06-18 09:26
行业背景 - AI、5G、IoT、汽车芯片等行业快速发展推动半导体设计、开发和测试进入关键时期 [2] - 半导体产业格局正经历重大结构调整,先进封装和异构集成技术对测试资源、方法和设备提出更高要求 [2] 合作内容 - 泰瑞达与昂科技术签署战略合作协议,共同为中国存储半导体产业链提供快速、完整且具成本效益的测试解决方案 [1][2] - 合作覆盖存储芯片设计、制造、封装测试到模块生产全流程,满足中国客户全方位需求 [2] - 泰瑞达通过昂科扩展直销团队服务范围,全面覆盖不同规模客户需求 [2] - 昂科构建芯片测试全周期产品和服务,覆盖PSV、CP、FT、SLT、BI至Programming全系列解决方案 [2] 技术优势 - 泰瑞达Magnum测试平台作为单一平台覆盖所有存储测试需求,具备更高同测数量、更短测试时间、更高测试精度和更低生产成本 [3] - 昂科技术开发的V系列全球首个全自动老化测试机(Auto Burn-In)和堆栈式SLT产品提升客户老化测试和系统级测试效率与覆盖率 [5] - 双方通过ATE与ABI、SLT测试方案协同,解决客户在技术、成本、质量上的痛点 [5] 合作意义 - 合作整合双方在测试设备、接口技术、本地化服务与市场覆盖方面的专长,为客户提供更快速响应、更完整覆盖、更具成本效益的完整测试方案 [3] - 合作助力中国存储产业客户提升核心竞争力,或将成为半导体测试领域跨国协作典范 [7] - 双方将携手推动存储测试技术革新,助力全球半导体产业发展 [7]
DDR 4价格,两天暴涨12%
半导体行业观察· 2025-06-18 09:26
DDR4现货价格暴涨 - DDR4 16Gb(1G×16)3200现货价单日上涨6.32%,均价达9.25美元,DDR4 4Gb(512M×16)单日暴涨8.77% [1] - 本周仅两个交易日,DDR4 16Gb和8Gb规格分别累计上涨12.8%和16.13% [3] - 近三个交易日DDR4现货价累计涨幅达20%,部分PC DDR4产品价格调涨超50% [2][3] 价格上涨驱动因素 - 国际大厂退出DDR4生产,南亚科暂停报价,引发市场追价买盘 [2] - 客户因安全库存恐慌性追货,导致需求激增,渠道厂商强势拉涨报价 [3] - 三星、美光将陆续停供DDR4,OEM/ODM厂大举扫货巩固货源 [4] 价格趋势与行业动态 - 6月以来DDR4 8Gb(1G×8)3200现货价从2.73美元涨至3.775美元,涨幅38.27%,本季累计涨幅达132% [4] - 行业呈现"追涨不追跌"现象,惜售情绪加剧市场紧张,涨势或延续至年底 [2][3] - DDR4现货价已超过厂商损益平衡点,技术改进与折旧降低推动盈利能力提升 [4]
ADI成立投资基金,投向三大关键领域
半导体行业观察· 2025-06-18 09:26
企业风险投资基金ADVentures的推出 - ADI公司宣布推出首个企业风险投资基金ADVentures(ADV),专注于投资早期初创企业 [2][3] - 该基金将重点投资三大领域:先进系统与机器人、气候与能源以及人类健康 [2][3] - 其他关注领域包括新型传感模式、计算架构、安全连接和人工智能 [2][3] 基金的战略定位与目标 - ADV将依托ADI公司在模拟、数字、软件和人工智能技术领域60年的经验 [3] - 基金旨在加速应对全球最棘手、最复杂挑战的变革性解决方案 [2][3] - ADV渴望与符合其投资重点的初创公司合作,并让它们受益于ADI的专业知识和全球生态系统 [4] 基金的管理与领导 - ADVentures将由Kimberly Blakemore领导,她曾担任ADI公司气候技术战略总监 [2][3] - 这是ADI公司首个全公司范围的企业风险投资项目 [3] 行业背景与公司战略 - ADI公司是全球半导体制造领域的领导者 [2][3] - 该基金的推出体现了公司加速全球创新生态系统发现与协作的战略雄心 [3]
首款超高性价比的事件相机ALPIX-Maloja问世,锐思智芯打造全新架构的低功耗端侧AI视觉系统基座
半导体行业观察· 2025-06-18 09:26
产品发布 - 锐思智芯推出全新事件传感器ALPIX-Maloja,搭载IN-PULSE DiADC架构,具备低功耗、低延时、低算力消耗和隐私保护特性,同时具有同类产品中最具性价比优势 [1] - 该产品适用于智慧家电、AON感知、智能硬件、实时看护等端侧视觉人工智能领域 [1] - 产品分辨率256×256,像素尺寸20μm×20μm,光学格式1/4",帧率1000fps,动态范围120dB,功耗<4mW@1000FPS [4] 技术优势 - 采用IN-PULSE DiADC架构,将感、存、算集成在单个像素单元内,实现紧凑结构、低功耗和稳定性提升 [9] - 具备纯事件相机基础优点:超低工作功耗<4mW@1000fps,支持AON应用;低照度下保持灵敏;无惧复杂光线环境;冗余数据量仅为传统图像传感器的10-20% [4][6][8] - 较大像素尺寸带来高量子效率,提升信噪比和灵敏度,降低串扰和噪声,减少对降噪算法的依赖 [9] 应用场景 - 消费电子设备:实现手势识别、位姿检测,提升人机交互体验 [12] - 康养看护设备:用于摔倒检测、位姿检测等场景,提供低侵入、高隐私保护方案 [14] - 智慧家电:实现存在感知、无触控制等功能,提供差异化解决方案 [15] - 智能硬件:为宠物设备等提供低功耗运动检测方案 [17] - 智慧商业与交通:用于人数统计等场景,具有隐私保护优势 [19] - AON感知:支持超低功耗始终在线监测系统 [20] 公司背景 - 锐思智芯是领先的融合视觉传感器研发商,基于Hybrid Vision Sensing技术开发ALPIX系列芯片 [22] - 公司为手机/消费电子、机器人/汽车、安防/端侧设备提供多模态融合视觉AI方案 [22] - 产品已开放客户送样,可通过官方渠道联系 [22]
AI芯片功耗狂飙,冷却让人头疼
半导体行业观察· 2025-06-18 09:26
AI GPU功耗趋势 - AI GPU功耗持续上升,Nvidia下一代GPU热设计功耗(TDP)预计达6,000-9,000W,KAIST预测未来10年将飙升至15,360W [1] - 高性能风冷系统已无法满足需求,Blackwell TDP达1,200W,Blackwell Ultra达1,400W需液冷方案 [3] - Rubin TDP将达1,800W,Rubin Ultra因GPU芯片和HBM模块数量翻倍TDP飙升至3,600W [3] 冷却技术演进 - Blackwell Ultra采用直接芯片(D2C)液冷技术,Feynman需更强大冷却方案 [3] - Feynman TDP达4,400W,Feynman Ultra达6,000W需浸入式冷却技术 [4] - 后Feynman时代GPU TDP将达5,920W(后Feynman)和9,000W(后Feynman Ultra) [5] - 2035年AI GPU功耗或达15,360W需嵌入式冷却结构,采用热传输线(TTL)和流体硅通孔(F-TSV) [11] 技术规格发展 - GPU Die尺寸从Rubin的728mm²缩减至下一代架构的600mm²,但单Die功耗从800W增至1,200W [12] - HBM堆栈数量从Rubin的8个增至后Feynman的16个,下一代架构达32个 [12] - 总带宽从Rubin的16/32TB/s跃升至下一代架构的1,024TB/s [12] - HBM容量从Rubin的288/384GB增至下一代架构的5,120/6,144GB [12] - HBM6单堆栈功耗达120W,16个堆栈总功耗约2,000W占模块总功耗三分之一 [11] 封装技术演进 - 中介层尺寸从Rubin的46.2mm增至下一代架构的96.4mm [12] - GPU Die数量从Rubin的2个增至下一代架构的8个 [12] - 中介层Die面积从Rubin的2,194mm²增至下一代架构的9,245mm² [12]
万字解读AMD的CDNA 4 架构
半导体行业观察· 2025-06-18 09:26
AMD CDNA 4架构核心升级 - CDNA 4是AMD最新面向计算的GPU架构,专注于提升低精度数据类型下的矩阵乘法性能,这对机器学习工作负载至关重要[2] - 架构采用与CDNA 3相同的大规模芯片组设计,包含8个加速器计算芯片(XCD)和4个基础芯片,通过Infinity Fabric技术实现一致内存访问[4] - 相比CDNA 3的MI300X,CDNA 4的MI355X减少了每个XCD的CU数量但提高了时钟速度,整体性能差距不大[5] 性能参数对比 - MI355X采用TSMC N3P工艺(计算芯片)和6nm工艺(基础芯片),时钟速度2.4GHz,比MI300X的2.1GHz和Nvidia B200的1.965GHz更高[5] - MI355X配备8个HBM3E堆栈,提供288GB内存和8TB/s带宽,优于MI300X的192GB/5.3TB/s和B200的180GB/7.7TB/s[5] - 在FP6精度下,CDNA 4的每CU矩阵吞吐量与B200 SM相当,但在16位和8位数据类型上B200仍保持优势[6] 计算单元改进 - CDNA 4重新平衡执行单元,专注于低精度矩阵乘法,许多情况下每CU矩阵吞吐量翻倍[6] - 矢量运算方面,CDNA 4保持MI300X的优势,每个CU有128条FP32通道,每周期提供256 FLOPS[8] - LDS(本地数据共享)容量从CDNA 3的64KB提升至160KB,读取带宽翻倍至每时钟256字节[14][15] 系统架构优化 - MI355X升级使用HBM3E内存,计算带宽比提升至每FP32 FLOP 0.05字节,优于MI300X的0.03字节[25] - 二级缓存新增"回写脏数据并保留行副本"功能,优化内存子系统带宽使用[20] - 架构采用两个IOD(输入输出芯片)而非上代的四个,简化了Infinity Fabric网络,延迟降低14%[52] 产品规格与性能 - MI355X GPU提供1400W直接液冷版本,FP8稀疏计算峰值达10PFLOPS,FP6/FP4达20PFLOPS[74] - 相比MI300X,MI355X在FP16/BF16矩阵运算性能提升1.9倍,FP8/INT8提升1.9倍,并新增FP6/FP4支持[47] - 内存分区支持NPS1(全内存交错)和NPS2(144GB分池)两种模式,后者可减少跨IOD通信开销[60][61] 软件生态系统 - ROCm软件堆栈支持Kubernetes编排,提供PyTorch和JAX等框架优化[70] - 针对生成式AI优化了vLLM和SGLang等推理框架,提供Llama系列等流行模型的Day 0支持[72] - 包含分布式训练框架如Maxtext(JAX)和Megatron LM(PyTorch),支持Flash Attention v3等关键技术[71]
半导体行业,女性太少了
半导体行业观察· 2025-06-17 09:34
半导体行业女性从业现状 - 51%的公司报告其技术职位中女性占比低于20% [1] - 2024年公开承诺实施平等机会措施的公司数量同比减少 [1] - 半导体行业女性比例发展速度显著落后于其他STEM密集型行业 [2] 劳动力短缺与结构性问题 - 半导体行业面临地缘政治和经济因素导致的供应链回流压力 需填补基础设施缺口包括劳动力 [3] - 美国STEM毕业生培养速度不及中国和印度 企业内部劳动力挑战应对不足 [3] - 行业政策过时(如儿童保育)和企业文化问题加剧人才流失 [3][7] 人才流失关键节点 - 女性从中学阶段开始对STEM兴趣减弱 早期职业阶段流失最严重(高等教育到职场过渡期) [5] - 早期职业生涯决定成败 女性离职率显著高于男性 [6] - 行业减少对女性支持项目 与扩大人才库的需求背道而驰 [7] 企业改进方向 - 需将DEI(多元化、公平与包容)转向实质人才管理 降低人员流失成本 [7] - 应建立学徒制、轮岗计划和领导力发展等早期职业支持体系 [10] - 改善直属管理关系可提升留任率 需自上而下推动文化变革 [11] 跨行业经验借鉴 - 其他行业通过资源倾斜(如对年轻人才投资)实现人才保留 [9] - 工程师轮岗计划等实践被证实对职业发展有长期价值 [10]