Workflow
半导体行业观察
icon
搜索文档
三星将自研GPU
半导体行业观察· 2025-12-26 09:57
GPU大致可分为服务器用GPU(用于AI数据中心)、桌面用GPU(用于PC)和移动用GPU(用于智 能手机)。英伟达在服务器用GPU市场占据主导地位,市场份额约为90%,而苹果、高通和其他厂商 则在包括智能手机在内的移动GPU市场占据主导地位。 三星之所以力推GPU自研,是因为它认为通用GPU无法充分发挥三星IT产品(例如Galaxy系列)的 AI功能。虽然通用GPU性能出色,但它们必须跨多个品牌和设备运行,难以针对三星软件进行优 化。由于其功能需要处理多种任务,芯片在运行过程中功耗过高,计算能力也会下降。 公众号记得加星标⭐️,第一时间看推送不会错过。 三星电子将于2027年发布Exynos 2800(暂定名),这是一款搭载自研图形处理器(GPU)的应用处 理器(AP)。GPU负责图形处理和人工智能(AI)计算,被认为是决定AI手机等设备性能的关键半 导体元件。继在存储器和晶圆代工领域取得成功之后,三星半导体在芯片设计方面也开始崭露头角。 据 业 内 人 士 25 日 透 露 , 三 星 电 子 系 统 LSI 事 业 部 已 制 定 政 策 , 计 划 将 基 于 其 自 主 研 发 的 " 基 础 蓝 ...
传华硕有意进军DRAM
半导体行业观察· 2025-12-26 09:57
公众号记得加星标⭐️,第一时间看推送不会错过。 据传华硕将于 2026 年进军 DRAM 制造领域,这将确保其 PC 产品线拥有稳定的内存供应。 当前的内存危机已经影响到个人电脑行业的方方面面,而个人电脑制造商对此却束手无策。大多数制 造商已经提高了产品价格,而内存短缺将导致未来几年产品交付延迟。 但 看 来 , 一 家 大 型 PC 制 造 商 正 计 划 进 军 DRAM 市 场 , 以 应 对 内 存 短 缺 问 题 。 据 波 斯 科 技 媒 体 Sakhtafzarmag爆料,华硕计划大规模进军DRAM市场,最早可能在2026年实现。这家媒体此前曾准 确爆料过AMD和英特尔的CPU相关信息。不过,我们建议读者对此消息持保留态度。 回到之前的传闻,据称如果内存价格和供应无法恢复正常,华硕计划在2026年第二季度末之前建立专 门的DRAM生产线。目前的报告预测,内存短缺将持续到2027年底,甚至可能延续到2028年。华硕 作 为 全 球 最 大 的 PC 厂 商 之 一 , 确 实 有 能 力 进 入 DRAM 市 场 , 但 即 便 如 此 , 为 他 们 专 门 建 立 一 座 DRAM生产工厂对他 ...
摩尔线程:五年“长考”,筑起全功能算力的硬核长城
半导体行业观察· 2025-12-26 09:57
文章核心观点 - 国产GPU厂商摩尔线程正通过构建软硬深度融合的统一架构MUSA和繁荣的开发者生态,以突破长期由英伟达CUDA主导的行业壁垒,其战略核心是打造“全功能GPU”作为通用算力底座,并已取得显著的技术与生态进展 [1][3][12] MUSA统一系统架构 - MUSA是摩尔线程自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架的全栈技术体系,而不仅仅是一个软件包 [4][5][6] - MUSA定义了从芯片设计到软件生态的统一技术标准,是类似于Android或Windows的平台,所有公司软硬件产品均基于此架构 [8] - MUSA 5.0软件栈全面升级,实现了对全功能GPU四大引擎的深度适配,为AI训练、3D图形渲染到科学计算等全场景应用提供统一技术底座 [35][36][37] - MUSA 5.0的核心竞争力在于“无边界”适配能力,完美兼容国际主流与国产CPU操作系统及开发环境,计划于明年上半年规模化落地 [37] 全功能GPU战略 - 公司坚持“全功能GPU”路线,旨在打造一个能同时实现图形图像处理、AI张量计算、物理仿真和超高清视频编解码等多种任务协同处理的“万能算力底座” [9][12] - 全功能GPU的优势在于“图算结合”,能够跨域支持多模态未来对AI计算、图形渲染和视频传输的多样化需求,无论计算范式如何变迁都能保持灵活性 [14][15] - 全功能GPU不仅面向AI模型训练和智算中心,也能支撑游戏图形、视频渲染等大众级应用场景,具备高度通用性与生态承载力 [12] 芯片架构与产品进展 - 公司自2022年起保持每年发布一代新架构的节奏,五年推出五代架构,最新一代为“花港”架构 [16][17] - “花港”架构基于新一代指令集,算力密度提升50%,计算能效实现10倍提升,新增MTFP6/MTFP4及混合低精度端到端加速技术 [19] - “花港”架构提供新一代异步编程模型加速技术,并集成自研高速互联MTLink技术,可支持十万卡以上规模智算集群 [19] - 基于“花港”架构,公司正在研发两款GPU芯片:“华山”和“庐山” [23] - “华山”是AI训推一体芯片,对标国外顶尖产品,集成新一代Tensor Core、专为LLM定制的加速引擎及ACE2.0异步通信引擎,支持超十万卡级别的“AI工厂”技术 [24][25][27] - “庐山”是高性能图形渲染芯片,与S80相比,3A游戏性能提升15倍,AI计算性能提升64倍,几何处理性能提升16倍,并内置AI生成式渲染功能 [28][30] 大规模集群与AI工厂 - 公司推出超十万卡级AI工厂技术,突破了传统GPU集群瓶颈,支持Scale-up系统可扩展至1024个GPU [32][34] - 新一代MTLink 4.0技术支持多种协议兼容,具备1314 GB/s的片间互联带宽 [34] - 通过ACE 2.0异步通信引擎、RAS 2.0容错能力及MTT C256超节点解决方案,确保超大规模集群的高效、稳定与高可用性 [34] 开发者生态建设 - 公司认识到开发者生态是决定芯片厂商生死存亡的关键,正致力于解决迁移成本高、工具链不成熟等痛点,目标是让国产GPU从“能用”到“好用”再到“愿意用” [45][46] - MUSA软件栈的策略是先对齐主流生态的使用习惯,降低开发者学习与迁移成本,同时通过AIBOOK等工具降低生态参与门槛 [47] - 为发挥底层架构创新,公司提出两条路径:一是通过高层抽象的DSL/编译技术将硬件优势显性化;二是与开发者及平台伙伴深度协作进行生态共建 [49][51] - 生态共建已见成效,例如与硅基流动对MTT S5000深度优化后,在DeepSeek 671B全量模型推理中,单卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s [51] 具身智能新赛道 - 公司入局具身智能领域,发布仿真训练平台MT Lambda,整合物理、渲染与AI三大核心引擎,提供从场景构建到仿真训练的高效工作流 [38][39] - 公司首颗AI SoC芯片“长江”正式亮相,集成了CPU、GPU、NPU、VPU、DPU、DSP和ISP等多维算力核心,为边缘侧提供强悍计算内核 [39] - 公司推出完整解决方案MT Robot,通过KUAE智算集群作为“云端大脑”和内置“长江”芯片的MTT E300模组作为“端侧小脑”,实现从虚拟训练到物理落地的全栈路径 [42][43] 公司技术积累与投入 - 过去五年,公司已推出5颗芯片,研发投入超43亿元,研发人员占比高达77%,活跃开发者生态超20万 [3] - 截至今年6月30日,公司已申请专利1000余件,其中授权专利500余件,发明专利468件,专利数量在国内GPU企业中领先 [21] - “花港”架构集成了自研的4层安全架构(安全域、信任域、保护域和功能域),为芯片提供安全守护 [21]
AMD Strix Halo对线Nvidia DGX Spark,谁最强?
半导体行业观察· 2025-12-26 09:57
文章核心观点 文章对英伟达DGX Spark与基于AMD Strix Halo的惠普Z2 Mini G1a两款AI迷你工作站进行了全面的性能对比与评估,旨在为不同需求的用户提供选购参考[1][53][54] 核心结论是:选择取决于用户需求是“一台专门的AI机器”还是“一台能胜任大多数AI工作的通用PC”[54] 对于主要关注单批次LLM推理、需要运行Windows/Linux以及玩游戏的用户,基于AMD Strix Halo的惠普Z2 Mini G1a是更具性价比和灵活性的选择[55][57] 对于专注于原型代理、模型微调或图像/视频生成等高性能AI工作负载的用户,尽管价格更高,但英伟达DGX Spark凭借其2-3倍的性能优势和更成熟的软件生态,是更专业的“开箱即用的AI实验室”[57] 产品定位与价格 - **产品定位**:DGX Spark被设计为开箱即用的AI实验室,专注于多节点AI计算环境[10][57];惠普Z2 Mini G1a则是一款能够流畅运行Windows/Linux和游戏的通用PC,同时能处理大多数AI工作负载[52][57] - **官方售价**:DGX Spark建议零售价为3,999美元,惠普Z2 Mini G1a的测试配置零售价约为2,949美元[12] - **市场价格弹性**:两款系统均有更便宜的OEM或简化配置版本,例如128GB Strix Halo系统价格可略高于2000美元,而1TB存储的Spark OEM版本起价约为3000美元[13] 设计与硬件配置 - **外观与设计**:Spark采用全金属机身,体积更小(150mm x 150mm x 50.5mm),重量1.2kg,设计更精致[4][12];G1a机箱更大(85mm x 168mm x 200mm),重量2.3kg,外壳为塑料但内部为金属机箱,维护更方便[4][5][12] - **核心平台**:Spark基于英伟达Grace Blackwell (GB10)超级芯片[11];G1a基于AMD Ryzen AI Max+ Pro 395 (Strix Halo) APU[11] - **计算单元**:Spark拥有6,144个CUDA核心、192个第五代Tensor核心和48个第四代RT核心[11];G1a的GPU(Radeon 8060S)拥有2,560个流处理器和40个计算单元[11] - **内存与存储**:两款系统均配备128 GB LPDDR5x内存,Spark内存带宽为273 GB/s,G1a为256 GB/s[11][26];Spark配备4 TB NVMe存储,G1a配备2个1 TB M.2 NVMe SSD[11] - **I/O与连接**:Spark优先高速网络,配备1个10GbE端口和2个总计200Gbps的QSFP端口用于集群[10][12];G1a提供更丰富的通用接口,包括2个40 Gbps Thunderbolt 4端口、1个2.5 GbE端口和多个USB端口,并支持HP Flex IO模块扩展[9][12] CPU性能 - **CPU架构**:G1a采用16个Zen 5核心,频率最高5.1GHz[11][15];Spark采用20核Arm CPU(10个X925性能核心+10个A725能效核心)[11][15] - **性能表现**:在Sysbench、7zip和HandBrake等测试中,G1a的CPU性能比Spark高出10%到15%[15];在Linpack高性能计算基准测试中,G1a的双精度浮点性能达到1.6 teraFLOPS,是Spark(708 gigaFLOPS)的两倍多[16] GenAI理论性能与内存带宽 - **理论峰值性能**:Spark宣称AI算力可达1 petaFLOPS(稀疏FP4),但实际稠密FP8/FP16峰值性能约为250/125 teraFLOPS,实测BF16下为101 teraFLOPS,FP8下为207 teraFLOPS[18];Strix Halo平台宣称总性能为126 TOPS,其中NPU占50 TOPS,GPU估计峰值性能约为56 teraFLOPS(稠密BF16/FP16),实测达到理论值的82%,约46 teraFLOPS[19] - **性能优势比较**:理论上,Spark在原始AI算力上比Strix Halo具有2.2至9倍的优势[20] - **内存带宽**:Spark内存带宽为273 GB/s,G1a为256 GB/s,两者差距不大[11][26] LLM推理性能 - **单批次/单用户推理**:在Llama.cpp测试中,两款系统生成令牌的速度相近,G1a在使用Vulkan后端时略有优势[24][26];但在处理提示(首次输入时间)时,Spark的GPU速度是G1a的2-3倍,对于长序列或大型文档输入,Spark优势更明显[27] - **多批次推理**:在使用vLLM处理大批量任务(1-64批次)时,Spark凭借更强的GPU,在吞吐量和完成时间上均超越G1a[29][31] 模型微调性能 - **内存适应性**:两款128GB内存的系统都适合进行模型微调,包括使用LoRA/QLoRA技术[34] - **性能对比**:在对Llama 3.2 3B进行完整微调时,Spark的完成时间约为G1a的三分之二[36];在对Llama 3.1 70B使用QLoRA微调时,Spark耗时约20分钟,G1a耗时超过50分钟[38] - **适用场景**:对于不频繁进行的微调任务,Spark的性能优势可能不足以抵消其更高的价格[38] 图像生成性能 - **性能差距**:在ComfyUI中运行FLUX.1 Dev图像生成模型时,Spark的BF16性能约为120-125 teraFLOPS,是G1a(约46 teraFLOPS)的2.5倍左右[42] - **结论**:图像生成不是Strix Halo系统的强项[42] NPU性能与应用 - **硬件配置**:Strix Halo集成了XDNA 2 NPU,提供50 TOPS的额外AI算力[11][44] - **软件生态**:NPU的软件支持有限,主要用于音频/视频降噪等低功耗场景[44];在LLM推理上,纯NPU运行Mistral 7B仅4-5 tok/s,远低于预期[44];解耦推理(NPU处理提示,GPU处理解码)性能有提升,但仍不及纯GPU[45] - **特定优势**:在Amuse软件中运行Stable Diffusion 3模型时,NPU性能优于GPU,能在1分多钟生成1024x1024图像,而GPU需要约两倍时间[46][48] 软件与生态系统 - **英伟达优势**:Spark拥有基于CUDA的成熟、活跃的软件生态,几乎所有CUDA软件都能无缝运行[48][57] - **AMD进展**:AMD的ROCm和HIP软件栈已取得显著进展,许多PyTorch脚本无需修改即可运行,但体验仍不如CUDA流畅[48][49];部分软件(如vLLM、Llama.cpp)仍需从源码编译或使用特定分支[49] - **硬件限制**:Strix Halo基于较老的RDNA 3.5架构,不支持Spark Blackwell GPU提供的许多低精度数据类型(如FP4、FP8),经常被迫以16位精度运行模型[50] 游戏与其他工作负载 - **游戏兼容性**:G1a能流畅运行《孤岛危机:重制版》等游戏,在1440p中等画质下可达90-100帧[52];Spark基于Arm CPU,运行x86游戏需借助FEX等工具,过程更复杂,但最终也能流畅运行[52] - **通用性结论**:对于同时需要AI能力和通用计算(包括游戏)的用户,G1a或类似Strix Halo系统是更自然的选择[52][57]
英伟达的最大威胁:谷歌TPU凭啥?
半导体行业观察· 2025-12-26 09:57
谷歌TPU的发展背景与动机 - 谷歌作为全球最大的信息检索系统公司,其使命“组织全球信息”高度依赖机器学习技术,该技术自2000年代中期起已广泛应用于搜索排序、垃圾邮件过滤、广告点击率预测等核心业务,为公司创造了每年数十亿美元的收入[10][11] - 在深度学习兴起前,谷歌通过大规模通用服务器集群支撑复杂模型训练,例如一篇2012年的论文记录使用一个由1,000台机器、共16,000个CPU核心组成的集群,连续运行约三天来训练一个拥有10亿连接、处理1000万张图像的模型[11][12] - 随着模型规模和计算密度急速扩张,依赖通用CPU集群的方式触及性能与能耗瓶颈,促使谷歌转向专用机器学习加速器路线[13] - 谷歌于2011年启动Google Brain项目,旨在结合深度神经网络与公司庞大的分布式计算基础设施和海量数据,训练此前规模难以企及的神经网络系统[13] - 早期深度学习开发完全基于CPU运行,直到Alex Krizhevsky在2013年加入谷歌后,才引入GPU进行神经网络训练,谷歌随后于2014年决定购买约40,000个NVIDIA GPU,花费约1.3亿美元[18][23] - 尽管GPU在训练上表现优异,但在全球范围内大规模部署模型进行推理时面临挑战,例如,若每位Android用户每天仅使用三分钟语音识别,通过CPU进行深度学习推理将迫使公司服务器数量增加两到三倍,成本高昂[24][25] - 依赖GPU存在潜在效率损失和单一供应商的战略风险,促使谷歌考虑定制硬件方案,目标是在推理任务上相较GPU实现约10倍的成本性能优势[26][27] 第一代TPU (TPU v1) 的诞生与设计 - 谷歌在15个月内完成了从概念到数据中心部署的壮举,于2015年初成功部署第一代TPU[4][42] - 项目快速成功的关键因素包括:团队的单一日程焦点、采用700 MHz的时钟频率和完全调试的28nm工艺,以及数据中心部署团队的高效协调[42] - TPU v1的架构灵感源于1978年H.T. Kung和Charles E. Leiserson提出的“脉动阵列”理论,该设计通过有节奏的数据流动和计算,非常适合大规模矩阵运算[31][33][50] - TPU v1的核心是一个256x256的脉动阵列矩阵乘法单元,执行8位整数乘法,采用量化技术以节省芯片面积和能耗[62][65] - TPU v1采用CISC设计,仅有约20条指令,通过PCIe接口从主机接收指令,关键指令包括读取主机内存、读取权重、执行矩阵乘法/卷积、应用激活函数以及写回主机内存[66][67][68][69][70][72] - 软件栈方面,谷歌开发了驱动程序使其深度学习框架TensorFlow能够与TPU v1协同工作,确保与CPU和GPU软件栈的兼容性[73] - TPU v1由台积电采用28nm工艺制造,芯片面积的24%用于矩阵乘法单元,29%用于统一缓冲区内存,仅2%用于控制逻辑,体现了架构的简洁高效[74][75] - 在性能上,TPU v1专注于推理任务,其拥有NVIDIA K80 GPU 25倍的乘累加单元和3.5倍的片上内存,在推理速度上比K80 GPU和Intel Haswell CPU快约15至30倍,能源效率更是高出25至29倍[78][79] TPU的迭代演进与技术升级 - **TPU v2 (2017)**: 定位为服务端AI推理和训练芯片,架构上进行多项重大改变,包括引入通用向量单元、将矩阵单元作为向量单元的卸载、采用高带宽内存,并添加互连以实现高带宽扩展,其核心采用超长指令字架构和线性代数指令集[82][83][90][91][92] - **TPU v3 (2018)**: 在v2基础上温和升级,矩阵单元和HBM容量增加两倍,时钟速率、内存带宽和芯片间互连带宽提升1.3倍,算力达420TFlops,内存128GB,并首次引入分布式训练框架和液冷技术[95] - **TPU v4i (2020)**: 定位为服务器端推理芯片,单核设计,增加了片上SRAM存储,引入四维张量DMA引擎和共享片上互连,时钟频率达1.05 GHz[99][100][104][106][108] - **TPU v4 (2021)**: 采用7nm工艺,峰值算力275TFLOPS,性能全球领先,通过引入光路交换机解决大规模集群的互连规模和可靠性问题,并公开了对稀疏模型的支持[114][117] - **TPU v5e (2023)**: 强调成本效益,专为大模型和生成式AI打造,与TPU v4相比,每美元训练性能提升高达2倍,每美元推理性能提升高达2.5倍,成本不到TPU v4的一半,支持从13B到2万亿参数的模型[119][120][123][126] - **TPU v5p (2023)**: 性能大幅提升,浮点运算次数和内存带宽分别提升2倍和3倍,大语言模型训练速度实现2.8倍的代际提升,提供459 teraFLOPS的bfloat16性能或918 teraOPS的Int8性能,支持95GB高带宽内存[127] - **TPU v6/Trillium (2024)**: 训练效果提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,高带宽内存容量和芯片间互连带宽均实现翻倍,在12个Pod规模下扩展效率高达99%[129][133] - **TPU v7/Ironwood (2025)**: 采用3nm制程工艺,实现全方位突破,FP8峰值算力高达4614TFlops,较第二代TPU提升3600倍,配备192GB的HBM3E显存,单芯片内存带宽达7.2TBps,并首次在TPU系列中支持FP8计算[142][143][145] TPU v7的核心架构创新 - 应用3D堆叠技术,通过混合键合将逻辑层与内存层以10微米间距堆叠,减少信号延迟,并将功耗降低30%[147] - 引入新型计算核心FlexCore,每个核心包含4096个乘累加单元,支持FP32、FP16、BF16、FP8混合精度计算,并采用三级缓存结构,其中L3缓存容量达64MB/核心[148] - FlexCore集成了稀疏计算加速器,通过动态稀疏化技术,在训练中可自动屏蔽80%的零值数据,提升计算效率[149] - 采用光互联技术,在芯片上直接集成激光器和光调制器实现硅光子集成,利用波分复用技术使单链路带宽达1.6TB/s,将芯片间通信延迟从第六代的20微秒降低至5微秒[150] 软件生态与系统优化 - 编译器XLA得到显著改进,通过优化技术使模型在TPU v7上的运行速度提高30%[152] - 分布式训练框架针对大规模集群优化,在训练万亿参数语言模型时,训练时间较上一代缩短40%[153][154] - 配备增强版SparseCore,专为处理推荐系统等场景中的超大稀疏嵌入而设计,能大幅提升相关计算效率[154] - Pathways机器学习运行时在跨芯片计算中发挥关键作用,能高效协调数万个TPU芯片,在训练大型语言模型时可将效率提高50%[155] 应用表现与市场意义 - TPU v7在超大规模模型训练中展现卓越性能,其高算力、大内存和高带宽能显著缩短训练时间,并有望降低30%至50%的总体训练成本[156][157][158] - 在AI推理场景,特别是针对混合专家模型,TPU v7通过软硬件协同优化,可实现推理延迟降低50%以上,成本降低40%以上[158][160][161] - TPU系列的成功迭代证明了定制化AI加速硬件的可行性与巨大潜力,挑战了NVIDIA GPU在AI计算领域的绝对主导地位,表明市场存在多元化的竞争路径[5][163]
0.2nm将在15年内实现
半导体行业观察· 2025-12-26 09:57
公众号记得加星标⭐️,第一时间看推送不会错过。 韩国半导体工程师学会在其发布的《2026 年半导体技术路线图》中,公布了未来 15 年硅基半导体 技术的发展预测。三星近期才刚推出全球首款 2 纳米全环绕栅极(GAA)芯片 ——Exynos 2600, 而路线图预计,到 2040 年半导体电路制程将突破至 0.2 纳米,正式迈入埃米级(Å)技术时代。不 过,从当下到未来的 15 年间,行业仍需攻克诸多难题,实现 1 纳米以下晶圆制程的目标道阻且长。 据 ETNews 报道,该技术路线图的核心目标是助力提升半导体领域的长期技术与产业竞争力、推动 学术研究落地、完善人才培养体系。路线图重点聚焦九大核心技术方向,分别为:半导体器件与制造 工艺、人工智能半导体、光互连半导体、无线连接半导体传感器、有线连接半导体、功率集成电路模 块(PI M)、芯片封装技术以及量子计算。 据IT之家了解,目前,三星的 2 纳米 GAA 技术代表着全球光刻制程的最高水平。据悉,这家韩国科 技巨头已在规划该工艺的迭代升级方案:不仅完成了第二代 2 纳米 GAA 工艺节点的基础设计,还计 划在两年内落地第三代 2 纳米 GAA 技术 ——SF ...
安谋科技Arm China发布“山海”SPU IP,加速产品安全认证落地
半导体行业观察· 2025-12-25 09:32
文章核心观点 - 安谋科技推出新一代SPU IP产品“山海”S30FP/S30P,旨在为高性能计算芯片提供从硬件到软件、再到云端服务的全栈式安全解决方案,以应对智能汽车、基础设施等场景日益增长的安全需求 [1] “山海”S30FP/S30P产品核心亮点 - 产品拥有五大核心亮点:抗物理攻击能力强、功能安全认证等级高、信息安全适应场景广、隔离层级丰富、与Arm安全架构同源互补防护强 [3][4][5] - 抗物理攻击能力强,支持客户芯片实现CC EAL4+、国密二级等高等级安全认证 [4] - 功能安全认证强,“山海”S30FP算法引擎通过ISO26262 ASIL D产品认证,软件测试库通过ASIL B级别系统能力认证 [4] - 信息安全适应场景广,完整的HSM安全子系统支持丰富算法,可通过配置满足不同安全等级及应用场景需求 [4] - 隔离层级丰富,独立的HSM子系统内部CPU支持运行RTOS,提供内核隔离、应用隔离等多种隔离手段 [4][5] - 与Arm架构同源互补,默认支持Arm TrustZone和硬件虚拟化,形成系统协同 [5] “山海”S30FP/S30P构建的一栈式安全防护体系 - 产品从硬件IP层、软件中间件到云端服务,构建覆盖芯片底层至应用层的一栈式安全防护体系 [1][6][7] - 硬件层面,是完善的HSM子系统,支持多种国际及中国商用密码算法,较上一代增加SHA3、Whirlpool、ED25519/448等算法,并通过多种软硬件手段增强抗物理攻击能力,能有效抵御SPA/DPA及FI攻击 [9] - 硬件抗物理攻击强度按照CC PP-0117和“国密二级”标准开发,能满足CC EAL4+及国密二级等高等级安全认证需求 [9] - “山海”S30FP功能安全能力达到最高等级ASIL D,已获产品级功能安全认证,并可灵活配置适配ASIL B或ASIL D的系统需求 [9] - 软件层面,HSM内部CPU支持OS,为多安全TA提供更好隔离,并提供安全启动、安全调试及丰富固件 [10] - 软件测试库符合ASIL B功能安全要求,其功能安全包可显著缩短客户芯片产品开发周期,加速上市进程 [10] - 软件能够与Arm架构无缝融合,支持Arm TrustZone、虚拟化等底层安全架构,充分激活整个Arm安全体系能力 [10] “山海”S30FP/S30P的应用领域 - 产品主要面向智能汽车、基础设施、移动终端等应用领域的高性能计算场景 [1] - 在高信息安全要求场景(如人工智能、AI PC、数据中心、机器人),“山海”S30P能提供多种安全算法及高强度信息保障 [12] - 在高功能安全要求场景(如智能驾驶、智能交通、智能工业),“山海”S30FP在提供高信息安全强度的同时,还能提供高达ASIL D级别的功能安全可靠性保障 [12] - 通过灵活配置策略,产品能广泛适配不同领域和场景的多样化安全需求,成为支撑高性能计算芯片稳定、可信运行的安全基石 [12] - 该产品的推出进一步完善了安谋科技SPU IP产品家族布局,“山海”产品线可匹配从边缘AI到移动终端、智能汽车,再到AI基础设施的多场景AI计算需求 [12]
CPO,过热了?
半导体行业观察· 2025-12-25 09:32
文章核心观点 - 行业普遍认为共封装光学(CPO)是未来数据中心高速互联的终极技术方向之一,但其大规模商业应用的时间点被大幅推迟,短期内不会成为主流 [1][23][27] - 当前AI基础设施的竞争重心已从单纯堆叠算力转向互联与系统能力,但CPO并非解决当下瓶颈的迫切方案,可插拔光模块等现有技术路径仍有巨大演进潜力和生命力 [3][4][24] - 超大规模云厂商等客户对部署CPO态度谨慎,主要顾虑包括可维护性、系统设计复杂度、成本、供应链成熟度以及现有运维体系的惯性,CPO的部署窗口与客户的实际业务节奏存在错配 [18][20][22][26] AI基础设施瓶颈转向互联与系统能力 - AI集群规模正朝超大型化发展,博通透露其客户正在规划和部署规模超过10万颗GPU的集群,而行业内部讨论的目标已指向百万GPU级别 [3] - 随着模型参数与集群规模指数级扩张,AI集群的核心瓶颈从计算能力转向互联能力,通信效率、延迟、系统稳定协同成为决定算力能否有效利用的关键 [3] - 行业竞争重心从算力本身全面迈向互联与系统能力,关键词变为横向扩展、纵向扩展、跨域扩展以及功耗墙、链路可靠性、系统级协同设计等工程化概念 [4] 横向扩展领域:可插拔光模块仍将长期主导 - 博通首席执行官指出,未来5-7年可插拔光模块仍将占据主导地位,800G技术增长周期持续至2026年,1.6T产品预计增长至少持续到2029年,3.2T技术已完成展示 [7] - Lumentum预测2026年光端口总量将达到6000万-7000万个,同比增长接近翻倍,其中800G端口占55%-60%,1.6T端口占15%-20%,800G仍是绝对主流 [7] - Marvell指出,在传输距离较长、需要互操作的市场中,可插拔产品采用速度较慢,但其软件预认证带来的生态优势是核心护城河,客户从400G向800G的迁移“几乎是即时完成的” [8] - Arista表示在1.6T速率下仍有信心实现低功耗光模块的稳定运行,同时共封装铜缆等技术也在评估中,率先推出下一代速率产品并快速商业化是其核心策略 [8] 纵向扩展领域:CPO量产时间表大幅推迟 - 纵向扩展曾是CPO最有希望应用的“第一战场”,但量产时间表已被大幅推迟至2027-2028年及以后 [9] - Marvell收购Celestial AI后给出新营收目标:2027年底年化营收达5亿美元,2028年底翻倍至10亿美元,大规模商业部署相应推迟 [9] - Astera Labs预计CPO在纵向扩展领域的大规模部署将在2028-2029年实现,2027年将进行一些测试性部署 [9] - 推迟原因包括:CPO供应链仍较新,需要时间提升产能以支持大规模需求;纵向扩展场景的需求将是现有需求的数倍,需要整个行业共同努力扩大产能 [9] 功耗与可靠性是更现实的约束 - 客户不愿转向光学技术是因为其需要更高的功耗和成本,行业会优先通过机柜内铜缆和可插拔光模块实现纵向扩展,只有当它们都无法满足需求时,硅光子技术才会成为必然选择 [10] - Credo举例,xAI因铜缆解决方案绝对稳定可靠,提出构建“零中断”集群的需求,促使行业重点攻克GPU与第一级交换机之间链路的可靠性难题 [12] - 在巨头看来,互联技术首先要可靠可控、可预测、可诊断、可维护,这往往比追求极限性能更重要 [12] - Lumentum的ZeroFlap光学解决方案通过重新设计DSP实现带内通信和实时遥测,能识别潜在风险并主动干预,但其系统级能力目前仍主要用于基于激光的光模块,短距互联的可靠性上限依然掌握在铜缆/有源电缆组件手中 [13] 过渡方案持续蚕食CPO的叙事空间 - 线性驱动可插拔光模块、有源电缆组件、有源光缆等过渡方案正在分流原本被寄望于CPO的应用空间 [14] - Arista称800G速率的LPO光模块已实现大规模部署,由于无需数字信号处理器,为客户带来了更低的资本支出和功耗,运营支出也相应减少,并有信心在1.6T速率下实现LPO稳定运行 [15] - 有源电缆组件与有源光缆的逻辑是在2–30米的关键互联区间,提供接近铜缆的可靠性与接近光学的带宽 [15] - Credo强调其在有源电缆组件市场开创了先河,并拥有端到端掌控能力构成的竞争壁垒 [16] - Marvell的“黄金线缆计划”提供完整的参考设计,使其DSP能适配各类线缆,满足客户多源供应的需求 [17] - Credo指出,其在有源光缆中投入的微LED技术可直接应用于近封装光学,其功耗仅为CPO的1/3,且无需复杂交换机设计,当行业需要CPO替代方案时该路径更具优势 [17][25] CPO面临多重工程与商业挑战 - **可维护性突出**:CPO技术核心目标是降低成本和功耗,但行业仍在解决可维护性问题;博通指出CPO三大缺陷:成本更贵、基于激光的可靠性远不如现有技术、功耗并非最低 [18] - **系统设计复杂**:纵向扩展所需光互联是一种完全不同的技术类型,必须直接与千瓦级XPU和交换机共封装;光链路中连接器是关键组件,负责将光子集成电路的光输出耦合到光纤,目前限制了光学技术的规模化 [18] - **成本结构不确定**:CPO不是便宜的光模块,而是昂贵的系统工程,散热、供电、测试、维修全部需要重构 [18] - **生态尚未形成**:需要交换机、光学、封装、软件协同成熟,而客户机会成本高,没有时间去认证新的供应商,生态建立需要多年时间 [19] 超大规模云厂商态度谨慎的深层原因 - **可靠性要求极高**:超大规模客户使用的AI系统包含大量组件,Credo认为以系统形式销售并对整个系统承担全部责任是合理的,而CPO一旦出现问题则是“整板级风险” [22] - **运维体系惯性巨大**:所有超大规模云厂商都拥有自己的网络团队和已建立的完善流程;客户的认证周期很长,且当前最关注的首要因素是上市时间 [22] - **供应链安全优先**:博通建设新加坡工厂内部化先进封装产能,旨在保障供应链安全和交付稳定性,而CPO技术的供应链成熟度远低于可插拔光模块 [22] - **架构灵活性需求强烈**:在行业标准尚未最终确定时,客户不愿冒险将所有赌注押在某一种协议上,而可插拔架构提供了灵活性 [23] 行业技术路线与时间表预判 - CPO是互联体系的“最后一公里”技术,是终极解法之一,但非当前阶段最优解,其应用场景将收敛于极高端口密度、极端功耗约束等特定系统 [24] - 在相当长一段时间内,线性驱动可插拔光模块、有源电缆组件、有源光缆以及ZR光模块仍将承担数据中心互联主力角色 [24] - Arista明确表示线性驱动可插拔光模块的演进远未结束,有信心在1.6T速率下实现其稳定运行 [25] - **时间节点判断逐步收敛**: - 2027年:CPO进入小规模测试与验证阶段 [31] - 2028年及以后:CPO在特定场景(主要是纵向扩展的高密度系统)中开始规模化部署 [26] - Lumentum预测到2027–2028年左右,首批采用CPO的客户中约有40%–50%的交换机将基于CPO技术,但存在较大不确定性 [26] - Astera Labs预计将在2028–2029年实现大规模部署,2027年更多是测试性部署 [26] - 行业真正需要的不是技术可行性证明,而是系统必要性证明,只有当现有过渡方案路径在功耗、密度、可靠性上同时触顶,CPO才会从未来选项转变为当下必需 [27]
英伟达斥巨资收购Groq?官方回应!
半导体行业观察· 2025-12-25 09:32
交易事件概述 - 据CNBC报道,英伟达同意以200亿美元全现金交易收购AI芯片设计商Groq,该交易在Groq以约69亿美元估值融资7.5亿美元后数月内快速完成[1] - 报道称,若交易完成,这将是英伟达迄今为止规模最大的收购,凸显其加强在先进AI硬件领域地位的决心[1] - 随后,英伟达与Groq双方均否认收购,澄清双方达成的是非独家授权协议,英伟达获授权使用Groq的推理技术[2] 交易具体内容与结构 - 授权协议体现了双方共同致力于扩大高性能、低成本推理技术的应用范围[2] - 作为协议一部分,Groq创始人Jonathan Ross、总裁Sunny Madra及团队其他成员将加入英伟达,以帮助推进和扩大授权技术的规模[2] - Groq将继续作为独立公司运营,由Simon Edwards担任首席执行官,其云业务GroqCloud将继续正常运营[2] - 此次交易结构为授权协议,而非资产收购,Groq的早期云业务不包含在交易范围内[1][2] 公司Groq的背景与业务 - Groq是一家专注于AI芯片开发的新创公司,由谷歌张量处理单元(TPU)背后的前工程师创立[1] - 公司专注于开发称为LPU(语言处理单元)的AI芯片,专为AI推理环节设计,在聊天机器人等即时应用中具备低延迟、高效率优势[2] - Groq是众多不使用外部高带宽存储芯片的公司之一,其使用名为SRAM的片上存储器,有助于加快与AI模型的交互速度,但也限制了可运行模型的规模[4] - 公司在2024年9月完成7.5亿美元融资后,估值从2023年8月的28亿美元翻了一番多,达到69亿美元[1][4] - 自2016年成立以来,其长期支持者Disruptive已向该公司投资超过5亿美元[1] 行业竞争格局与市场动态 - 英伟达在AI模型训练市场占据主导地位,但在推理领域面临更激烈竞争,竞争对手包括Groq和Cerebras Systems等初创公司[3] - Groq在该领域的主要竞争对手Cerebras Systems计划最早于2025年上市,两家公司均在中东签署了多项大额交易[5] - 近期行业出现多起类似交易结构:微软与一家初创公司达成价值6.5亿美元的许可费交易;Meta斥资150亿美元聘请Scale AI首席执行官;亚马逊挖走Adept AI创始人;英伟达今年也进行了类似交易[3] - 英伟达首席执行官在2025年重要主题演讲中,用大量篇幅论证公司能够保持领先地位,因为AI市场正从训练转向推理[5] 技术特点与市场定位 - Groq的LPU架构与英伟达主导的GPU市场不同,专为利用训练好的AI模型进行即时数据分析与生成的“推理”环节设计[2] - 其芯片旨在与英伟达在人工智能工作负载领域竞争[1] - 公司不使用外部高带宽存储芯片,使其摆脱了困扰全球芯片行业的内存短缺问题[4]
台积电2nm泄密案余波,Tel高管离职
半导体行业观察· 2025-12-25 09:32
文章核心观点 - 日本半导体设备巨头东京电子(TEL)对其台湾子公司进行重大组织与人事调整,旨在强化经营体制、提升客户服务,并修复与关键客户台积电的关系,此次调整被外界解读与TEL台湾子公司卷入台积电2纳米制程技术泄密案直接相关 [1] - TEL总部同步设立下一代设备专案计划组织部门,此举被认为是为了争取台积电未来更先进制程(如1纳米)的设备订单,显示出公司积极应对事件影响并着眼于未来业务拓展的战略意图 [2] 人事调整详情 - TEL台湾子公司董事长伊东晃将于明年2月1日转任执行顾问,由长久保达也接任 [1] - TEL台湾子公司总裁张天豪将调回日本总部担任前端工程本部长,其职缺由TEL欧洲全球销售本部长仲间诚二接任 [1] - TEL台湾子公司增设资深执行副总裁一职,由原营运支援处副总柯昱成升任 [1] - 此次人事变动共涉及12位高层主管,成员包括多位原分公司总经理层级人士 [2] - 即将接任董事长职务的长久保达也,在调整公布前已亲自赴台拜会台积电董事长魏哲家进行说明 [1] 调整背景与动机 - 调整的直接导火索是TEL台湾前员工卷入台积电2纳米制程技术泄密案,TEL社长河合利树曾多次赴台向台积电董事长魏哲家致歉 [1] - 台湾高等检察署已对涉嫌泄密的前员工提起诉讼,并对TEL台湾子公司求处1.2亿元新台币的罚金 [2] - TEL官方声明将此调整表述为中长期经营策略的一部分,旨在强化台湾子公司经营体制、提升客户服务品质与深度,并深化本地员工的向心力 [1] - 市场解读认为,此次“大换血”由台湾最高决策主管承担责任,目的是为了与台积电在先进制程开发上“破冰”并重建合作关系 [1] 战略布局与行业影响 - TEL总部决定自明年1月1日起设立“下一代设备专案计划组织”部门,市场认为此举旨在衔接台积电1纳米制程关键设备的开发计划 [2] - 在台积电正为增加3纳米制程所需关键设备进行产能扩充之际,TEL的组织调整被视为争取未来进入台积电更先进制程(如1纳米)采购名单的重要一步 [2] - TEL在官方声明中强调,公司把遵守法令及伦理基准视为最重要的经营方针,并对本次事件造成的重大不安向所有利益相关者致歉 [2]