半导体行业观察
搜索文档
安谋科技Arm China发布“山海”SPU IP,加速产品安全认证落地
半导体行业观察· 2025-12-25 09:32
文章核心观点 - 安谋科技推出新一代SPU IP产品“山海”S30FP/S30P,旨在为高性能计算芯片提供从硬件到软件、再到云端服务的全栈式安全解决方案,以应对智能汽车、基础设施等场景日益增长的安全需求 [1] “山海”S30FP/S30P产品核心亮点 - 产品拥有五大核心亮点:抗物理攻击能力强、功能安全认证等级高、信息安全适应场景广、隔离层级丰富、与Arm安全架构同源互补防护强 [3][4][5] - 抗物理攻击能力强,支持客户芯片实现CC EAL4+、国密二级等高等级安全认证 [4] - 功能安全认证强,“山海”S30FP算法引擎通过ISO26262 ASIL D产品认证,软件测试库通过ASIL B级别系统能力认证 [4] - 信息安全适应场景广,完整的HSM安全子系统支持丰富算法,可通过配置满足不同安全等级及应用场景需求 [4] - 隔离层级丰富,独立的HSM子系统内部CPU支持运行RTOS,提供内核隔离、应用隔离等多种隔离手段 [4][5] - 与Arm架构同源互补,默认支持Arm TrustZone和硬件虚拟化,形成系统协同 [5] “山海”S30FP/S30P构建的一栈式安全防护体系 - 产品从硬件IP层、软件中间件到云端服务,构建覆盖芯片底层至应用层的一栈式安全防护体系 [1][6][7] - 硬件层面,是完善的HSM子系统,支持多种国际及中国商用密码算法,较上一代增加SHA3、Whirlpool、ED25519/448等算法,并通过多种软硬件手段增强抗物理攻击能力,能有效抵御SPA/DPA及FI攻击 [9] - 硬件抗物理攻击强度按照CC PP-0117和“国密二级”标准开发,能满足CC EAL4+及国密二级等高等级安全认证需求 [9] - “山海”S30FP功能安全能力达到最高等级ASIL D,已获产品级功能安全认证,并可灵活配置适配ASIL B或ASIL D的系统需求 [9] - 软件层面,HSM内部CPU支持OS,为多安全TA提供更好隔离,并提供安全启动、安全调试及丰富固件 [10] - 软件测试库符合ASIL B功能安全要求,其功能安全包可显著缩短客户芯片产品开发周期,加速上市进程 [10] - 软件能够与Arm架构无缝融合,支持Arm TrustZone、虚拟化等底层安全架构,充分激活整个Arm安全体系能力 [10] “山海”S30FP/S30P的应用领域 - 产品主要面向智能汽车、基础设施、移动终端等应用领域的高性能计算场景 [1] - 在高信息安全要求场景(如人工智能、AI PC、数据中心、机器人),“山海”S30P能提供多种安全算法及高强度信息保障 [12] - 在高功能安全要求场景(如智能驾驶、智能交通、智能工业),“山海”S30FP在提供高信息安全强度的同时,还能提供高达ASIL D级别的功能安全可靠性保障 [12] - 通过灵活配置策略,产品能广泛适配不同领域和场景的多样化安全需求,成为支撑高性能计算芯片稳定、可信运行的安全基石 [12] - 该产品的推出进一步完善了安谋科技SPU IP产品家族布局,“山海”产品线可匹配从边缘AI到移动终端、智能汽车,再到AI基础设施的多场景AI计算需求 [12]
CPO,过热了?
半导体行业观察· 2025-12-25 09:32
文章核心观点 - 行业普遍认为共封装光学(CPO)是未来数据中心高速互联的终极技术方向之一,但其大规模商业应用的时间点被大幅推迟,短期内不会成为主流 [1][23][27] - 当前AI基础设施的竞争重心已从单纯堆叠算力转向互联与系统能力,但CPO并非解决当下瓶颈的迫切方案,可插拔光模块等现有技术路径仍有巨大演进潜力和生命力 [3][4][24] - 超大规模云厂商等客户对部署CPO态度谨慎,主要顾虑包括可维护性、系统设计复杂度、成本、供应链成熟度以及现有运维体系的惯性,CPO的部署窗口与客户的实际业务节奏存在错配 [18][20][22][26] AI基础设施瓶颈转向互联与系统能力 - AI集群规模正朝超大型化发展,博通透露其客户正在规划和部署规模超过10万颗GPU的集群,而行业内部讨论的目标已指向百万GPU级别 [3] - 随着模型参数与集群规模指数级扩张,AI集群的核心瓶颈从计算能力转向互联能力,通信效率、延迟、系统稳定协同成为决定算力能否有效利用的关键 [3] - 行业竞争重心从算力本身全面迈向互联与系统能力,关键词变为横向扩展、纵向扩展、跨域扩展以及功耗墙、链路可靠性、系统级协同设计等工程化概念 [4] 横向扩展领域:可插拔光模块仍将长期主导 - 博通首席执行官指出,未来5-7年可插拔光模块仍将占据主导地位,800G技术增长周期持续至2026年,1.6T产品预计增长至少持续到2029年,3.2T技术已完成展示 [7] - Lumentum预测2026年光端口总量将达到6000万-7000万个,同比增长接近翻倍,其中800G端口占55%-60%,1.6T端口占15%-20%,800G仍是绝对主流 [7] - Marvell指出,在传输距离较长、需要互操作的市场中,可插拔产品采用速度较慢,但其软件预认证带来的生态优势是核心护城河,客户从400G向800G的迁移“几乎是即时完成的” [8] - Arista表示在1.6T速率下仍有信心实现低功耗光模块的稳定运行,同时共封装铜缆等技术也在评估中,率先推出下一代速率产品并快速商业化是其核心策略 [8] 纵向扩展领域:CPO量产时间表大幅推迟 - 纵向扩展曾是CPO最有希望应用的“第一战场”,但量产时间表已被大幅推迟至2027-2028年及以后 [9] - Marvell收购Celestial AI后给出新营收目标:2027年底年化营收达5亿美元,2028年底翻倍至10亿美元,大规模商业部署相应推迟 [9] - Astera Labs预计CPO在纵向扩展领域的大规模部署将在2028-2029年实现,2027年将进行一些测试性部署 [9] - 推迟原因包括:CPO供应链仍较新,需要时间提升产能以支持大规模需求;纵向扩展场景的需求将是现有需求的数倍,需要整个行业共同努力扩大产能 [9] 功耗与可靠性是更现实的约束 - 客户不愿转向光学技术是因为其需要更高的功耗和成本,行业会优先通过机柜内铜缆和可插拔光模块实现纵向扩展,只有当它们都无法满足需求时,硅光子技术才会成为必然选择 [10] - Credo举例,xAI因铜缆解决方案绝对稳定可靠,提出构建“零中断”集群的需求,促使行业重点攻克GPU与第一级交换机之间链路的可靠性难题 [12] - 在巨头看来,互联技术首先要可靠可控、可预测、可诊断、可维护,这往往比追求极限性能更重要 [12] - Lumentum的ZeroFlap光学解决方案通过重新设计DSP实现带内通信和实时遥测,能识别潜在风险并主动干预,但其系统级能力目前仍主要用于基于激光的光模块,短距互联的可靠性上限依然掌握在铜缆/有源电缆组件手中 [13] 过渡方案持续蚕食CPO的叙事空间 - 线性驱动可插拔光模块、有源电缆组件、有源光缆等过渡方案正在分流原本被寄望于CPO的应用空间 [14] - Arista称800G速率的LPO光模块已实现大规模部署,由于无需数字信号处理器,为客户带来了更低的资本支出和功耗,运营支出也相应减少,并有信心在1.6T速率下实现LPO稳定运行 [15] - 有源电缆组件与有源光缆的逻辑是在2–30米的关键互联区间,提供接近铜缆的可靠性与接近光学的带宽 [15] - Credo强调其在有源电缆组件市场开创了先河,并拥有端到端掌控能力构成的竞争壁垒 [16] - Marvell的“黄金线缆计划”提供完整的参考设计,使其DSP能适配各类线缆,满足客户多源供应的需求 [17] - Credo指出,其在有源光缆中投入的微LED技术可直接应用于近封装光学,其功耗仅为CPO的1/3,且无需复杂交换机设计,当行业需要CPO替代方案时该路径更具优势 [17][25] CPO面临多重工程与商业挑战 - **可维护性突出**:CPO技术核心目标是降低成本和功耗,但行业仍在解决可维护性问题;博通指出CPO三大缺陷:成本更贵、基于激光的可靠性远不如现有技术、功耗并非最低 [18] - **系统设计复杂**:纵向扩展所需光互联是一种完全不同的技术类型,必须直接与千瓦级XPU和交换机共封装;光链路中连接器是关键组件,负责将光子集成电路的光输出耦合到光纤,目前限制了光学技术的规模化 [18] - **成本结构不确定**:CPO不是便宜的光模块,而是昂贵的系统工程,散热、供电、测试、维修全部需要重构 [18] - **生态尚未形成**:需要交换机、光学、封装、软件协同成熟,而客户机会成本高,没有时间去认证新的供应商,生态建立需要多年时间 [19] 超大规模云厂商态度谨慎的深层原因 - **可靠性要求极高**:超大规模客户使用的AI系统包含大量组件,Credo认为以系统形式销售并对整个系统承担全部责任是合理的,而CPO一旦出现问题则是“整板级风险” [22] - **运维体系惯性巨大**:所有超大规模云厂商都拥有自己的网络团队和已建立的完善流程;客户的认证周期很长,且当前最关注的首要因素是上市时间 [22] - **供应链安全优先**:博通建设新加坡工厂内部化先进封装产能,旨在保障供应链安全和交付稳定性,而CPO技术的供应链成熟度远低于可插拔光模块 [22] - **架构灵活性需求强烈**:在行业标准尚未最终确定时,客户不愿冒险将所有赌注押在某一种协议上,而可插拔架构提供了灵活性 [23] 行业技术路线与时间表预判 - CPO是互联体系的“最后一公里”技术,是终极解法之一,但非当前阶段最优解,其应用场景将收敛于极高端口密度、极端功耗约束等特定系统 [24] - 在相当长一段时间内,线性驱动可插拔光模块、有源电缆组件、有源光缆以及ZR光模块仍将承担数据中心互联主力角色 [24] - Arista明确表示线性驱动可插拔光模块的演进远未结束,有信心在1.6T速率下实现其稳定运行 [25] - **时间节点判断逐步收敛**: - 2027年:CPO进入小规模测试与验证阶段 [31] - 2028年及以后:CPO在特定场景(主要是纵向扩展的高密度系统)中开始规模化部署 [26] - Lumentum预测到2027–2028年左右,首批采用CPO的客户中约有40%–50%的交换机将基于CPO技术,但存在较大不确定性 [26] - Astera Labs预计将在2028–2029年实现大规模部署,2027年更多是测试性部署 [26] - 行业真正需要的不是技术可行性证明,而是系统必要性证明,只有当现有过渡方案路径在功耗、密度、可靠性上同时触顶,CPO才会从未来选项转变为当下必需 [27]
英伟达斥巨资收购Groq?官方回应!
半导体行业观察· 2025-12-25 09:32
交易事件概述 - 据CNBC报道,英伟达同意以200亿美元全现金交易收购AI芯片设计商Groq,该交易在Groq以约69亿美元估值融资7.5亿美元后数月内快速完成[1] - 报道称,若交易完成,这将是英伟达迄今为止规模最大的收购,凸显其加强在先进AI硬件领域地位的决心[1] - 随后,英伟达与Groq双方均否认收购,澄清双方达成的是非独家授权协议,英伟达获授权使用Groq的推理技术[2] 交易具体内容与结构 - 授权协议体现了双方共同致力于扩大高性能、低成本推理技术的应用范围[2] - 作为协议一部分,Groq创始人Jonathan Ross、总裁Sunny Madra及团队其他成员将加入英伟达,以帮助推进和扩大授权技术的规模[2] - Groq将继续作为独立公司运营,由Simon Edwards担任首席执行官,其云业务GroqCloud将继续正常运营[2] - 此次交易结构为授权协议,而非资产收购,Groq的早期云业务不包含在交易范围内[1][2] 公司Groq的背景与业务 - Groq是一家专注于AI芯片开发的新创公司,由谷歌张量处理单元(TPU)背后的前工程师创立[1] - 公司专注于开发称为LPU(语言处理单元)的AI芯片,专为AI推理环节设计,在聊天机器人等即时应用中具备低延迟、高效率优势[2] - Groq是众多不使用外部高带宽存储芯片的公司之一,其使用名为SRAM的片上存储器,有助于加快与AI模型的交互速度,但也限制了可运行模型的规模[4] - 公司在2024年9月完成7.5亿美元融资后,估值从2023年8月的28亿美元翻了一番多,达到69亿美元[1][4] - 自2016年成立以来,其长期支持者Disruptive已向该公司投资超过5亿美元[1] 行业竞争格局与市场动态 - 英伟达在AI模型训练市场占据主导地位,但在推理领域面临更激烈竞争,竞争对手包括Groq和Cerebras Systems等初创公司[3] - Groq在该领域的主要竞争对手Cerebras Systems计划最早于2025年上市,两家公司均在中东签署了多项大额交易[5] - 近期行业出现多起类似交易结构:微软与一家初创公司达成价值6.5亿美元的许可费交易;Meta斥资150亿美元聘请Scale AI首席执行官;亚马逊挖走Adept AI创始人;英伟达今年也进行了类似交易[3] - 英伟达首席执行官在2025年重要主题演讲中,用大量篇幅论证公司能够保持领先地位,因为AI市场正从训练转向推理[5] 技术特点与市场定位 - Groq的LPU架构与英伟达主导的GPU市场不同,专为利用训练好的AI模型进行即时数据分析与生成的“推理”环节设计[2] - 其芯片旨在与英伟达在人工智能工作负载领域竞争[1] - 公司不使用外部高带宽存储芯片,使其摆脱了困扰全球芯片行业的内存短缺问题[4]
台积电2nm泄密案余波,Tel高管离职
半导体行业观察· 2025-12-25 09:32
文章核心观点 - 日本半导体设备巨头东京电子(TEL)对其台湾子公司进行重大组织与人事调整,旨在强化经营体制、提升客户服务,并修复与关键客户台积电的关系,此次调整被外界解读与TEL台湾子公司卷入台积电2纳米制程技术泄密案直接相关 [1] - TEL总部同步设立下一代设备专案计划组织部门,此举被认为是为了争取台积电未来更先进制程(如1纳米)的设备订单,显示出公司积极应对事件影响并着眼于未来业务拓展的战略意图 [2] 人事调整详情 - TEL台湾子公司董事长伊东晃将于明年2月1日转任执行顾问,由长久保达也接任 [1] - TEL台湾子公司总裁张天豪将调回日本总部担任前端工程本部长,其职缺由TEL欧洲全球销售本部长仲间诚二接任 [1] - TEL台湾子公司增设资深执行副总裁一职,由原营运支援处副总柯昱成升任 [1] - 此次人事变动共涉及12位高层主管,成员包括多位原分公司总经理层级人士 [2] - 即将接任董事长职务的长久保达也,在调整公布前已亲自赴台拜会台积电董事长魏哲家进行说明 [1] 调整背景与动机 - 调整的直接导火索是TEL台湾前员工卷入台积电2纳米制程技术泄密案,TEL社长河合利树曾多次赴台向台积电董事长魏哲家致歉 [1] - 台湾高等检察署已对涉嫌泄密的前员工提起诉讼,并对TEL台湾子公司求处1.2亿元新台币的罚金 [2] - TEL官方声明将此调整表述为中长期经营策略的一部分,旨在强化台湾子公司经营体制、提升客户服务品质与深度,并深化本地员工的向心力 [1] - 市场解读认为,此次“大换血”由台湾最高决策主管承担责任,目的是为了与台积电在先进制程开发上“破冰”并重建合作关系 [1] 战略布局与行业影响 - TEL总部决定自明年1月1日起设立“下一代设备专案计划组织”部门,市场认为此举旨在衔接台积电1纳米制程关键设备的开发计划 [2] - 在台积电正为增加3纳米制程所需关键设备进行产能扩充之际,TEL的组织调整被视为争取未来进入台积电更先进制程(如1纳米)采购名单的重要一步 [2] - TEL在官方声明中强调,公司把遵守法令及伦理基准视为最重要的经营方针,并对本次事件造成的重大不安向所有利益相关者致歉 [2]
David Patterson回顾RISC的诞生往事
半导体行业观察· 2025-12-25 09:32
文章核心观点 - 计算机体系结构传奇人物David Patterson在RISC-V峰会上回顾了RISC技术于1981年在加州大学伯克利分校的诞生历程 通过历史对比阐述了RISC设计哲学相对于当时主流的CISC架构的优越性 并展示了从RISC-I到当今RISC-V的技术传承与成功 [1][2][3][4] 1980年代初的计算机产业格局 - 1981年2月 计算机市场由大型机和小型机主导 IBM是行业领头羊 DEC的VAX小型机代表了当时巅峰水平 其尺寸如冰箱 为32位 运行频率5 MHz 配备2 KB缓存 [1] - 当时英特尔最先进的微处理器是16位的8086 IBM PC尚未问世 相关的文化背景包括罗纳德·里根就任总统等 [1] CISC架构的主导理念及其问题 - 当时CISC架构占据主导 主流理念认为更丰富、更多样化的指令集能弥合高级语言与硬件之间的“语义鸿沟” 摩尔定律使得微程序设计成本低廉 市场营销强化了程序越复杂可靠性越高的观念 [2] - 实践证明 高级语言编程仅使用一小部分指令 许多复杂指令(如VAX的数组索引指令或IBM 370的多寄存器移动)比一系列简单操作更慢 设计周期长且微代码错误层出不穷 Patterson在DEC休假期间发现VAX微代码需要不断修补 [2] RISC设计原则的提出与验证 - 基于对CISC问题的观察 逐渐凝结出RISC原则 包括:除非有充分理由否则尽量保持简单 优先考虑快速时钟周期、易于解码和流水线而非指令数量或程序大小 认识到微代码并无神奇功能 依靠不断进步的编译器技术 [2] - Patterson将CISC比作装饰过度的20世纪50年代凯迪拉克 将RISC比作线条流畅、灵活敏捷的跑车 [2] - Patterson与学生David Ditzel于1980年发表论文《精简指令集计算机的案例》 与VAX架构师的反驳文章一同发表 立即引发广泛争议和热烈的RISC与CISC之争 [3] RISC-I项目的成功与历史意义 - 伯克利大学通过研究生课程验证RISC概念 大约十几名学生在不到两年时间内 利用DARPA资助的CAD工具完成了RISC-I的设计、布局、制造和测试 [3] - RISC-I指令集与今天的RISC-V核心指令集非常相似 Patterson称RISC-V的版本略显优雅 [3] - 将伯克利UNIX移植到RISC-I的过程很简单 早期基准测试表明 学生构建的RISC-I速度大约是专业团队花费多年开发的VAX的两倍 实现了惊人验证 [3] - 2015年举行了一场仪式 为第一款RISC微处理器安装纪念牌匾 RISC-I的先驱者们与RISC-V的领导者们齐聚一堂 [3] RISC技术的传承与现状 - 45年过去 诞生于伯克利教室的简洁优雅的设计为全球数十亿台设备提供动力 并在开放的RISC-V生态系统中蓬勃发展 [4]
英特尔股价大跌,原因是……
半导体行业观察· 2025-12-25 09:32
文章核心观点 - 英伟达暂停了使用英特尔18A先进制程工艺的测试,此消息导致英特尔股价下跌约2.2% [1] - 英特尔正大力推进其18A和14A等先进制程技术,旨在挑战台积电并重获行业领导地位,但其代工业务的发展策略和客户获取面临挑战 [1][2] 英特尔18A制程技术进展与影响 - 英伟达暂停了使用英特尔18A工艺制造先进芯片的测试 [1] - 受此消息影响,英特尔公司股价在纽约股市开盘后下跌约2.2% [1] - 英特尔发言人表示其18A制造技术“进展顺利” [1] - 英特尔已在亚利桑那州奥科蒂洛开设了首家采用18A工艺进行量产的Fab 52工厂,称这是美国最尖端的生产技术 [1] - 18A技术包含两项创新:率先采用“全环栅”晶体管技术以提升芯片效率并降低功耗,以及改进芯片供电方式 [2] - 18A策略是初期大幅提升产能,但外部客户兴趣寥寥 [2] 英特尔14A制程技术策略 - 14A可能是英特尔对外代工的新重点和转折点 [2] - 英特尔表示在看到市场需求之前,不会为14A增加产能,这与过去“建好了,市场就会来”的策略不同 [2] - 过去三四年,英特尔在建项目的投资额从200亿美元飙升至500亿美元,被其视为过度支出的例子 [2] - 英特尔正全力投入14A制程节点的研发,但初期计划将产能控制在较低水平 [2] - 14A节点是与合作伙伴和客户共同设计的,从一开始就更适合外部代工厂客户,能更早获得外部反馈 [3] - 14A的一些关键设计选择可能需要在2026年下半年到2027年上半年进行验证 [3] 英特尔与英伟达的合作关系 - 英伟达于9月同意向英特尔投资50亿美元,这被视为对英特尔的一大提振 [1] - 此项投资发生在美国政府决定收购英特尔约10%的股份之后 [1] - 然而,这项交易并未包含英特尔代工英伟达芯片的承诺 [1] 英特尔的整体战略目标 - 英特尔大力推进先进芯片的本土化生产,旨在挑战全球芯片制造巨头台积电,并重申美国在该行业的领导地位 [1] - 18A是英特尔重拾自主研发最佳产品的尝试 [2]
DDR 4,卖出天价
半导体行业观察· 2025-12-25 09:32
文章核心观点 - 三星电子等主要DRAM制造商正逐步淡出DDR4产能,导致市场供应严重短缺,DDR4现货价格飙升至历史高位[1][3] - 为追求利润最大化并应对持续强劲的需求,三星电子策略转变,计划放缓原定的DDR4停产步伐,并与特定服务器客户签订不可取消、不可退货的长期供货合约以锁定高价和产能[1][2][3] - 行业产能紧张局面预计将持续,DDR4价格在2026年可能进一步上涨,同时其他厂商如美光正寻求通过合作快速扩充产能[3][4][5] 三星电子的DDR4产能与策略调整 - 三星原计划在2025年上半年大幅减产DDR4,并在6至9个月内将产能转向DDR5及HBM,但近期策略思维转变,将以“利润最大化”优先[1][3] - 公司决定放缓原定2025年第4季的DDR4停产速度,部分旧产线将暂时保留,至少维持至2026年底,但主要供应给服务器、车用及自用品牌等特定客户[1][3] - 三星计划在2026年第1季与特定服务器客户签订“NCNR”长期供货合约,绑死供货条件不得取消或更改,以确保产能调度获得最大利润[1] - 由于HBM3E量产竞争力不如同业,三星将部分HBM3E产能转投至DDR5 RDIMM,并将1a DRAM产能的30~40%转换为1b DRAM制程,以聚焦下一代HBM4竞赛[2] DDR4市场价格与供需状况 - DDR4 16Gb现货价格已飙升至60美元的天价,并且价格已超过同规格的DDR5[1][3] - 客户因担忧后续供货缩减而竞相抢购,是推动价格上涨的主要原因[3] - 三星对DDR4 16Gb的NCNR长期供货合约要价可能在20美元以上,且不排除在2026年第1季进一步调高绑定价格[3] - 尽管三星释放部分产能,但主要锁定服务器应用,消费性业者难以获得供应,预计2026年DDR4将持续供不应求,价格上扬,整体产能严重紧缺[3][4] 行业产能动态与其他厂商动向 - 三大DRAM厂逐步淡出DDR4是长期不可逆趋势[3] - SK海力士的DDR4产能也已保留给特定的美系云端服务大厂,用于通用型服务器需求[3] - 力积电铜锣新厂目前月产能约8000多片,装机率约2成,仍有空间可扩充至月产能4万至5万片,吸引了包括美光在内的国际记忆体业者洽谈合作[4] - 美光目前急缺厂房及无尘室空间,正与力积电洽谈,希望通过迁入设备及租借厂房等方式快速扩充DRAM产能[5] - SanDisk考虑授权3D NAND技术给力积电生产,但因涉及日系合作伙伴铠侠的专利技术,难度重重[4]
苹果这颗划时代的芯片,走向何方?
半导体行业观察· 2025-12-25 09:32
文章核心观点 苹果公司自研的M系列处理器成功取代英特尔芯片,不仅显著提升了Mac的性能与能效,更通过统一内存架构、内置神经网络引擎等技术,重塑了个人计算机行业的竞争格局与发展方向,并为公司自身带来了产品战略上的高度灵活性与控制力 [1][14][24] M系列芯片的起源与决策背景 - 苹果于2006年从PowerPC转向英特尔,合作持续至2020年,转向自研芯片的决定并非轻率,而是基于长期积累 [2] - 公司此前为iPhone和iPad开发芯片的经验,为研发Mac处理器积累了知识、团队和代工厂合作关系,提供了信心 [2] - 团队花费很长时间进行内部论证,说服管理层此方向可行,并专注于对Mac真正重要的特性 [4] 研发突破与“顿悟”时刻 - 早期原型机的电池续航表现惊人,打开系统后电池电量指示器纹丝不动,让团队印象深刻 [5] - 将源自手机的能效设计理念应用于Mac,利用MacBook更大的电池容量,获得了“海洋般的能量” [5] - 团队从M1的CPU中获得了超出预期的性能提升,尤其是在“大幅”降低频率的情况下,实现了卓越的每瓦性能 [5] - 首次体验M1 MacBook Air的瞬间唤醒与整体流畅操作,带来了前所未有的Mac体验 [6] 统一内存架构的核心优势 - M系列将CPU、GPU、神经网络引擎和内存集成到单个芯片中,实现了卓越的性能和能效 [7] - 统一内存架构为开发者提供了一个大的共享内存池,消除了在不同处理器和内存系统间复制数据的需要,大幅提升了效率 [7][9] - 该架构使设备端运行大型语言模型成为可能,例如用MacBook Air运行拥有数百亿个参数的模型,或在高端芯片上运行数千亿参数的模型 [9][10] 神经网络引擎与人工智能布局 - M系列芯片从一开始就内置了神经网络引擎,尽管初期主要用于计算摄影等任务 [11] - 团队在M1研发时重新设计了神经网络引擎,这一前瞻性决策使其能够应对当前的人工智能浪潮 [13] - 神经网络引擎为AI任务提供高能效解决方案,同时强大的GPU也可用于AI计算,为开发者提供了灵活选择 [13] - 公司声称M5处理器是迄今为止最强大的AI芯片 [11] 对苹果公司的战略意义 - 自研芯片“释放了苹果的潜力”,赋予了公司梦寐以求的控制权和资源分配的灵活性 [14] - 公司不再受制于英特尔的产品路线图,实现了自摩托罗拉时代以来前所未有的产品差异化 [15] - 对每瓦性能的关注具有变革性,使MacBook能在长达15小时无需充电的情况下提供强劲性能,这在M系列之前无法实现 [15] - 规模经济和垂直整合带来了其他公司难以企及的成本控制优势,使公司能够以不到1000美元的价格出售性能强大的电脑 [15][16] 对计算机行业的影响 - 苹果的转变迫使AMD、英特尔和高通等竞争对手重新思考各自的能效策略,并提升产品的每瓦性能 [15] - 此举为高通骁龙芯片在PC领域的更广泛应用打开了市场,使其能够被需要更具竞争力产品的PC OEM厂商所接受 [15] - 行业从比拼“原始功率”转向强调“能效”,重新定义了人们对电脑的期待 [15][23] 对Mac用户的实际影响 - 对视频创作者而言,M系列芯片消除了笔记本电脑与台式机之间的性能鸿沟,使便携设备也能处理繁重的4K视频剪辑工作 [18] - 芯片上新增的专用视频编码和解码核心,将任务从CPU和GPU转移,显著提升了视频编辑速度 [19] - 对于AI开发者,统一内存架构减少了内存复制操作,大大加快了AI模型的推理速度 [19] - 即使用户仅进行上网等基本操作,M系列Mac也能保证在很长一段时间内保持强大的性能和快速的运行速度 [16] 技术迭代与未来展望 - 公司强调每一代M芯片都在持续进步,例如M5的GPU AI计算能力比M1提升了六倍 [21] - 芯片团队与设计、软件团队紧密合作,芯片设计旨在前瞻性地支持未来的新功能与新设计 [22] - 未来,公司可能推进更先进的设备端AI模型,在提升用户隐私和安全的同时,提供原需云端才能实现的功能 [23] - 另一个潜在方向是将蜂窝网络调制解调器集成到芯片中,使每台Mac都具备蜂窝网络连接能力 [23]
关于AMD ZEN 6,一些看法
半导体行业观察· 2025-12-24 10:16
文章核心观点 - 文章通过分析AMD最新发布的技术文档,认为基于Zen 6架构的EPYC处理器(代号Venice)并非对Zen 5架构的根本性变革,而是一次侧重于效率提升和功能增强的迭代[1][4][18] - 文章驳斥了部分媒体关于Zen 6是“面向吞吐量的架构”并与Zen 5有显著差异的说法,认为两者在核心架构上具有高度延续性[3][10][18] - 根据性能监控计数器文档的详细对比,Zen 6的主要改进在于提供了更详细的性能监控能力、增强了对FP16计算的支持,并在调度器监控等方面进行了优化[11][15][18] 根据相关目录分别进行总结 Zen 6架构的首次披露与基本定位 - 2024年12月12日,AMD更新了技术文档,发布了关于“AMD Family 1Ah Model 50h-57h 处理器”的性能监视器计数器文档,文件名“69163-VenicePMC-pub.pdf”表明其指向代号为Venice的处理器,即基于Zen 6架构的EPYC处理器[1] - 该文档被认为是首份关于Zen 6内部配置的公开文件,尽管AMD尚未正式解释该处理器的具体信息[1] - 支持Zen 6架构的AMD μProf性能分析器工具预计将在下一个版本(如5.3版)中实现[2] Zen 6与Zen 5架构的对比分析 - 性能监控计数器的基础框架(如每个线程、L3复合体、数据结构的计数器数量及读取命令)在Zen 5和Zen 6中是共同的,没有变化[4] - 通用性能统计数据(如分支预测、各级缓存访问与命中率等)的对比显示,核心本身并无特别变化,主要区别在于Zen 6可以获取更详细的L1数据缓存填充来源信息[4] - 流水线利用率分析统计数据的对比显示,Zen 5和Zen 6在前端绑定、错误推测、后端绑定等核心指标的计算公式上基本一致[6][7] - 文档中关于Zen 5“总派遣槽位”的描述存在一处明显的拼写错误(描述为“一个周期内最多可以分派6条指令”,但公式为“8 * Event”),这与AMD官方图示中Zen 5前端末端显示的“Dispatch 8-wide”相符,证实Zen 5已是8路派遣[7][8] - 因此,部分媒体根据文档推测Zen 6将采用“八槽调度引擎”并据此认为其是“面向吞吐量的宽设计”,这一说法并不准确,因为Zen 5已经实现了8路解码与派遣结构,Zen 6在此方面并未发生显著变化[10][18] Zen 6架构的具体改进与新增功能 - **增强的FP16支持**:性能计数器显示,Zen 6增加了对AVX512-FP16(打包FP16)以及FPU中标量FP16运算的支持,而Zen 5的相关计数器位在文档中被标记为“保留”[11] - **新增性能监控计数器**:Zen 6引入了PMCx00F(用于监控512位打包操作,即AVX512操作)和PMCx013(用于监控非调度队列读取停顿)等新的性能监控计数器,这些在Zen 5的文档中未出现[13][14] - **更细粒度的调度监控**:Zen 6的PMCx0AF(动态令牌调度停顿周期2)计数器可以分别监控整数调度器1-6以及Retire队列的令牌可用性,而Zen 5的对应计数器是统一处理所有调度组,这提供了更详细的调度器效率监控能力[15][16] - **指令缓存监控调整**:Zen 6的文档中移除了Zen 5存在的PMCx18E(IC标签命中/未命中事件)计数器[14][18] 对Zen 6架构设计的整体评估 - 综合分析表明,Zen 6是Zen 5架构的改进版,而非设计策略的根本性改变[18] - 目前观察到的主要区别在于:Zen 6提供了更详细的性能计数器、FPU/AVX512增强了对FP16的支持,以及调度器监控的细化[18] - 文章推测,Zen 6的核心结构图将与Zen 5(文章中的图3)几乎相同,其发展重点是提升效率,例如改进x86指令到微操作的转换方法、优化调度技术或分支预测算法等[17][18] - 文章认为,AMD不太可能回归类似“推土机”架构那样以吞吐量为绝对核心的设计理念,因为当前AI工作负载对吞吐量的需求更倾向于通过专用加速器(如AMX)来解决,而非大幅调整CPU流水线[19]
冯诺依曼架构的新替代方案
半导体行业观察· 2025-12-24 10:16
文章核心观点 - 人工智能对计算能力和能效的需求激增,传统半导体渐进式改进和冯·诺依曼架构已无法满足,行业需要一种全新的硅芯片架构 [1] - Ambient Scientific公司通过其DigAn技术和GPX系列AI处理器,提供了一种创新的“可配置矩阵计算机”方案,从根本上解决了传统架构在AI计算中的内存访问和并行计算效率低下问题 [9][19] - 该方案在性能和功耗上实现了巨大突破,性能可比MCU高100多倍,或在同等性能下能耗不到GPU的1%,为边缘AI和数据中心应用带来了变革潜力 [13][19] 行业背景与挑战 - 人工智能领域对计算能力和电力的需求巨大,半导体行业难以满足,边缘AI设备同样受限于处理器性能慢和功耗高 [1] - 大型语言模型一次推理可能需要1000亿到10000亿次运算,传统架构执行如此海量运算时,内存访问时间成为关键瓶颈 [4] - 传统CPU、GPU或NPU等架构,其速度和功耗仍受限于内存访问,无法将足够内存紧密靠近计算单元 [5] 传统架构的局限性 - 经典的冯·诺依曼架构擅长处理顺序指令,但不适用于需要大规模并行矩阵计算的人工智能模型 [4] - 将神经网络工作负载编译到冯·诺依曼架构会产生海量运算,且内存与计算模块物理分离导致性能低下、功耗高、成本昂贵 [4][5] - 脉动阵列在概念上更契合神经网络,但以往硅芯片实现难以做到密集互连,且同样存在内存访问问题 [6][8] Ambient Scientific的创新解决方案 - 公司开发了DigAn技术,能够在芯片级制造“可配置矩阵计算机”,其核心是一种新型的“模拟MAC”计算单元 [9] - 模拟MAC针对占AI工作负载95%的MAC运算优化,并支持内存计算,通过HyperPort 3D内存架构实现内存元件在MAC单元上的垂直堆叠,解决了内存与计算分离的问题 [11] - 该技术将模拟MAC模块排列成与神经网络拓扑对应的形状,每个DigAn单元是一个独立单片电路,可在一个周期内计算一整层神经元 [11] 性能与功耗突破 - 一个DigAn计算块可以在一个周期内计算一个1×32×8矩阵,而传统AI处理器需要38,600个周期 [13] - 一个典型的1×32×8神经网络矩阵的32层运算,在传统架构中需要1,235,200个时钟周期,而在DigAn矩阵计算机中仅需32个周期 [13] - 将运算次数从1,235,200次减少到32次,带来了显著提升:性能比同等功耗的典型MCU高出100多倍,或性能与典型GPU相同但能耗不到其1% [13] GPX系列芯片产品化 - GPX芯片系列是DigAn技术的实现,将DigAn模块组合成可扩展的AI处理器内核(MX8内核)以适应不同应用 [14] - 截至2025年底,GPX系列包括GPX10和GPX10 Pro,其中GPX10 Pro采用两组各包含五个MX8内核的集群,是一款集成Arm Cortex-M4F控制器的完整系统级芯片(SoC) [16] - 尽管底层技术全新,但GPX处理器支持TensorFlow、PyTorch等主流机器学习框架,并通过Nebula SDK提供完整工具链,便于工程师使用熟悉平台进行开发 [18] 未来前景 - 由于MX8 AI内核易于扩展,产品路线图设想未来的GPX设备可扩展到8000个内核,用于数据中心服务器和超级计算机 [19] - 对于优先考虑性能和功耗的AI系统开发者,这些新芯片和DigAn架构预示着AI处理变革时代的到来 [19]