人工智能计算架构的根本性重塑 - 人工智能模型参数规模已达数万亿级,传统性能提升方法已不适用,行业正步入以系统级创新、先进封装和3D集成为主要驱动力的新时代 [1] - 性能提升越来越取决于整个系统的设计和集成水平,而非单个晶体管的尺寸,这标志着从以器件为中心的优化向全栈协同设计的转变 [1] - 人工智能计算需求呈指数级增长,导致所需性能与传统硅芯片扩展能力之间的差距日益扩大,弥合差距需要超越芯片本身的创新 [1] 系统瓶颈与设计重点的转移 - 现代人工智能系统的关键瓶颈已从计算转为数据传输,跨芯片传输数据所需能量可能比芯片内传输高出50倍 [1] - 数据传输会占用系统大部分资源,通信延迟会显著降低加速器利用率,使得互连效率成为设计的核心优先事项 [1] - 提高带宽、降低延迟和最小化每比特能耗,对于释放系统整体性能至关重要 [1] 内存与功率成为关键限制因素 - 随着人工智能模型规模扩大,内存需求增长速度甚至超过了计算能力,新兴工作负载正推动内存容量和带宽需求呈指数级增长 [2] - 系统正从千兆字节级内存配置过渡到太兆字节级配置,同时对延迟要求越来越低,但内存技术进步不及计算技术,导致**“内存瓶颈”** [2] - 计算密度提升,特别是3D堆叠技术的应用,导致功率密度和发热量相应增加,供电、能效和散热方面的进步成为性能持续提升的关键 [2] 先进封装与集成技术的核心作用 - 先进的3D结构技术正成为下一代人工智能系统的基础,能够将多个芯片和组件集成到高效、高性能的系统中 [3] - 3D芯片堆叠等创新技术显著提高了互连密度,从而减少了数据传输距离和能耗,先进的封装平台使得逻辑电路和存储器能够紧密集成 [3] - 封装不再仅仅是辅助技术,而是成为系统性能的主要驱动力 [3] 互连技术的演进:光互连的兴起 - 随着电气互连技术接近其物理极限,共封装光器件正成为高速数据传输的极具前景的解决方案 [7] - 通过将光子技术直接集成到计算硬件中,该方法能显著提高电源效率并降低延迟,并为数据中心网络提供可扩展的发展路径 [7] - 光技术将作为未来人工智能基础设施的关键推动因素,其应用范围正在不断扩大 [7] 未来架构方向:晶圆级与系统协同优化 - 系统集成正朝着晶圆级架构发展,整个系统构建在单个基板上,能实现前所未有的集成密度并降低传统互连开销 [11] - 通过最大限度地缩短通信距离并提高效率,晶圆级集成为突破传统封装方法的限制,扩展人工智能性能提供了强有力的途径 [11] - 业界正越来越多地采用系统技术协同优化方法,同时考虑芯片设计、封装、互连、电源供应和散热性能,这代表硬件系统构思和开发方式的根本性转变 [11] - 人工智能硬件的未来将由封装、互连、存储系统和能效方面的进步共同塑造,并通过系统级设计整合,“系统”本身成为创新的核心单元 [11] 台积电的先进封装路线图 - 台积电正推进其3D芯片堆叠路线图,SoIC的互连间距将从目前的6微米缩小到2029年的4.5微米 [16] - 间距缩小直接影响芯片之间可放置的垂直互连数量,台积电宣布A14-to-A14 SoIC将于2029年投入量产,其芯片间I/O密度比N2-on-N2 SoIC高1.8倍 [16] - SoIC是台积电用于异构芯片集成的3D堆叠技术,被描述为一种超高密度垂直堆叠技术,旨在缩小尺寸、提高性能并降低电阻、电感和电容 [20] 3D堆叠技术的演进与优势 - 从背对背堆叠到面对面堆叠是关键的技术变革,在面对面堆叠中,两个芯片的有源金属层直接对齐并通过混合铜键合连接,从而缩短了芯片间的传输路径 [20] - 博通公司指出,背对背堆叠的实际信号密度约为1500个信号/平方毫米,而面对面堆叠的信号密度则高达14000个信号/平方毫米 [20] - 实际优势在于堆叠芯片间更高的带宽和更低的延迟,但散热和制造方面的挑战依然存在 [20] 早期采用者与行业趋势 - 富士通的Monaka处理器是首批有望受益于面对面芯片堆叠技术的高端系统之一 [21] - 博通已开始出货一款基于其3.5D XDSiP平台的2纳米定制计算SoC,该平台结合了2.5D集成和3D IC堆叠技术,并采用了面对面堆叠工艺 [21] - 该平台正被用于富士通的Monaka计划,允许计算、内存和网络I/O在一个紧凑的封装中独立扩展,Monaka处理器预计将于2027年上市 [21][22] 封装成为性能提升的新引擎 - 随着前端工艺改进成本越来越高且难度越来越大,代工厂和芯片设计人员正将更多性能提升工作转移到封装环节 [23] - 转移方向包括:更大的中介层、更密集的芯片间链路、堆叠式缓存、HBM集成以及共封装光学器件 [23] - 台积电的路线图表明,公司将垂直整合视为其先进节点战略的核心组成部分,而非一种小众封装选项 [23]
台积电先进封装路线图