大芯片，何去何从？

文章核心观点 - 半导体行业正经历由人工智能驱动的结构性转型，创新焦点从传统的晶体管微缩转向系统级的协同优化，涵盖节能计算、先进封装、互连技术和供应链协作等多个维度[2] 人工智能作为结构性驱动力 - 人工智能从根本上重塑了对半导体技术的要求，其工作负载对计算能力、内存带宽和互连吞吐量产生了指数级增长的需求[2] - 训练集群由数千至数万个加速器组成，系统级功耗和数据传输需求显著增加[3] - 创新地点已从芯片层面转移至集群层面，网络效率、散热和电源供应直接影响性能[3] 能源效率成为主要设计约束 - 在人工智能时代，每瓦性能已成为主要的衡量指标，取代了历史上的频率提升和晶体管密度提高[5] - 节能型人工智能架构旨在提高总计算吞吐量的同时降低每次操作的能耗，这能减少达到给定性能目标所需的节点数量，从而降低网络开销和冷却需求[5] - 降低能耗的最有效手段之一是缩短计算和内存之间的距离，这推动了异构集成和内存邻近成为关键设计策略[5] - 运行范式转变为以更低的电压提供计算能力，从而降低在高利用率环境中占主导地位的动态功耗[5] Chiplet、3D集成与架构协同优化 - 节能型人工智能架构越来越依赖基于芯片组的模块化设计，而非整体式设计，允许每个功能模块使用最合适的工艺节点制造[7] - 以AMD MI300架构为例，其通过2.5D中介层集成多个芯片，并采用3D堆叠来提高计算密度并降低能耗，集成大缓存以减少DRAM访问次数和能耗[7] - 设计技术协同优化变得至关重要，系统架构决策对能源效率的影响已与工艺节点选择的影响一样大[7][9] 节能计算工艺技术 - 工艺技术仍是提高能效的关键，节能计算优化集中在动态/静态功耗优化、降低寄生效应和改进器件静电性能三个方面[11] - 降低电源电压是降低动态功耗的最有效手段之一，但需权衡漏电和性能波动[11] - 新兴器件结构如互补场效应晶体管通过减小逻辑面积和导线长度并改善静电性能，有望使芯片级功耗降低高达30%[11] - 工艺创新现在必须服务于系统级效率目标，而非独立的器件指标[11] 封装作为基础技术 - 封装技术已从辅助技术提升为主要性能驱动因素，先进的封装技术突破了光罩尺寸限制，并通过高密度互连提高能源效率[13] - 硅中介层和短距离芯片间连接使芯片组能以接近片上金属互连的带宽通信，显著提高了与板级连接相比的能源效率[13] - 3D互连技术如混合键合和硅通孔，与传统的微凸点连接方式相比，互连能效最高可提升三倍[13] - 功率超过1000瓦的人工智能加速器需要集成电压调节、深沟槽电容器和先进导热界面材料以维持效率和可靠性[13] - 散热管理直接影响系统级能耗，温度升高会增加漏电功耗，形成“热税”[13] 互连、光学与系统级扩展 - 随着人工智能集群规模扩大至数千个加速器，系统互连效率变得与芯片级性能同等重要[17] - 在数据速率超过224 GT/s时，电互连正接近实际极限，推动了业界对光互连和共封装光学器件的兴趣[17] - 将硅光子学与计算硅集成，为降低长距离数据传输的功耗、提高带宽和传输距离提供了途径[17] - 互连技术必须被视为一项战略技术，未来的性能提升取决于封装、网络和系统架构等方面的协调创新[19] 制造复杂性与规模经济 - 最先进的晶圆厂需要近200亿至300亿美元的投资，制程节点转换涉及呈指数级增长的复杂性[20] - 现代半导体制造被描述为“以原子级精度运行”，凸显了维持创新所需的巨大工程规模[20] - 供应链复杂性已扩展到材料、劳动力供应和基础设施等各方面，人工智能的蓬勃发展加剧了这些压力[20] - 生态系统协调至关重要，节能型人工智能架构需要硬件制造商、软件开发商和材料供应商之间的合作[20] - 共享标准和开放的生态系统能集中投资、加快产品上市速度并降低供应链风险，围绕通用规范达成一致对于高效扩展产能和创新至关重要[20]