多芯片系统
搜索文档
NoC,面临挑战
半导体行业观察· 2026-03-29 09:46
文章核心观点 随着数据量激增和人工智能等实时工作负载的出现,片上网络和互连架构面临前所未有的挑战,设计重点正从通用方案转向针对特定应用和异构集成的定制化、多维拓扑结构,以实现可预测的性能、延迟和能效 [1][2][8] 片上网络与互连架构的挑战 - 数据量激增和实时人工智能分析给芯片网络带来压力,需要在处理器和内存间快速传输数据 [1] - 主要挑战包括可扩展性、拥塞管理、流量公平性、延迟可预测性以及在异构IP模块中实现时序收敛 [1] - 随着片上系统扩展到成百上千个端点,需要在严格的功耗、延迟和布局限制下管理动态流量系统,布线拥塞、时序收敛和性能与拓扑结构及布局密不可分 [1] - 人工智能设计加剧挑战,网络需吸收突发性、高扇入流量,同时避免队头阻塞或病态拥塞 [1] - 异构集成(CPU、GPU、NPU、加速器、芯片组)成倍增加了时钟域、功耗域和协议域 [1] - 由于尖端硅芯片尺寸缩小问题,工程师正为最终应用定制网络解决方案,而非构建通用方案 [1] 拓扑结构的演进与解决方案 - 片上网络拓扑结构已从交叉开关演变为星形、环树形、网状、环面形等,复杂系统可包含多个不同拓扑的片上网络 [2] - 行业支持在同一片上系统中同时使用不同拓扑结构(树状、网状、混合型、特定领域结构),因为没有一种拓扑在所有情况下都是最优的 [8] - 对于CPU集群,一致性结构至关重要;对于NPU、DSP和流式加速器,带宽、确定性和能效比全局一致性更重要,非一致性结构通常是首选 [8] - 软分块和分层结构允许设计人员在控制时序和布线复杂性的同时扩展容量和带宽 [8] - 系统级流量管理(包括虚拟网络、服务质量、隔离和拥塞感知)确保单个高负载工作负载不会影响芯片其他部分 [8] - 未来可能出现动态、自优化的网络架构,能根据工作负载模式进行代理驱动流量调优、拥塞预测和运行时拓扑变形 [2][3] - 未来的网络结构将更像组合系统——局部优化,全局协调——旨在与封装、芯片和人工智能工作负载共同演进 [18] 不同芯片类型的特定挑战 - **人工智能芯片**:绕过了数据一致性问题,通过软件一致性或数据流算法处理,其挑战在于平衡片上网络性能与分配给计算或缓冲的资源 [17] - **交换机芯片**:唯一适用的拓扑是交叉开关,但扩展性极差,连接大量端口的交叉开关极其昂贵复杂,挑战在于实现极致性能和线缆密度 [14][17] - **物理人工智能系统**(如机器人、无人机、车辆):与现实世界持续闭环交互,需在严格实时性和安全性约束下结合感知、计算和执行,数据延迟或路由错误可能存在安全隐患,需要确定性延迟、流量隔离和故障控制 [16] - **人工智能工作负载**:训练需要大规模保证持续带宽、多播效率和内存一致性;推理(尤其在边缘)需要有限且可预测的延迟;内存流量消耗掉80%到90%的推理时间或动态能量,拥塞等问题会直接影响模型行为和系统结果 [22] 芯片组设计的考量 - 芯片组内部各子系统有不同功能,可能有各自的和更高级别的片上网络来促进通信 [20] - 芯片组可能是非一致性的,不需要缓存一致性;而CPU到CPU连接需要缓存一致性 [20] - 芯片组增加了数据处理挑战,需在满足高带宽要求的同时管理芯片间延迟,并保证信号清晰、避免干扰、保持系统低温运行 [20] - 若将核心芯片与输入/输出芯片分开,需考虑数据结构是共享还是由片上系统拥有 [20] - 芯片组方案更复杂,导致系统整体规模更大,并能带来传统片上系统所不具备的运行时可配置性 [21] 设计方法与效率对比 - **软件定义流程**:利用探索工具创造全新拓扑结构,在二维芯片内实现三维架构 [12] - **定制化趋势**:针对特定应用定义拓扑结构,每个设计都需要定制拓扑,而非固定模式如网状或环面 [14] - **自动化优势**:根据实际设计对比,使用片上网络IP(自动)相比专家用户(手动)能显著减少总连线长度,例如在一个人工智能片上系统设计中,总连线长度从151,686微米降至82,740微米,减少45.5% [19]