Boardfly拓扑结构
搜索文档
谷歌对互联的最新思考
半导体行业观察· 2026-04-29 08:55
谷歌数据中心与AI芯片网络架构演进 - 谷歌网络专家晋升至架构开发高层,表明公司正致力于发展其数据中心架构,特别是解耦式数据中心架构,网络在其中处于核心地位 [1] - 谷歌开发了多种网络协议和硬件,包括2019年发布的网络操作系统Snap及数据平面引擎Pony Express,以及四年前为小规模、紧耦合集群设计的低延迟Aquila协议和配套的TiN芯片 [2] - 谷歌与英特尔合作,为“埃文斯山”分布式处理器设计了低延迟网络接口传输协议Falcon [2] TPU芯片间互连与拓扑结构 - 谷歌TPU集群的互连拓扑从二维/三维环面结构演进至新的Boardfly配置,旨在实现TPU AI计算引擎的集群化和内存一致性 [3] - 二维环面拓扑最多连接256个加速器,而谷歌在Ironwood TPU v7e上使用的三维环面拓扑将连接上限提升至9,216个加速器 [4] - 全新的Sunfish TPU 8t训练集群通过三维环面拓扑将连接上限扩展至单个系统映像中的9,600个TPU [4] - 环面拓扑结构存在延迟较高的问题,对于推理而言不理想,而推理成本是主要考量 [5] Boardfly拓扑结构及其对推理的优化 - Zebrafish TPU 8i采用了全新的Boardfly拓扑结构,可在单个内存和计算空间内扩展到1,152个互连的TPU 8i设备 [5] - Boardfly配置将跳数从类似容量3D环面结构的16跳减少到7跳,网络直径降低56% [5] - 在Boardfly架构下,推理工作负载的数据传输延迟平均比3D环面拓扑低50% [5] - Boardfly拓扑、更强大的计算能力与新型集体加速引擎协同,使得GenAI推理的吞吐量在Ironwood和Zebrafish之间提升了三倍甚至更多 [6] - 在Boardfly系统中,系统板上的八个TPU 8i芯片通过ICI端口以全连接配置互连,板间连接使用低成本铜缆,而为了实现1,152个TPU的互连,谷歌使用其Apollo光路交换机来提供TPU组之间的链路 [10] - ICI与OCS(光路交换机)组合能够降低跳数,原因是OCS交换机拥有大量光端口,使得系统板可以容纳更多光收发器,增加板载光导管数量 [12] Virgo横向扩展网络与AI训练集群 - 对于AI训练,谷歌开发了Virgo横向扩展数据中心级以太网架构,用于连接包括TPU pod在内的各种设备机架 [3] - Virgo网络提供了一种扁平化、无阻塞的双层拓扑结构,用于互连加速器机架,Apollo OCS交换机用于连接到数据中心内的其他计算和存储资源,而非用于横向扩展AI集群本身 [15] - Virgo架构可互连多达134,000个TPU 8t芯片,并在单个架构中提供47 Pb/s的无阻塞双向带宽 [15] - Virgo网络在Sunfish TPU 8t加速器上每个加速器的带宽为400 Gb/s,是Ironwood v7e加速器横向扩展端口提供的100 Gb/s带宽的四倍,并且延迟比之前用于Ironwood训练集群的横向扩展以太网的架构延迟降低了40% [16] - Sunfish TPU 8t可以利用3D环面中的ICI扩展到9,600个计算引擎,而借助Virgo数据中心网络,谷歌可以在单个Virgo架构中扩展到134,000个芯片,通过使用OCS交换机互连Virgo架构,可以在单个逻辑训练集群中将TPU数量扩展到超过100万个 [16] TPU Direct RDMA与存储性能提升 - 谷歌正在为TPU 8t和网络接口卡添加RDMA支持,创建TPUDirect RDMA和TPU Direct Storage功能 [17] - 在其托管的Lustre 10T存储服务中使用TPUDirect Storage,相比未使用该功能在Ironwood TPU上,存储访问速度提升了10倍 [19]