Workflow
Galaxy Blackhole AI计算平台
icon
搜索文档
Jim Keller,推出重磅新品
半导体行业观察· 2026-04-29 08:55
Tenstorrent Galaxy Blackhole AI计算平台发布 - 公司于周二正式发布Galaxy Blackhole AI计算平台 [1] - 每个6U系统集成32个Blackhole加速器芯片,通过100 Tbps总带宽的密集以太网网状结构互连 [1] - 单系统配备1 TB GDDR6内存、16 TB/s内存带宽和23 petaFLOPS的密集FP8性能,售价为110,000美元 [1] 系统性能与定价 - 单系统性能对标英伟达八路DGX显卡,但价格仅为后者的三分之一到五分之一 [1] - 基础Galaxy Supercluster售价44万美元,包含四个Blackhole系统 [2] - 系统架构最多可支持32个节点和超过一千个芯片 [2] - 软件栈已显著改进,投入大量精力移植并优化新模型,提升了性能 [2] 推理性能与模型支持 - 针对DeepSeek V3模型,四节点Blackhole Galaxy超集群可在不到四秒内处理100,000个tokens提示(相当于166页文本) [2] - 系统每秒每个用户最多可生成300个tokens,预计通过软件改进将提升至350个tokens [2] - 平台能根据吞吐量和交互需求,将批处理从8个有效扩展到64个 [3] - 公司声称Hugging Face上90%的模型都可在Tenstorrent平台上运行 [3] 应用场景:视频生成 - 平台被定位为理想的视频生成平台 [3] - 在四节点超级集群上,可以比实时速度更快地生成720p视频 [3] - 视频生成性能与运行Wan 2.2和Grok Imagine Video等模型的英伟达GPU配置相比,生成速度更快 [11] 硬件架构与设计理念 - 单个Galaxy系统集成32个基于RISC-V微架构的Blackhole ASIC [5] - 系统提供高达23 PFLOPS的Block FP8 AI计算能力,针对生产级AI环境优化 [6] - 设计重点从峰值FLOPS转向在大型上下文语言模型和实时媒体生成等工作负载中保持稳定的推理吞吐量 [6] - 每个Galaxy系统集成6.2GB片上SRAM,提供约2.9 PB/s带宽,搭配1TB GDDR6内存,总带宽约16 TB/s [6] - 内存层次结构旨在减少数据移动延迟,这是大型模型推理的主要瓶颈之一 [7] 网络与可扩展性 - 平台采用高速以太网实现跨集群扩展,单个系统最多支持56个800千兆以太网端口 [8] - 网络架构是“网络化AI”的核心,使用以太网将加速器连接成分布式集群,优先考虑使用标准基础设施进行灵活横向扩展 [8][9] - 网络带宽在现代AI部署中与计算性能同等重要,低延迟高带宽网络有助于在集群扩展时保持可预测性能 [8] 市场竞争与行业趋势 - AI加速器市场的竞争焦点正从芯片层面转向系统层面 [12] - 差异化取决于加速器、内存和网络组件的协同工作效率 [12] - 衡量生产级AI基础设施的关键指标正转变为内存带宽、网络吞吐量和系统可扩展性,而不仅仅是加速器性能 [12] - 未来成功的AI基础设施公司需要在计算、内存和网络方面实现均衡性能,并能从单服务器高效扩展到分布式集群 [13] 部署与生态 - 硬件已被Cirrascale、Equinix和日本ai&等多家大型数据中心、托管服务和新云服务提供商采用 [4] - 公司已开发基于Python的编程接口,用于编写优化内核以持续引入新模型 [3] - 公司预计在5月1日的TT-Deploy活动上分享更多信息 [4]