TPU(张量计算单元)芯片
搜索文档
中昊芯英CTO郑瀚寻:国产AI芯片也将兼容不同平台
21世纪经济报道· 2025-09-24 18:41
AI芯片市场趋势 - 旺盛的AI智算需求驱动GPU路线之外的AI芯片获得更多市场关注,如博通因云服务厂商寻求英伟达替代方案而订单量和股价大涨 [1] - 以谷歌TPU和Groq的LPU为代表的定制化ASIC芯片正受到更大关注,显示出市场对GPU替代方案的需求 [1][2] - 产业界持续追求更高费效比,随着专用芯片成本降低,越来越多厂商愿意借力自研专用芯片架构推进个性化AI能力落地 [1] 技术路线比较 - 硅谷芯片新玩家如Groq、SambaNova和Cerebras致力于通过架构创新实现性能和能效突破,而非选择GPU或类似GPU架构 [2] - 英伟达GPU的成功很大程度上源于其深厚的工程化实验团队积累,这难以被后来者直接复制 [2] - TPU架构类似新能源车调整传统传动装置,在同样算力数量级下可实现更好的数据迁移和存储表现及更低能耗 [4] - TPU对计算效率和能耗带来突破性变化,在深度学习、AI for science和科学模拟等领域受益于Tensor Core架构 [4] 张量计算单元优势 - 自英伟达Tesla V100加入Tensor Core后,其迭代重点在于Tensor Core的数量和功能提升,而非CUDA Core [3] - 在大模型时代,张量计算单元投资划算,每多N倍数据传输量就能完成N的计算量,实现更优计算效果 [3] - TPU类比3D打印机能将计算任务一次性成型,相比传统CPU(博士生)和GPU(大学生解题)更高效 [3] 集群互联挑战与方案 - 大模型发展对底层AI算力集群提出更高要求,将“单点能效”放大到“集群能效”是国产XPU芯片的挑战 [5] - 未来数据传输是AI基础设施瓶颈之一,Tensor Core优势在于传输N倍数据量完成N的计算量 [5] - 谷歌TPU第三代产品支持多达千片芯片规模的片间互联,中昊芯英支持千卡集群内1024片芯片直接光模块高速互联 [5] - 英伟达通过InfiniBand协议构建护城河,但竞争对手更积极推进以太网协议,后者物理介质和带宽能力已大幅提升 [6] - 特斯拉基于以太网的TTPoE协议可实现很低延迟,中昊芯英宣称其互联延迟表现优于特斯拉 [6] 软件生态与模型架构 - 英伟达闭源的CUDA生态建设十余年,国产芯片平台需自主建设软件栈和工具链 [6] - 国产AI芯片将通过持续工具链完善,实现不同平台间的兼容与流畅体验,类似安卓系统早期优化过程 [6] - 当前绝大多数大语言模型仍基于Transformer架构,整体结构未出现根本性变化,这为AI芯片厂商提供了按1-2年周期有序推进研发的机会 [7]