一颗颠覆传统的芯片
半导体行业观察·2026-02-06 09:33

文章核心观点 - NextSilicon公司推出的Maverick 2处理器采用了一种创新的数据流架构,旨在通过直接执行编译中间表示的计算图来大幅提升高性能计算和人工智能工作负载的性能,其性能优势可达数量级级别 [2][5][13] NextSilicon公司及其Maverick 2处理器 - NextSilicon是一家致力于计算机体系结构创新的公司,其策略与主流不同,公司内部拥有众多聪明人才 [2] - Maverick 2处理器是该公司最新推出的产品,其前身是Maverick 1,公司从中吸取了经验并优化了开销 [15] - 公司选择高性能计算作为首要目标市场,该市场规模约为几十亿美元,远小于数万亿美元规模的人工智能市场,但选择HPC是出于战略考虑,旨在与最成熟的客户和合作伙伴共同推动技术成熟 [16][17] - 公司已与桑迪亚国家实验室等顶级计算中心合作,以获得切实可行的反馈并验证技术 [17] 数据流架构的技术原理 - 传统CPU和GPU基于已有八十年历史的冯·诺依曼架构,其核心需要将程序的中间表示图序列化为指令流,然后在芯片上重构依赖关系图以进行乱序执行,这个过程存在开销 [5][6] - NextSilicon的架构核心思想是绕过指令流,直接使用编译器生成的中间表示图,并制造硬件来直接执行这个图,从而消除指令提取、解码、重排序等环节的开销 [5][7][12] - 该架构通过将计算图流水线化,使得大量线程和迭代可以在图的不同阶段同时执行,从而实现每个周期执行整个循环,而非传统CPU每周期执行少数几条指令 [9] - 架构中没有指令提取单元、指令缓存、乱序执行引擎或指令重排序缓冲区 [12] 内存系统的创新与优势 - 架构将内存访问分散到芯片各处,每个内存管理单元只需处理少量内存访问,相比于需要处理整个程序所有内存访问的CPU MMU,其优化潜力更大 [10] - 该架构可以同时产生远高于CPU和GPU的未完成内存访问请求数量,高出一个数量级,从而能更充分地利用HBM内存带宽 [11] - 公司通过收集运行时遥测数据并动态调整内存分配来解决伪共享等问题,而非在编译时处理 [11] - 在STREAM基准测试中,该架构能够充分利用HBM带宽;在GUPS随机内存访问测试中,其性能数据在其他任何平台上都是前所未闻的,即使缓存完全失效也能充分利用HBM内存 [18] - 该架构计算性能极高,能够将通常受计算限制的工作负载转化为受内存限制的工作负载,并使其性能达到内存带宽的极限 [18] 软件生态与编程模型 - 公司的明确目标是无需任何代码更改即可运行现有程序 [19] - 公司提供性能分析工具,可以识别性能瓶颈并推荐源代码更改,这些更改通常也适用于提升在其他平台上的性能 [19] - 该架构不支持自动并行化,开发者仍需在源代码中明确表达并行性,可以使用OpenMP、Kokkos、CUDA等模型编写并行代码 [20][21] - 公司宣传“自带代码”模式,并探讨了通过HIP等工具支持CUDA代码的可能性,以应对所谓的“CUDA护城河” [21][22] 性能表现与竞争优势 - 公司通过分析高性能计算常用内核,找到了一种适用于多种场景的硬件配置组合,能够以极高的性能满负荷运行各种应用程序 [13] - 其性能目标不仅是领先竞争对手几个百分点,而是领先一个数量级 [13] - 公司可以生成多个硬件配置,并在应用程序运行时以微秒级甚至纳秒级的速度动态重新配置,以高效应对包含数百个不同内核的复杂程序 [14][15] - 与需要同时运行GPU和HPC加速器的系统相比,该芯片在HPC+AI融合工作负载市场拥有非常大的潜力 [23][24] 未来发展方向 - 数据流架构本身比CPU或GPU更高效,但公司目前专注于HPC市场,并研究如何利用现有芯片实现人工智能应用 [22][23] - 公司以高性能计算为核心,保持对FP64精度的支持,以应对HPC+AI工作负载 [23] - 公司采用芯片组架构,着眼于未来通过提升芯片间连接性来扩展工作负载,例如将庞大的AI模型分片到不同芯片上运行 [24][25] - 在多芯片应用中,公司使用类似GPUDirect的技术,通过Infiniband RDMA进行MPI操作,使加速器能直接驱动网卡而无需CPU参与 [25]