Workflow
指令集架构(ISA)
icon
搜索文档
一颗颠覆传统的芯片
半导体行业观察· 2026-02-06 09:33
文章核心观点 - NextSilicon公司推出的Maverick 2处理器采用了一种创新的数据流架构,旨在通过直接执行编译中间表示的计算图来大幅提升高性能计算和人工智能工作负载的性能,其性能优势可达数量级级别 [2][5][13] NextSilicon公司及其Maverick 2处理器 - NextSilicon是一家致力于计算机体系结构创新的公司,其策略与主流不同,公司内部拥有众多聪明人才 [2] - Maverick 2处理器是该公司最新推出的产品,其前身是Maverick 1,公司从中吸取了经验并优化了开销 [15] - 公司选择高性能计算作为首要目标市场,该市场规模约为几十亿美元,远小于数万亿美元规模的人工智能市场,但选择HPC是出于战略考虑,旨在与最成熟的客户和合作伙伴共同推动技术成熟 [16][17] - 公司已与桑迪亚国家实验室等顶级计算中心合作,以获得切实可行的反馈并验证技术 [17] 数据流架构的技术原理 - 传统CPU和GPU基于已有八十年历史的冯·诺依曼架构,其核心需要将程序的中间表示图序列化为指令流,然后在芯片上重构依赖关系图以进行乱序执行,这个过程存在开销 [5][6] - NextSilicon的架构核心思想是绕过指令流,直接使用编译器生成的中间表示图,并制造硬件来直接执行这个图,从而消除指令提取、解码、重排序等环节的开销 [5][7][12] - 该架构通过将计算图流水线化,使得大量线程和迭代可以在图的不同阶段同时执行,从而实现每个周期执行整个循环,而非传统CPU每周期执行少数几条指令 [9] - 架构中没有指令提取单元、指令缓存、乱序执行引擎或指令重排序缓冲区 [12] 内存系统的创新与优势 - 架构将内存访问分散到芯片各处,每个内存管理单元只需处理少量内存访问,相比于需要处理整个程序所有内存访问的CPU MMU,其优化潜力更大 [10] - 该架构可以同时产生远高于CPU和GPU的未完成内存访问请求数量,高出一个数量级,从而能更充分地利用HBM内存带宽 [11] - 公司通过收集运行时遥测数据并动态调整内存分配来解决伪共享等问题,而非在编译时处理 [11] - 在STREAM基准测试中,该架构能够充分利用HBM带宽;在GUPS随机内存访问测试中,其性能数据在其他任何平台上都是前所未闻的,即使缓存完全失效也能充分利用HBM内存 [18] - 该架构计算性能极高,能够将通常受计算限制的工作负载转化为受内存限制的工作负载,并使其性能达到内存带宽的极限 [18] 软件生态与编程模型 - 公司的明确目标是无需任何代码更改即可运行现有程序 [19] - 公司提供性能分析工具,可以识别性能瓶颈并推荐源代码更改,这些更改通常也适用于提升在其他平台上的性能 [19] - 该架构不支持自动并行化,开发者仍需在源代码中明确表达并行性,可以使用OpenMP、Kokkos、CUDA等模型编写并行代码 [20][21] - 公司宣传“自带代码”模式,并探讨了通过HIP等工具支持CUDA代码的可能性,以应对所谓的“CUDA护城河” [21][22] 性能表现与竞争优势 - 公司通过分析高性能计算常用内核,找到了一种适用于多种场景的硬件配置组合,能够以极高的性能满负荷运行各种应用程序 [13] - 其性能目标不仅是领先竞争对手几个百分点,而是领先一个数量级 [13] - 公司可以生成多个硬件配置,并在应用程序运行时以微秒级甚至纳秒级的速度动态重新配置,以高效应对包含数百个不同内核的复杂程序 [14][15] - 与需要同时运行GPU和HPC加速器的系统相比,该芯片在HPC+AI融合工作负载市场拥有非常大的潜力 [23][24] 未来发展方向 - 数据流架构本身比CPU或GPU更高效,但公司目前专注于HPC市场,并研究如何利用现有芯片实现人工智能应用 [22][23] - 公司以高性能计算为核心,保持对FP64精度的支持,以应对HPC+AI工作负载 [23] - 公司采用芯片组架构,着眼于未来通过提升芯片间连接性来扩展工作负载,例如将庞大的AI模型分片到不同芯片上运行 [24][25] - 在多芯片应用中,公司使用类似GPUDirect的技术,通过Infiniband RDMA进行MPI操作,使加速器能直接驱动网卡而无需CPU参与 [25]
ISA之战已结束,CPU进入新时代
半导体行业观察· 2025-11-11 09:06
核心观点 - 单一CPU架构无法满足所有处理需求,在单个系统或SoC中采用多种CPU架构已成为行业常见做法 [2] - 人工智能的兴起对计算性能提出更高要求,推动行业寻求包含不同架构的独特解决方案 [3] - 半导体行业正进入异构CPU时代,焦点从哪种架构胜出转向多种架构如何协同工作 [11] CPU架构市场格局 - x86架构由英特尔和AMD共同推进,是PC和通用服务器的主流架构,2024年出货量在2.5亿至3亿颗之间 [5][7] - Arm架构是领先的处理器架构,应用于移动设备、消费物联网、汽车等领域,2024年出货量预计达290亿颗 [5][7] - RISC-V是开源指令集架构,预计2024年出货约10亿个内核,主要用于深度嵌入式应用 [8] - Power架构仍在IBM大型机中使用,SPARC和MIPS等架构在特定细分市场仍有应用 [9] 架构特性与演进 - x86架构优势在于PC和服务器应用程序的软件兼容性,许多x86 SoC集成了用于安全、人工智能的辅助RISC内核 [5] - Arm架构拥有庞大的硬件和软件生态系统,驱动所有苹果PC、部分Windows PC以及众多服务器处理器 [7] - RISC-V允许在ISA级别进行完全定制,在定制嵌入式功能方面极具吸引力,但软件工具和支持仍落后于Arm和x86 [8] - AMD和英特尔已开始开发不同性能级别的x86 CPU内核,为服务器提供更多SoC配置 [11] - Arm新增预验证计算子系统并通过Arm Total Design构建芯片生态系统,支持更广泛的应用和异构计算解决方案 [11] 行业发展趋势 - 人工智能要求从云服务器到嵌入式设备的每瓦性能都呈指数级增长,推动规模、效率和灵活性出现新动态 [3] - 为满足AI对性能效率的需求,同一芯片设计中使用多种CPU架构的情况将更加普遍 [11] - 行业正向基于芯片组的未来处理器和SoC转型,芯片组技术最终将应用于嵌入式系统 [11]
独家对话RISC-V International CEO:从嵌入式到高性能,RISC-V的全域进击之路
半导体芯闻· 2025-07-30 18:54
核心观点 - 开放指令集架构RISC-V正在打破传统科技巨头的技术垄断,重塑全球计算架构格局 [1] - RISC-V凭借其开放、模块化特性,正在AI、汽车、数据中心等关键领域加速产业落地 [2][5] - 预计到2031年,RISC-V SoC芯片出货量将超200亿颗,市场渗透率从2024年5.9%跃升至25.7% [11] RISC-V架构优势 - 具有开放、公开、免授权费特点,允许全球任何组织自由使用、修改和扩展 [5] - 模块化设计理念激发系统设计灵活性,支持跨地域、跨规模、跨领域协作 [5] - RVA23规范统一了64位应用处理器核心功能,强制包含向量指令和虚拟化能力,确保软件兼容性 [6][7][9] 应用领域进展 - AI领域:NVIDIA GPU集成多个RISC-V内核,2024年预计出货10亿颗;中国企业如晶心科技、阿里巴巴等积极布局 [14] - 汽车电子:英飞凌推出汽车级RISC-V微控制器,芯来科技NA900通过ISO26262认证,长城汽车推出紫晶M100微控制器 [15] - 预计2031年市场渗透率:消费电子39%、计算机33%、汽车31%、数据中心28%、工业27%、网络26% [16] 生态建设 - RISC-V International通过标准制定、技术工作组协调与开发者社区扶持推动生态发展 [6] - 发放近300块开发板、开设线上培训课程,计划在北美峰会试点开发者工作坊 [18] - 中国社区贡献显著,香山、玄铁、芯来科技等企业推动本土创新 [18][19] 未来展望 - 从嵌入式设备扩展到高性能计算、企业级AI处理器、车载平台及航空航天领域 [23] - 即将召开RISC-V Automotive Conference 2025探讨智能汽车应用前景 [23] - 过去15年实现从学术项目到产业标准的蜕变,未来将继续推动架构创新与生态增长 [23]