Workflow
GPGPU
icon
搜索文档
龙芯中科:9A1000是龙芯首款GPGPU芯片,在9月底交付流片
北京商报· 2025-11-17 22:04
公司产品发布 - 龙芯中科于11月17日披露其首款GPGPU芯片9A1000 [1] - 9A1000芯片融合了图形和人工智能算力 可用作AIPC [1] - 该芯片图形性能高于CPU中集成的集显性能 定位为入门级独显 [1] - 公司争取开发9A1000的Windows驱动 使其可与Windows电脑配套 [1] - 9A1000芯片已于9月底交付流片 [1]
清华大学 集成电路学院在 MICRO 2025 成功举办“Ventus:基于 RISC-V 的高性能开源 GPGPU”学术教程
半导体行业观察· 2025-10-26 11:16
项目总览 - 清华大学团队在MICRO 2025会议上成功组织了关于开源GPGPU"乘影"(Ventus)的学术教程[1][15] - 项目基于RISC-V及其向量扩展构建高性能开源通用图形处理器(GPGPU)[1][15] - 项目布局完整,涵盖指令集、硬件架构、编译器、仿真器及验证工具等全栈技术[3][15] 核心架构设计 - 从指令、数据、线程三个并行维度阐明GPGPU作为硬件多线程SIMD处理器的本质[5][16] - 在RISC-V Vector扩展基础上构建功能完备的SIMT架构[5][16] - 微架构实现包括CTA调度器、Core pipeline、warp scheduler等核心组件[5][16] 缓存与内存管理 - 缓存子系统在RISC-V RVWMO内存模型下采用释放一致性引导的缓存一致性机制[6][16] - 通过快通路与稳健通路的分工兼顾低延迟与全局正确性[6][16] - MMU设计将开销控制在15%–25%之间,L1 DTLB命中率超过95%,L2 TLB命中率超过85%[6][16] AI加速单元 - 新一代多精度可复用张量核心支持从FP16到INT4及MX FP8/FP6/FP4等多种新兴数据精度[7][16] - 采用硬件资源复用设计,通过异质乘法器的动态复用节省硬件面积[7] - 集成Tensor Core后,特定负载的指令数与执行周期数分别实现69.1%与68.4%的优化[7][16] 验证框架 - GVM框架是面向Ventus GPGPU的指令级软硬件协同差分验证框架[8][17] - 通过将RTL与定制化指令集模拟器进行差分比较,有效发现多处细微BUG[8][9][17] - 在SIMT语义下引入软件ROB解决GPGPU指令乱序完成带来的验证挑战[8][17] 软件工具链 - 支持OpenCL 2.0 profile,已通过超过85%的OpenCL一致性测试[10][17] - 基于Triton的AI算子库为ML工程师提供友好方式开发高效算子[10][17] - 工具链包含Compiler、Runtime、Driver、Simulator等核心模块,实现从硬件验证到上层程序运行的全流程支持[11][17] 实践演示与验证 - 提供交互式Jupyter网页指导,详细介绍项目开源仓库的组件构成和部署方法[12][17] - 基于VCU128 FPGA构建验证平台,集成Ventus GPGPU核心(1SM 8warp 16thread@50MHz)[13][17] - 成功运行向量加法、高斯消元和MNIST推理等关键测试,完成从仿真到实际硬件加速的全流程验证[13][17]
英伟达:从显卡巨头到AI霸主
钛媒体APP· 2025-07-14 13:29
战略转型与市场地位 - 公司从游戏图形芯片制造商转型为全球人工智能计算基础设施核心供应商,市值一度突破3万亿美元 [1] - 数据中心业务成为主要增长引擎,2025财年第四季度营收393亿美元(同比+78%),其中数据中心业务收入356亿美元(同比+93%) [2] - 2025财年全年营收1305亿美元,同比翻番,AI相关业务成为营收增长主引擎 [2] - 高端GPU产品(H100/H200/Blackwell系列)成为大型AI模型训练的"基础设施"基石,全球主要云服务提供商均大量采购 [3] - 向沙特PIF旗下Humain公司出售超过1.8万个最新AI芯片,用于建设容量最高500兆瓦的数据中心 [3] 技术优势与生态系统 - CUDA平台(2006年推出)构建了围绕英伟达硬件的软件生态系统,为AI计算奠定基础 [6] - 2012年深度学习突破性成果依赖于英伟达GPU和CUDA生态系统 [7] - 持续改进GPU架构(如Tensor Cores)并优化CUDA平台配套软件库(cuDNN/TensorRT) [8] - 通过收购Mellanox进入高性能网络领域,提供高速互连解决方案(InfiniBand) [8] - 开发DGX系列AI超级计算机,提供集成硬件和软件解决方案 [8] 行业领导地位 - 硬件性能和架构领先,与台积电等先进半导体制造商紧密合作保持代际优势 [10][11] - CUDA软件生态系统形成行业标准,全球数百万AI研究人员依赖该平台 [11] - 提供从芯片、板卡、系统、网络到软件的全栈服务能力 [12] - 品牌影响力和开发者社区形成正向反馈循环,巩固市场地位 [12] - 在复杂AI模型训练领域保持绝对优势,竞争对手需在硬件性能和软件生态上同时追赶 [13]