清华大学集成电路学院在 MICRO 2025 成功举办“Ventus：基于 RISC-V 的高性能开源 GPGPU”学术教程

项目总览 - 清华大学团队在MICRO 2025会议上成功组织了关于开源GPGPU"乘影"(Ventus)的学术教程[1][15] - 项目基于RISC-V及其向量扩展构建高性能开源通用图形处理器(GPGPU)[1][15] - 项目布局完整，涵盖指令集、硬件架构、编译器、仿真器及验证工具等全栈技术[3][15] 核心架构设计 - 从指令、数据、线程三个并行维度阐明GPGPU作为硬件多线程SIMD处理器的本质[5][16] - 在RISC-V Vector扩展基础上构建功能完备的SIMT架构[5][16] - 微架构实现包括CTA调度器、Core pipeline、warp scheduler等核心组件[5][16] 缓存与内存管理 - 缓存子系统在RISC-V RVWMO内存模型下采用释放一致性引导的缓存一致性机制[6][16] - 通过快通路与稳健通路的分工兼顾低延迟与全局正确性[6][16] - MMU设计将开销控制在15%–25%之间，L1 DTLB命中率超过95%，L2 TLB命中率超过85%[6][16] AI加速单元 - 新一代多精度可复用张量核心支持从FP16到INT4及MX FP8/FP6/FP4等多种新兴数据精度[7][16] - 采用硬件资源复用设计，通过异质乘法器的动态复用节省硬件面积[7] - 集成Tensor Core后，特定负载的指令数与执行周期数分别实现69.1%与68.4%的优化[7][16] 验证框架 - GVM框架是面向Ventus GPGPU的指令级软硬件协同差分验证框架[8][17] - 通过将RTL与定制化指令集模拟器进行差分比较，有效发现多处细微BUG[8][9][17] - 在SIMT语义下引入软件ROB解决GPGPU指令乱序完成带来的验证挑战[8][17] 软件工具链 - 支持OpenCL 2.0 profile，已通过超过85%的OpenCL一致性测试[10][17] - 基于Triton的AI算子库为ML工程师提供友好方式开发高效算子[10][17] - 工具链包含Compiler、Runtime、Driver、Simulator等核心模块，实现从硬件验证到上层程序运行的全流程支持[11][17] 实践演示与验证 - 提供交互式Jupyter网页指导，详细介绍项目开源仓库的组件构成和部署方法[12][17] - 基于VCU128 FPGA构建验证平台，集成Ventus GPGPU核心(1SM 8warp 16thread@50MHz)[13][17] - 成功运行向量加法、高斯消元和MNIST推理等关键测试，完成从仿真到实际硬件加速的全流程验证[13][17]