Cursor为Blackwell从零构建MXFP8内核，MoE层提速3.5倍，端到端训练提速1.5倍

硬件升级与性能瓶颈 - 从NVIDIA Hopper H100升级到Blackwell B200后硬件性能翻倍但实际训练速度因MoE层效率问题而下降[2] - Blackwell架构引入TMEM存储导致数据需往返于TMEM-寄存器-CUDA核心产生异步传输气泡拖慢效率[12] - 反量化耗时在Blackwell上达矩阵乘法的1.76倍远高于Hopper的1.03倍[15][16] 量化技术挑战 - 低精度FP8量化导致小数位四舍五入为零信息丢失需通过微缩放技术分块计算独立缩放因子解决[9][11] - MXFP8量化过程在MoE矩阵计算中搬运2.9GB数据耗时0.44毫秒占计算时间近40%反向传播时开销翻倍至0.88毫秒占比76%[17][18] - 现有开源量化内核带宽利用率仅约4.5TB/s且缩放因子布局与Blackwell硬件指令不兼容需额外重塑操作[19][24] 定制化解决方案 - 抛弃现有CUDA库依赖使用纯CUDA和PTX汇编重写MoE层直接针对TMEM特性设计数据流管线避免寄存器搬运开销[2][3][21] - 采用Warp专精分配线程组任务与2-CTA模式协同处理矩阵乘法减少内存流量带来15-20%性能提升[22][23] - 开发自定义MXFP8量化内核实现内存带宽超6.2TB/s输出数据布局与硬件指令完全一致避免重塑步骤[24][25] 性能提升成果 - MoE层在前向和反向传播中实现3.5倍提速端到端训练在Blackwell上比原方案快1.5倍较Hopper方案加速2倍[2] - 使用FP8E4M3元素类型与32块大小MXFP8格式训练损失收敛与BF16几乎无差异保证精度前提下最大化性能[26][27][30] - 专家级超分组算法优化L2缓存将分组矩阵乘法性能下降限制在仅4%远优于标准实现[23]