Workflow
FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?

FlashAttention-4性能提升 - 在Blackwell上比英伟达cuDNN库中的注意力核实现快可达22% [2] - 使用新的在线softmax算法跳过了90%的输出rescaling [4] - 通过软件模拟指数(MUFU.EX2)提高吞吐量 实现softmax计算与张量核计算的重叠 [5] 算法与硬件适配优化 - 使用CUTLASS CuTe Python DSL 但移植到ROCm HIP的难度比CUDA C++高10倍 [6] - 对Blackwell GPU提供原生支持 此前开源仓库存在编译错误和性能未优化问题 [23] - 执行A@B+C计算时 在归约维度K较小的场景中比cuBLAS 13.0库更快 标准矩阵算法A@B则性能相当 [7] 开发者生态与行业影响 - 通过双累积缓冲区重叠epilogue技术击败cuBLAS [10] - Tri Dao等开发者专注于英伟达GPU并开源核心代码 被视为CUDA生态的核心优势 [10] - AMD需提供资金支持(如5000万美元)才能吸引开发者转向ROCm生态系统 [10] FlashAttention技术演进历程 - 初代(2022年)通过IO-aware和tiling技术将内存复杂度从O(N²)降至O(N) 在GPT-2上速度提升7.6倍 [12][14] - FlashAttention-2(2023年)速度提高2-4倍 在A100上达230 TFLOPs/s 为PyTorch实现的9倍 [19][21] - FlashAttention-3(2024年)针对Hopper架构优化 速度达FlashAttention-2的1.5-2.0倍 FP8精度下接近1.2 PFLOPS [23] - GitHub仓库累计获得超过1.91万星 但FlashAttention-4尚未发布技术报告 [25][26]