Workflow
cuDNN 库
icon
搜索文档
FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?
36氪· 2025-08-26 20:41
FlashAttention-4技术发布 - 在Hot Chips 2025会议上由TogetherAI首席科学家Tri Dao公布FlashAttention-4 [1] - 新版本针对英伟达Blackwell架构进行原生优化 此前需依赖Triton/cuDNN间接支持 [19] 性能表现 - 在Blackwell上比英伟达cuDNN库中的注意力核实现快达22% [2] - 执行A@B+C计算时 在归约维度K较小场景下比cuBLAS 13.0库更快 标准矩阵算法A@B时两者速度相当 [5] - 通过两个累积缓冲区重叠epilogue设计击败cuBLAS [9] 算法改进 - 采用新型在线softmax算法 跳过90%输出rescaling操作 [6] - 使用指数软件模拟(MUFU.EX2)提升softmax与张量核计算的吞吐量重叠 [6] - 基于CUTLASS CuTe Python DSL开发 ROCm HIP移植难度比CUDA C++高10倍 [6] 技术演进历程 - 初代FlashAttention(2022)通过tiling+softmax rescaling策略将内存复杂度从O(N²)降至O(N) [11][13] - BERT-large训练速度提升15% GPT-2(序列长度1K)速度提升3倍 Long-Range Arena(序列长度1K–4K)提升2.4倍 [13] - FlashAttention-2(2023)速度比初代提高2-4倍 A100 GPU达230 TFLOPs/s 为PyTorch标准实现9倍速度 [17][18] - FlashAttention-3(2024)适配Hopper架构 速度达FlashAttention-2的1.5-2.0倍 FP8精度下接近1.2 PFLOPS [19] - GitHub仓库累计获得19.1k星标 目前未发布技术报告 [23][24] 行业生态影响 - Tri Dao等开发者专注于英伟达GPU并开源核心代码 被视为CUDA生态核心优势 [9] - AMD需提供优惠支持或支付5000万美元才可能吸引开发者转向ROCm生态系统 [9] - 谷歌曾支付27亿美元获取Noam Shazeer技术 Meta为OpenAI工程师支付1亿美元 [9]
FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?
机器之心· 2025-08-26 17:38
FlashAttention-4性能提升 - 在Blackwell上比英伟达cuDNN库中的注意力核实现快可达22% [2] - 使用新的在线softmax算法跳过了90%的输出rescaling [4] - 通过软件模拟指数(MUFU.EX2)提高吞吐量 实现softmax计算与张量核计算的重叠 [5] 算法与硬件适配优化 - 使用CUTLASS CuTe Python DSL 但移植到ROCm HIP的难度比CUDA C++高10倍 [6] - 对Blackwell GPU提供原生支持 此前开源仓库存在编译错误和性能未优化问题 [23] - 执行A@B+C计算时 在归约维度K较小的场景中比cuBLAS 13.0库更快 标准矩阵算法A@B则性能相当 [7] 开发者生态与行业影响 - 通过双累积缓冲区重叠epilogue技术击败cuBLAS [10] - Tri Dao等开发者专注于英伟达GPU并开源核心代码 被视为CUDA生态的核心优势 [10] - AMD需提供资金支持(如5000万美元)才能吸引开发者转向ROCm生态系统 [10] FlashAttention技术演进历程 - 初代(2022年)通过IO-aware和tiling技术将内存复杂度从O(N²)降至O(N) 在GPT-2上速度提升7.6倍 [12][14] - FlashAttention-2(2023年)速度提高2-4倍 在A100上达230 TFLOPs/s 为PyTorch实现的9倍 [19][21] - FlashAttention-3(2024年)针对Hopper架构优化 速度达FlashAttention-2的1.5-2.0倍 FP8精度下接近1.2 PFLOPS [23] - GitHub仓库累计获得超过1.91万星 但FlashAttention-4尚未发布技术报告 [25][26]