FlashInfer

搜索文档
叶子豪、陈天奇等人开源项目FlashInfer入选,MLSys2025最佳论文奖公布
机器之心· 2025-05-14 12:36
核心观点 - 国际系统领域顶会 MLSys 2025 最佳论文奖由两篇华人主导的论文获得,分别是华盛顿大学等机构合作的《FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving》和瑞典查尔摩斯理工大学的《The Hidden Bloat in Machine Learning Systems》[1] - FlashInfer 是一个高效可定制的大语言模型注意力推理引擎,其技术已被集成到多个主流项目中[2][5] - 另一篇获奖论文提出了 Negativa-ML 方法,可显著减少机器学习系统中的代码臃肿问题[31][32] FlashInfer 论文 项目背景 - FlashInfer 是华盛顿大学、卡耐基梅隆大学和 OctoAI 合作的研究项目,旨在创建灵活的大语言模型推理内核库[4] - 项目提供多种 LLM GPU 内核的高性能实现,包括 FlashAttention、SparseAttention 等[4] - 首个适用于 DeepSeek MLA 的 Blackwell 内核也出自 FlashInfer[5] 技术优势 - 与当前最先进的 LLM 部署方案相比,FlashInfer 在多种场景下显著提升性能: - token 间延迟减少 29% 至 69%[7] - 长上下文推理任务延迟降低 28% 至 30%[7] - 并行生成场景推理速度提升 13% 至 17%[7] - 采用块稀疏行格式(BSR)存储键值缓存,支持动态配置块大小[16] - 兼容 NVIDIA Turing 到 Hopper 全系架构,针对不同硬件采用优化算法[17] 系统设计 - 通过 JIT 编译支持自定义注意力变体,用户只需定义函数子模块即可生成优化内核[20][21] - 采用 Plan/Run 模式处理不规则负载,借鉴 Inspector-Executor 模式[26] - 提供面向用户的 API,支持动态选择最优 CUDAGraph 执行[23] The Hidden Bloat in Machine Learning Systems 论文 研究内容 - 提出 Negativa-ML 方法,可分析 ML 框架共享库并识别消除臃肿代码[31] - 重点关注设备代码中的不必要代码,这是现有研究忽略的领域[31] - 在 300 个共享库的十个工作负载中验证方法有效性[31] 研究成果 - 平均减少设备代码大小达 75%,主机代码大小达 72%,文件总大小达 55%[32] - 峰值主机内存使用量减少最多 74.6%,GPU 内存使用量减少最多 69.6%[32] - 执行时间最多减少 44.6%[32]