Workflow
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
量子位·2025-06-13 15:05

项目概述 - Nano-vLLM是一个开源项目,由DeepSeek研究员俞星凯开发,仅用不到1200行Python代码实现轻量级vLLM框架 [1][6][27] - 项目具有三大特点:快速离线推理(性能媲美vLLM)、可读性强的代码库、优化套件(包含前缀缓存、Torch compilation、CUDA graph等) [6] 性能对比测试 RTX 4070硬件/Qwen3-0.6B模型测试 - 在256个序列请求、输入输出长度100-1024 token随机采样的测试中: - vLLM输出133,966 tokens,耗时98.95秒,吞吐量1353.86 tokens/s [3][4] - Nano-vLLM输出相同token量,耗时101.90秒,吞吐量1314.65 tokens/s [3][4] - vLLM性能略微领先 [3] H800硬件/Qwen3-8B模型测试 - 在1024个序列请求、相同输入输出条件下: - vLLM输出583,802 tokens,耗时98.67秒,吞吐量5916.89 tokens/s [9] - Nano-vLLM输出相同token量,耗时86.73秒,吞吐量6731.42 tokens/s [9] - Nano-vLLM性能反超原框架 [9] vLLM框架背景 - 由加州大学伯克利分校Sky Computing Lab开发,现为社区驱动项目 [16] - GitHub累计获得49.5k+ Star,7.9k Fork [17][18] - 核心技术PagedAttention算法灵感源自操作系统虚拟内存分页机制,解决LLM服务系统内存碎片化问题 [19] - 采用分块存储KV缓存,通过块表动态映射逻辑块与物理块地址 [19][20][21] 技术优势 - 实现KV缓存内存近乎零浪费,支持请求内/间缓存共享 [24] - 相比FasterTransformer和Orca等系统,相同延迟下吞吐量提升2-4倍 [24] - 支持多种硬件平台(NVIDIA/AMD/Intel GPU/CPU、TPU、AWS Neuron)和功能(前缀缓存、多LoRA) [25][26] - 原版vLLM由8500行Python和2000行C++/CUDA代码构成 [26] 开发者背景 - 俞星凯2021年获南京大学计算机科学与技术系学士学位,同年免试录取为该校硕士 [11] - 现为周志华教授领导的LAMDA团队成员 [11]