DeepSeek研究员1200行代码复刻vLLM，H800硬件实测性能反超原版

项目概述 - Nano-vLLM是一个开源项目，由DeepSeek研究员俞星凯开发，仅用不到1200行Python代码实现轻量级vLLM框架 [1][6][27] - 项目具有三大特点：快速离线推理（性能媲美vLLM）、可读性强的代码库、优化套件（包含前缀缓存、Torch compilation、CUDA graph等） [6] 性能对比测试 RTX 4070硬件/Qwen3-0.6B模型测试 - 在256个序列请求、输入输出长度100-1024 token随机采样的测试中： - vLLM输出133,966 tokens，耗时98.95秒，吞吐量1353.86 tokens/s [3][4] - Nano-vLLM输出相同token量，耗时101.90秒，吞吐量1314.65 tokens/s [3][4] - vLLM性能略微领先 [3] H800硬件/Qwen3-8B模型测试 - 在1024个序列请求、相同输入输出条件下： - vLLM输出583,802 tokens，耗时98.67秒，吞吐量5916.89 tokens/s [9] - Nano-vLLM输出相同token量，耗时86.73秒，吞吐量6731.42 tokens/s [9] - Nano-vLLM性能反超原框架 [9] vLLM框架背景 - 由加州大学伯克利分校Sky Computing Lab开发，现为社区驱动项目 [16] - GitHub累计获得49.5k+ Star，7.9k Fork [17][18] - 核心技术PagedAttention算法灵感源自操作系统虚拟内存分页机制，解决LLM服务系统内存碎片化问题 [19] - 采用分块存储KV缓存，通过块表动态映射逻辑块与物理块地址 [19][20][21] 技术优势 - 实现KV缓存内存近乎零浪费，支持请求内/间缓存共享 [24] - 相比FasterTransformer和Orca等系统，相同延迟下吞吐量提升2-4倍 [24] - 支持多种硬件平台（NVIDIA/AMD/Intel GPU/CPU、TPU、AWS Neuron）和功能（前缀缓存、多LoRA） [25][26] - 原版vLLM由8500行Python和2000行C++/CUDA代码构成 [26] 开发者背景 - 俞星凯2021年获南京大学计算机科学与技术系学士学位，同年免试录取为该校硕士 [11] - 现为周志华教授领导的LAMDA团队成员 [11]