1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
机器之心·2025-06-13 12:31
开源LLM推理引擎优化 - vLLM是由加州大学伯克利分校团队开发的高性能开源LLM推理和服务引擎,旨在提升LLM的推理速度和资源利用率,兼容Hugging Face等流行模型库[2] - vLLM通过创新的PagedAttention注意力机制实现方案,使GPT、Mistral、LLaMA等主流模型系列运行更快且消耗更少资源[3] - DeepSeek AI研究者俞星凯开发了轻量级vLLM实现Nano-vLLM,代码简化至1200行,在GitHub上获得200多Star[4][5] Nano-vLLM技术特性 - Nano-vLLM具备三大核心功能:快速离线推理(速度与vLLM相当)、易读代码库(Python代码少于1200行)、优化套件(提供Prefix缓存、Torch编译等功能)[6][7][8] - 基准测试显示,Nano-vLLM与vLLM输出token相同(133,966个),时间略长(101.90秒 vs 98.95秒),吞吐量稍低(1314.65 tokens/s vs 1353.86 tokens/s)[11] - 测试配置为RTX 4070硬件、Qwen3-0.6B模型,256个序列请求,输入输出长度在100-1024 tokens间随机采样[10] 开发者背景 - Nano-vLLM开发者俞星凯现任DeepSeek深度学习系统工程师,参与过DeepSeek-V3和DeepSeek-R1开发[13] - 曾就职于腾讯、幻方(DeepSeek母公司)和字节跳动,2023年正式加入DeepSeek[14] - 此前开发过植物大战僵尸Qt版(GitHub 270+ Star)及多个南京大学计算机项目[13]