Workflow
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
量子位·2025-06-13 15:05

西风 发自 凹非寺 量子位 | 公众号 QbitAI 仅用不到 1200行代码,实现最小化且完全可读的vLLM ! Dee pSeek研究 员俞星凯 搞了个开源项目引得大伙拍手叫绝。 项目名为 Nano-vLLM ( 纳米 级-vLLM) ,有三大特点: 下面是vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试情况。 在RTX 4070硬件、Qwen3-0.6B模型环境中,设置了256个序列的总请求数,输入和输出长度均在100-1024个 token间随机采样。 测试结果be like: | Inference Engine | Output Tokens | Time (s) | Throughput (tokens/s) | | --- | --- | --- | --- | | vLLM | 133,966 | 98.95 | 1353.86 | | Nano-vLLM | 133,966 | 101.90 | 1314.65 | vLLM略微领先。 二者输出token量相同,vLLM耗时98.95秒、吞吐量为1353.86 tokens/s,Nano-vLLM耗时101.90秒、吞吐量131 ...