最受欢迎的开源大模型推理框架 vLLM、SGLang 是如何炼成的?
AI科技大本营·2025-09-24 10:01
vLLM 和 SGLang 的社区发展故事。 作者 | 赵晨、夏小雅 责编 | Echo Tang 出品丨AI 科技大本营(ID:rgznai100) 首先,什么是 LLM 推理? 大语言模型(LLM)的训练过程因巨大的计算需求和突破性的成果而备受关注,然而决定这些模型在现实世界中实用性和广泛采用的关键,却是在推理 (Inference)阶段的效率、成本和延迟。推理的定义是,一个经过训练的 AI 模型将其学到的知识应用于全新的、未见过的数据,以做出预测或生成 输出的过程。对于 LLM 而言,这一过程具体表现为:接收用户的提示(Prompt),通过模型庞大的权重网络进行计算,最终生成一段连续的文本响 应。 LLM 推理的核心挑战在于,如何在严格的延迟、吞吐量和成本约束下,部署参数量高达数百亿甚至数千亿的模型。这是一个涉及算法、软件和硬件等 多个层面的复杂问题。一方面,模型本身的巨大体积,以及对应的计算和内存密集型操作(如注意力机制的计算),构成了本质上的障碍;另一方面, 生成文本所依赖的自回归解码(Autoregressive Decoding)过程,其固有的串行性限制了并行处理能力。因此,LLM 推理需要一个 ...