vLLM - 财报，业绩电话会，研报，新闻

vLLM

搜索文档

机器之心· 2025-10-26 12:03

文章核心观点 - vLLM是一套针对大语言模型推理优化的高性能开源推理框架，通过创新的显存管理、并行调度和KV缓存技术，在保持模型准确性的同时大幅提升吞吐量与响应速度[1] - 该博客文章对vLLM的架构、代码和原理进行了深入分析，涵盖了从基础推理流程到高级功能、扩展能力和分布式系统部署的完整技术栈[3][4][6] - 文章采用倒金字塔结构写作方式，从宏观层面入手逐步深入细节，帮助读者建立对整个系统的清晰整体认知而不被繁琐技术细节淹没[6] LLM引擎核心架构 - LLM引擎是vLLM的核心构建模块，单独使用时能够实现高吞吐量推理但仅限于离线场景[7][8] - 引擎构造函数包含多个子组件：vLLM配置、处理器、引擎核心客户端、输出处理器、模型执行器、结构化输出管理器和调度器[14][15] - 调度器内部包含策略设置、等待队列与运行队列以及KV缓存管理器，其中KV缓存管理器维护一个可用KV缓存块的池子，数量可达几十万甚至更多[16] - 模型执行器在构造过程中会创建Worker对象并执行三个关键步骤：初始化设备、加载模型和初始化KV缓存[19][20][21] 推理流程与调度机制 - Generate函数处理每个提示词时创建唯一请求ID并记录到达时间，通过输入预处理器进行分词后打包成EngineCoreRequest传递到引擎核心[24][25][29] - 每个推理步骤包含三个阶段：调度阶段选择本步骤要执行的请求，前向传播阶段运行模型并采样新token，后处理阶段进行去分词和停止条件检查[32][33][34][35] - 推理引擎主要处理两类工作负载：Prefill请求对所有提示token执行一次前向传播通常是计算受限的，Decode请求仅对最新生成的一个token执行前向传播是内存带宽受限的[38] - V1调度器可以在同一个step中混合处理prefill与decode请求，优先处理decode请求，调度器会计算需要生成的新token数并调用KV-cache管理器的allocate_slots函数[39][40][41][42] 高级功能特性 - 分块预填充将预填充步骤拆分为更小块执行，避免长提示词请求独占计算资源，通过设置long_prefill_token_threshold正整数启用[57] - 前缀缓存避免重复计算多个提示词开头部分共享的token，当提示词长度超过一个KV-cache块（默认16个token）时可显著加快预填充请求速度[62][70][73] - 引导式解码在每一步解码时通过基于语法的有限状态机对logits进行约束，确保只有符合语法规则的token被采样，支持正规文法和上下文无关文法[93][94][97] - 推测解码通过引入较小草稿模型快速生成k个候选token，然后使用大模型进行验证，在统计上等价于标准自回归解码但潜在更快[106][107][112] 系统扩展与分布式部署 - 从UniProcExecutor扩展到MultiProcExecutor支持多GPU进程，通过张量并行将模型分片到同一节点多张GPU上，节点内带宽显著高于节点间带宽[141][143][149] - 分布式系统部署示例使用两台8×H100节点，一台以headless模式运行引擎，另一台作为API服务器，通过数据并行在多个节点上复制模型[153][156] - API服务节点实例化AsyncLLM对象创建DPLBAsyncMPClient，通过FastAPI应用暴露OpenAI兼容接口，整个堆栈通过Uvicorn对外提供服务[172][175] - 完整请求生命周期从终端发送请求到API服务器，经过负载均衡选择引擎，执行推理步骤后将结果返回，复杂分布式系统对用户透明[177][183] 性能测量与基准测试 - 推理系统性能有两个互相制约的指标：延迟从请求提交到返回token的时间对交互式应用重要，吞吐量系统每秒能够生成或处理的token/请求数量对离线工作负载关键[185][186][189] - 常见推理性能指标包括TTFT从请求提交到接收第一个输出token的时间，ITL两个连续token之间的时间，TPOT请求中所有输出token的平均ITL，以及端到端延迟[190] - vLLM提供CLI工具vllm bench {serve,latency,throughput}进行基准测试，latency脚本使用短输入并生成128个输出token，throughput脚本一次性提交固定prompt集测量吞吐量[196][197] - 延迟和吞吐量存在竞争关系，当批大小B较小时每个token的间隔延迟下降，当B增大时间隔延迟上升但吞吐量提高直到达到峰值性能[192][193]

36氪· 2025-09-29 17:33

AI发展趋势与产业应用 - AI将超越通用人工智能(AGI) 迈向能够自我迭代进化的超级人工智能(ASI) [1] - 79%的受访公司已在业务中应用AI Agent 其中66%实现生产力提升 57%实现成本下降 55%决策效率加快 54%客户体验提升 [1] - 科技巨头全面布局Agent领域包括OpenAI的Agent Mode 微软的Copilot 谷歌的Jules Agent 字节跳动的Coze 百度的全平台智能Agent [2] 阿里云战略定位与基础设施 - 阿里云升级为"全栈人工智能服务商" 提出大模型是新的操作系统超级AI云是新的计算机 [3] - 基础设施具备四大特点：大规模弹性高可用与稳定性长短期记忆与检索推理优化与加速 [7][8][9] - ACS GPU serverless架构实现秒级拉起百亿参数模型推理服务PAI-EAS提升吞吐率超过70% [7][8] - 对象存储OSS支持千亿级数据量云原生数据库PolarDB提供金融级支撑 [7] 通义大模型技术体系 - 通义千问系列在中文理解工具调用多模态任务上具全球竞争力 [5] - Qwen模型在MMLU CMMLU AGIEval等基准测试多次超过GPT-4-turbo和Claude 3 Sonnet [5] - 发布6个模型升级包括万亿参数Qwen3-MAX 全模态模型Qwen3-Omni 视觉模型Qwen3-VL 图像模型Qwen-Image 代码模型Qwen3-Coder 视频模型Wan2.5-Preview 语音模型通义百聆 [6] 百炼Agent开发平台 - 采用"1+2+7"企业级Agent体系：一套模型服务两种开发模式七大关键能力 [13] - 双轨开发模式：低代码ADP快速验证原型高代码ADK支持深度定制 [14] - 七大关键能力覆盖记忆管理工具连接安全沙箱日志追踪动态推理支付交易数据管理 [15] - 平台已支撑20万开发者构建80万个Agent 模型调用量同比增长超15倍 [16] 企业应用案例与成效 - 网商银行风控流程实现95%准确率处理时间从3小时缩短至5分钟流转效率提升50%-300% [15] - 鱼泡网通过数据处理Agent提升人岗匹配效率80% [15] - 听力熊学习机衍生50多种交互技能覆盖百万用户日均交互量居行业首位 [15] 行业竞争与市场地位 - 阿里云连续多年国内云计算+AI市场份额第一 2025年上半年商业体量超第二至第四名总和 [18] - 十万级企业客户在阿里云运行业务成为国内最被验证的AI+云平台 [18] - 全栈能力使中国企业不必依赖海外方案即可完成研发到应用闭环 [21]

从模型到生态：2025 全球机器学习技术大会「开源模型与框架」专题前瞻

AI科技大本营· 2025-09-26 13:49

开源与闭源AI模型性能趋势 - 2025年开源与闭源模型的性能差距已从常见的8%缩小至1.7% [1] 2025全球机器学习技术大会专题设置 - 大会特设“开源模型与框架”专题，聚焦底层构件的开源创作与实践 [1] - AI竞争已扩展至数据、模型、系统和评测四大支柱 [12] - 大会设置十二大前沿专题，覆盖大模型技术演进与智能体工程实践 [13] 参会机构与行业参与度 - 参会机构包括北大、清华、百度、阿里、腾讯、字节跳动等国内顶尖机构 [12][13] - 来自Meta、谷歌、阿里等公司的生态竞争围绕未来“AI操作系统”展开 [12] 重点开源项目与技术方向 - MNN-LLM项目专注于移动端大语言模型推理框架 [7][23] - vLLM项目致力于提供人人可用、快速且低成本的大模型推理服务 [7][23] - verl项目是灵活高效的大模型强化学习编程框架 [10][23] - SpecForge是用于训练投机采样模型的工具 [23] 大会核心演讲嘉宾与议题 - Lukasz Kaiser将分享推理模型的历史、现在与未来 [17] - 议题涵盖可验证奖励强化学习、腾讯混元翻译模型优化、MiniCPM端侧大模型等 [17][18] - 智能体相关议题包括AReaL异步强化学习、扣子罗盘效果评测、通义DeepResearch构建方法论等 [18]