Seek .-DeepSeek倒逼vLLM升级，芯片内卷、MoE横扫千模，vLLM核心维护者独家回应：如何凭PyTorch坐稳推理“铁王座”

vLLM项目发展历程与社区生态 - vLLM项目起源于加州大学伯克利分校Sky Computing Lab，于2023年开源其核心PagedAttention技术，在短短一年多内GitHub Star数突破4万，并迅速增长至6.5万，已成为全球科技公司首选的推理引擎 [1] - Neural Magic公司通过“免费平台 + 开源工具”策略，在AI优化领域脱颖而出，通过深入贡献vLLM构建了企业级推理堆栈并维护预优化模型库，其社区积累与工程实力吸引了红帽的注意 [1] - 2024年11月，红帽正式收购Neural Magic，并将包括vLLM核心维护者Michael Goin在内的核心团队纳入旗下，Michael在优化推理性能、最大化CPU/GPU效能方面拥有超过十年经验 [1] vLLM技术演进与模型支持 - vLLM开发团队作为项目“内核团队”，专注于集成与开发高性能推理内核，随着DeepSeek R1等模型的发布，团队开发重心从聚焦Llama系列转向全力投入DeepSeek模型相关特性优化 [3] - 在0.7.2版本中，团队紧凑开发以迅速响应DeepSeek新特性，高效支持了Qwen 2.5 VL并引入了Transformers backend，使用户能直接运行任意Hugging Face模型 [3] - 随后的0.7.3版本成为一次规模更大的更新，为DeepSeek启用了多Token预测、MLA注意力等优化，扩展了对AMD硬件的支持与调优，并推动了vLLM从支持张量并行、流水线并行到支持专家并行的演进 [4] - 团队将DeepSeek开源的一系列高性能工具，如DeepGEMM、DeepEP、专家并行负载均衡等，系统化地融入vLLM生态 [4] - 团队面向推理场景不断扩充高性能内核库，涵盖定制版Triton、CUTLASS、CUDA内核、HIP内核等，还包括各种量化支持与众多定制内核实现 [7] - 除了主导DeepSeek V3的整合，团队还完成了GPT-OSS、Qwen、Kimi等多个模型的适配与优化 [7] 硬件生态支持与战略 - vLLM团队的核心使命之一是构建开放、高效的硬件推理生态，广泛支持各类主流芯片，并深度参与新硬件的架构设计与性能优化 [8] - 过去几个月，团队与NVIDIA共同推进Blackwell芯片的支持工作，优化B200相关性能，并与AMD团队保持紧密协作以确保其在vLLM中的性能表现 [8] - 团队与Google TPU团队紧密合作一年多，完成了多次版本发布，并作为最高决策者参与设计了整体沐曦芯片的支持架构 [8] - 团队与硬件伙伴的合作流程严谨，例如在沐曦项目的早期阶段便共同讨论支持框架设计，主导高层架构，并通过创建跨公司“线上联合工作组”确保高效推进 [8] - vLLM广泛支持从NVIDIA、AMD到Google TPU乃至国内众多芯片的核心战略在于深度拥抱PyTorch，将其作为连接上层框架与底层硬件的“最大公约数” [9] - 只要硬件厂商提供了对PyTorch的良好支持，适配vLLM的工作就已完成了绝大部分（约90%），剩余约10%主要涉及对PyTorch中效率较低的部分进行定制优化 [10] - vLLM中的模型定义几乎完全基于PyTorch编写，并支持十余种其他硬件backend的注意力实现，如NVIDIA的FlashAttention、AMD的ROCm Attention、Google TPU的Pathways Attention等 [10] 多模态能力拓展 - vLLM团队将vLLM从一个纯文本推理引擎，全面升级为一个支持全模态生成与理解的统一服务平台，多模态模型架构改变了vLLM的架构 [17] - 团队对vLLM v1版本进行了彻底重构，一项关键创新是多模态前缀缓存，将Page Attention机制从文本token的键值缓存扩展至图像、音频等任意模态输入，大幅提升了重复请求的处理效率 [18] - 团队实现了编码器解耦技术，将视觉、音频编码器与语言模型backbone解耦，为超大规模推理场景提供了极致的弹性与资源利用率 [18] - 2024年12月，vLLM-Omni作为其首个“全模态”推理框架正式发布，它将文本、图像、音频、视频的统一生成从概念变为可落地的生产级代码 [19] - Omni引入了一套完全解耦的流水线架构，让不同阶段按需分配资源，并通过统一调度衔接，一个omni-modality推理请求会经过模态编码器、LLM核心与模态生成器三类组件 [19] - 如今vLLM支持的范围十分广泛，包括多模态理解与生成、嵌入模型、智能体编程，以及企业级的文档理解、OCR、推荐系统、客服、编程辅助乃至缺陷检测等判别式任务 [21] 社区竞争优势与迭代 - 随着vLLM逐渐发展成熟，许多公司开始将更多修改回馈至上游，更倾向于直接使用上游vLLM而不是开发私有版本，这一良性循环的核心驱动力在于“速度” [22] - vLLM的上游版本通过与众多领先的模型实验室和公司合作，快速收集反馈并修复问题，然后放回社区，vLLM的合作名单涵盖了从DeepSeek、Qwen、字节、腾讯，到LinkedIn、亚马逊、Mistral、Azure和Snowflake等 [23] - 当社区版本的迭代速度远超私有分支时，用户更倾向于使用社区版本，这种“速度优势”正推动vLLM加速成为大模型推理领域的事实标准 [23] - vLLM作为一个每月下载量超20万次的热门推理框架，团队正着手解决开发者反馈的启动速度偏慢问题，在GitHub上建立了专项跟踪与“启动体验优化”项目 [24] - 导致启动时间较长的因素包括CUDA graph capture time和torch.compile，开发团队已推动torch.compile团队重视启动时间问题并取得了一些显著改进 [24] - 团队还打造了工具和指南，指导用户处理冷启动与热启动的差异，并建议通过复制缓存目录来实现热启动以提升速度 [25] 红帽的战略角色与贡献 - 红帽全球约有两万名员工，其中可能有一两千名工程师完全在社区中做贡献，所做工作非常中立，vLLM的治理结构本身高度分散，共有15到20个不同组织的成员担任提交者或维护者 [26] - 红帽如此投入vLLM，源于一个战略判断：推理是AI应用成本的核心环节，实现高性能需要vLLM集成最前沿的模型优化 [26] - 红帽最具代表性的贡献是主导推动了vLLM v1版本的架构重构，这次升级为未来系统设计奠定了基础，并实质性地推动了社区标准化进程 [27] - 例如，红帽与PyTorch torch.compile团队长达一年半的合作，优化了上游框架以更好支持vLLM的高阶场景，让支持新硬件、新模型变得更容易 [27]