vLLM团队创业，种子轮10.5亿！清华特奖游凯超加盟

公司成立与融资 - 开源推理框架vLLM核心团队宣布创业，成立新公司Inferact [1] - 公司种子轮融资1.5亿美元（约10.5亿人民币），估值达8亿美元（约56亿人民币）[1] - 此轮融资创下近期AI基础设施领域融资新高，也是有史以来规模最大的种子轮融资之一 [2] - 融资由Andreessen Horowitz（a16z）与Lightspeed Venture Partners共同领投，红杉资本、Altimeter Capital、Redpoint Ventures及真格基金等跟投 [7] 市场背景与机遇 - 随着AI应用落地，行业焦点正从模型训练转向推理 [4] - 市场对于低成本、高可靠运行现有模型的需求，已超过对新模型研发的期待 [9] - 当应用程序需频繁与大模型交互时，算力成本和系统负载呈指数级上升，推理环节成为制约行业发展的最大瓶颈 [8] - 在推理规模化阶段，即使是微小的效率提升也能带来显著的成本节省 [6] 公司定位与产品策略 - Inferact旨在解决“推理瓶颈”，构建下一代商业引擎以应对大规模部署挑战 [5] - 公司采取双线并行策略：继续支持vLLM作为独立开源项目发展，同时开发独立的商业产品 [12][13] - 商业产品计划专注于硬件适配效率，帮助企业在不同类型硬件上运行AI模型 [14] - 公司设计独特反哺机制，利用商业资源滋养vLLM开源项目，确保其作为行业基石继续发展 [24] 技术基础与验证 - vLLM是公司的技术基石，已成为大模型领域的事实标准，几乎所有主流开源大模型在发布与部署时都将其作为首选支持的推理框架 [15] - vLLM已进入工业界实际生产环境，亚马逊已将其直接应用于自身核心购物应用的内部系统 [10] - 在万亿级商业场景、真实高并发流量下的部署，验证了技术的稳定性与大规模商业落地的确定性 [11] - vLLM的核心技术创新包括Paged Attention算法，解决了KV Cache显存碎片化问题，提升了吞吐量性能 [31] 团队背景 - CEO Simon Mo，加州大学伯克利分校EECS系背景，主攻机器学习系统设计，曾任Anyscale早期工程师，是vLLM项目的原始维护者之一 [25][26][27][28] - 联合创始人Woosuk Kwon，加州大学伯克利分校计算机科学博士，师从Ion Stoica教授，研究重点为大语言模型高效服务系统，是vLLM项目发起人及Paged Attention算法提出者 [30][31] - 核心技术力量包括清华特奖得主游凯超，曾在伯克利EECS系担任访问学者，主攻分布式深度学习系统，主导了vLLM基于张量并行的分布式推理功能实现 [33][34] - 核心团队与顾问团还包括前Roblox高级机器学习工程师Roger Wang，以及伯克利教授Joseph Gonzalez、Databricks联合创始人Ion Stoica教授等学术界与工业界资深力量 [35][36] 发展历程与行业洞察 - vLLM最初仅是创始团队在伯克利求学期间的Side Project，驱动源于“开源代码必须是全球AI基础设施的地基”的技术信仰 [17] - 项目在没有商业推广的情况下，迅速成为开发者社区的宠儿 [18] - 随着项目从实验室走向工业界，团队角色发生质变，通过与全球顶尖开发者协作，积累了独有的技术洞察并确立了行业权威 [20][21] - 团队发现，当推理任务从Demo演示变为数千张GPU集群的生产级部署时，挑战量级呈指数级上升，现有开源方案在深度底层优化、大规模集群线性扩展及复杂GPU部署流程上力不从心 [21][22] - 企业需求已从零散代码库转变为能稳定承载万亿次调用的工业级引擎，这需要引入严密的商业组织形式来构建下一代引擎 [23][24]