vLLM
搜索文档
InferenceX v2:NVIDIA Blackwell 对阵 AMD 对阵 Hopper —— 原名 InferenceMAX --- InferenceX v2_ NVIDIA Blackwell Vs AMD vs Hopper - Formerly InferenceMAX
2026-02-24 22:19
涉及的行业与公司 * **行业**: AI芯片、AI推理、云计算、大语言模型服务 * **公司**: NVIDIA、AMD、OpenAI、Anthropic、xAI、Google Deepmind、DeepSeek、TogetherAI、Baseten、Fireworks、Oracle、Microsoft Azure、Google Cloud [1][4][6][9] * **产品/技术**: NVIDIA Blackwell (GB300 NVL72, B300, B200, GB200)、Hopper (H100, H200)、AMD MI355X、MI325X、MI300X、SGLang、vLLM、TensorRT-LLM (TRTLLM)、Dynamo、MoRI、Mooncake [1][7][9][88][110] 核心观点与论据 1. 基准测试概述与重要性 * InferenceXv2是首个在整个帕累托前沿曲线上对NVIDIA Blackwell Ultra GB300 NVL72和B300进行基准测试的套件,也是首个测试AMD MI355X在FP4和FP8精度下解耦+宽专家并行多节点性能的第三方基准测试[9] * 该基准测试覆盖了过去4年所有6款NVIDIA GPU型号和过去3年所有AMD GPU型号,总计使用了接近1000块前沿GPU进行完整测试[7][8] * 基准测试完全开源,并得到了从Google Cloud、Microsoft Azure到OpenAI等几乎所有主要算力买家的广泛复现、验证和支持[3][4][6] 2. NVIDIA表现与优势 * **Blackwell性能卓越**: NVIDIA GB300 NVL72表现强劲,在FP8对FP4的测试中,相比强大的H100(解耦+宽EP+多令牌预测基准)实现了高达100倍的提升,在FP8对FP8的测试中也达到65倍提升[34]。在H100与GB200 NVL72的对比中,在每秒每用户75个令牌的速率下,实际性能差异高达55倍[34]。这超出了Jensen Huang在GTC 2024上声称的Blackwell相比H100最高30倍推理性能提升[36] * **技术领先地位**: 在涉及解耦预填充、宽专家并行和FP4等最前沿的大规模推理技术时,NVIDIA的B200、B300和机架级GB200/GB300 NVL72在SGLang和TRTLLM平台上均展现出绝对统治力[27][28]。其GPU在能效方面也占主导地位,所有工作负载中每个令牌的全口径配置能耗要低得多[28] * **软件生态成熟**: TensorRT LLM已经通过TogetherAI等供应商在全球每小时处理数十亿个令牌,让GB200/GB300 NVL72大放异彩,在高吞吐量下提供两倍以上的性能[126][127]。NVIDIA的Dynamo TRTLLM B200在解耦预填充性能上因实现更成熟而大幅领先AMD同类方案[157] * **持续性能改进**: B200 SGLang在FP4和FP8场景下自去年10月以来持续改进,在某些交互水平下,单GPU吞吐量已翻一番[85]。GB200 Dynamo TRT-LLM解耦方案在一个多月里最大吞吐量提升了20%[82] 3. AMD表现、进展与挑战 * **FP8性能具竞争力**: 在FP8精度下,采用解耦+宽专家并行策略的AMD MI355X SGLang与B200 SGLang相比,在性价比上具有竞争力[21][23]。在单节点聚合推理服务中,AMD的SGLang在FP8精度下的性价比优于NVIDIA的SGLang[24] * **软件进步显著**: AMD团队显著提升了SGLang DeepSeek R1 FP4所有配置的性能,在不到两个月的时间里,在相同交互性下将吞吐量几乎翻了一番[66][67]。从2025年12月到2026年1月,AMD的软件性能提升了高达2倍[66]。AMD已弃用其二等公民地位的vLLM分支,转而向上游靠拢[24] * **核心挑战:优化组合性**: AMD系统和软件在推理方面的最大问题在于可组合性[29]。其许多推理优化实现在独立运行时效果良好,但与其他优化(如解耦预填充、宽专家并行和FP4)结合使用时,结果不如预期具有竞争力[30]。当启用顶尖实验室所使用的全部三大核心优化时,AMD目前的性能无法与NVIDIA匹敌[31] * **FP4性能落后**: 尽管MI355X在FP8解耦架构中具有竞争力,但其FP4性能受困于组合性问题[149]。在1k1k场景下,开启MTP的MI355X仅勉强胜过未开启MTP的B200[149]。一旦对比Dynamo TRT-LLM B200,即使开启MTP的MI355X也无法与之媲美[153] * **新架构方向受支持**: AMD为MI355X解耦推理推荐的MoRI(新建的MoE通信库)因其从底层原理构建而非分叉NCCL的做法而受到支持,在过去一个多月里,在20-45 tok/s/user的交互范围内,单GPU吞吐量提升了20%以上[88][89][90] 4. 技术趋势与经济学洞察 * **解耦推理成为主流**: 在几乎所有交互水平下,解耦推理在每GPU总令牌吞吐量上均优于聚合推理[113]。多节点解耦预填充的效果远超单节点聚合服务[113]。带有宽专家并行的解耦服务是OpenAI、Anthropic、DeepSeek等前沿AI实验室及TogetherAI等先进API提供商在生产环境中部署的方案[9] * **宽专家并行的优势**: 宽EP(如DEP32)在权重加载效率方面具有重大优势,能将权重摊销到各芯片上,而DP则复制权重,导致冗余加载[199][201]。在NVLink等高带宽互连的支持下,更宽的EP能提供显著更高的单GPU吞吐量[199][201] * **配置取决于工作负载**: 没有一种万能的解决方案,需在吞吐量与延迟(交互性)之间权衡[49][50][53]。在低并发/高交互性时,TP因负载均衡更优;在高并发时,EP的通信和权重加载优势更明显;中段则适合混合TP+EP配置[203][205][206][207]。大规模扩展(如NVL72)在低批处理量下的带宽优势不明显,因为工作负载受限于延迟而非带宽[208][209] * **单位经济效益可观**: 基于基准数据推算,使用先进推理技术(如MTP、解耦、宽EP)的服务商可能享有可观的毛利率。例如,推算Crusoe服务的输入令牌毛利率可达83%,输出令牌毛利率为45%(假设使用H200等硬件)[177][179]。在高交互性下,采用MTP等推测解码技术对于实现经济可行的推理至关重要[185][186] 其他重要内容 * **未来计划**: InferenceX计划为DeepSeekv4等中国前沿模型提供首日支持,并将在今年晚些时候加入Google TPUv7 Ironwood和AWS Trainium3[14][15] * **对厂商的建议**: 建议NVIDIA向SGLang和vLLM等开放生态系统投入更多资源和工程师[24][25]。建议AMD重点关注不同推理优化之间的可组合性,并加大对vLLM和SGLang维护者的上游代码贡献和支持[31][70] * **测试局限性**: 基准测试数据基于随机数据且禁用前缀缓存,因此代表的是性能/成本的下限,真实场景可能更好[171][172] * **地域因素**: AMD大部分负责解耦预填充+宽专家并行的工程师位于中国,相关软件改进将在农历新年后启动[32][33]
SemiAnalysis创始人播客分享--英伟达、华为、AIDC的谣言
傅里叶的猫· 2026-02-22 21:41
英伟达的战略与护城河 - AI模型工作负载巨大,已可容纳专用芯片 专用芯片如Groq在推理速度上优势明显,但通用性差,无法训练或经济地运行大模型 [4] - 未来AI模型可能向多并行思维流发展,需要“足够宽的并行处理能力”而非“极致的快” Google和OpenAI的一些专业模型已在实践 [4] - 英伟达采取多元化布局策略,通过收购Groq、开发CPX芯片等方式覆盖多种应用场景,以应对专用芯片在细分市场的挑战 [6] - CUDA的护城河并非编程语言本身,而在于使AI应用更便宜、更快的软件优化 例如KV cache管理系统可将上下文缓存至SSD,大幅降低推理成本 [9] - 大部分AI芯片使用者不直接编写代码,而是通过开源推理引擎(如vLLM、SGLang)和模型直接运行 vLLM已将AMD GPU作为一等公民支持,TPU和Tranium支持也在进行中 [9] - 软件优化能显著降低特定应用成本 例如Claude Code或Cursor代码助手的成本大头在于反复加载上下文,缓存复用可大幅降低成本 [9] 中国半导体产业现状 - 中国社会存在“半导体狂热”文化,半导体元素甚至渗透到言情剧等流行文化中 [12] - 地方政府推动力度强劲,存在自主补贴、建设产业园和出台地方性采购政策的情况 有些地方规定做生意必须使用国产芯片 [13] - 中国拥有独特的产业集群发展模式,可能由个人或企业带头,随后形成完整的地方供应链 例如某些城市集中生产灯罩、吉他、相机支架等特定产品 [13] - 长期来看,中国可能是全球唯一有能力建立完整垂直半导体供应链的国家 尽管在光刻机、高端化学品、精密工具上仍落后,但国产替代品可使晶圆厂维持运转 [15] - 华为被认为是全球垂直整合程度最高的公司,这种整合能力带来巨大的创新优势 [19] AI基础设施的争议与前景 - 关于AI数据中心耗尽水资源的说法被驳斥 全球最大AI集群之一的马斯克Colossus数据中心全年耗水量仅相当于2.5家In-N-Out汉堡店,主要因养牛饲料灌溉耗水巨大 [21][23] - 数据中心冷却用水大部分为闭环系统,蒸发水量少且换来更低能耗 有案例显示当地水质问题源于页岩气开采,与数据中心无关 [23] - AI发展对电网的挑战主要源于美国长期未建设新电厂 数据中心用电量预计将从占全美2%增长至10% [23][25] - 天然气发电被视为快速满足AI电力需求的解决方案 太阳能和风能不稳定,核电建设周期长,煤炭污染大 [25] - 许多数据中心选择自建燃气电站,不接入电网 有客户重启煤电厂并因云厂商包下全部产能而获利丰厚 [25] - AI基础设施投资是否为泡沫取决于AI模型能否持续进步 以500亿美元建设、5年使用寿命的数据中心为例,若模型持续进步,投资可能在第三至第五年通过收入收回 [28] - 预计到今年年底,整个AI行业的年化收入(ARR)将达到1000亿美元 其中OpenAI约450亿美元,Anthropic约350亿美元,另加Google、微软、亚马逊的API收入 [28] - 行业内的“循环融资”被视作正常的商业担保和股权投资,不存在特别的脆弱性 [28] AI对工作的影响 - AI工具如Claude Code已能自动化完成财务分析等复杂知识工作,包括抓取数据、建立模型和生成报告 [30] - 初级分析师和需要3-5年经验的知识工作岗位面临被AI取代的风险 AI执行这些任务更快、更便宜 [30]
Clawdbot国产芯片适配完成!清华特奖出手,开源框架直接一键部署
量子位· 2026-02-03 12:52
Clawdbot (OpenClaw) 的市场热度与核心价值 - 项目在不到一周内,GitHub Star数直冲12万,显示出极高的社区关注度 [1] - 其配套硬件Mac mini出现卖断货现象,同时阿里、腾讯等大型科技公司已火速接入,相关集成教程广泛传播 [1] - 项目的核心创新在于将AI从一个普通聊天机器人转变为“7×24小时不摸鱼的AI员工”,能够持续进行数据分析、市场监控等工作 [5] - 该AI员工可通过手机消息随时触发,并在完成任务后主动通知用户,实现了高响应性与自动化 [6] - 其火爆程度甚至迫使Anthropic公司两次要求其改名 [3] Clawdbot 面临的主要挑战与成本问题 - 用户在实际使用中面临高昂的Token费用,运行一天解决一个小问题就可能消耗数百美金 [8][10] 玄武CLI:国产开源解决方案 - 玄武CLI是一个国产开源框架,旨在让用户无需购买Mac mini,也无需支付API费用,即可在本地运行Clawdbot [13][14] - 该框架原生适配价格更实惠的国产芯片,为用户提供了成本更低的替代方案 [14] - 框架定位为“国产开源版的Ollama”,提供了类似应用商店的模型部署体验,简化了选型、下载和使用流程 [16][17][18] - 它封装了配环境、装驱动、调参数等复杂操作,大幅降低了使用门槛 [19] - 其命令体系(如 `xw pull`, `xw run`, `xw list`)与Ollama高度一致,便于用户无缝上手 [20] - 例如,使用 `xw pull qwen3-32b` 和 `xw run qwen3-32b` 命令,可在30秒内启动32B及以内的模型并进行对话 [21][22] - 本地运行模型使得模型、算力和数据均留在本地,不仅节省成本,也避免了Agent权限可能带来的信息泄露风险 [26] - 玄武CLI自身完全开源,支持GitHub/GitCode一键安装和解压即用,支持Docker容器化,实现0成本入门 [27][28] - 安装部署简单,无需复杂环境配置,依赖基础驱动,最快1分钟即可启动服务 [28][29] - 框架原生支持多卡、多实例并行,实例间相互隔离,提升了稳定性和可扩展性 [29] - 在应用层,它原生兼容OpenAI API规范,使得LangChain、LlamaIndex等框架只需更改一行API地址即可从云端调用切换为本地模型,极大降低了替换成本 [30] - 框架会按需加载模型,并结合量化精度动态分配显存和显卡资源,以充分利用本地硬件 [31] 玄武CLI的核心优势:国产芯片原生适配 - 与Ollama等主要围绕英伟达体系的方案不同,玄武CLI的核心优势在于对国产芯片的原生适配,提供了更高性价比的算力选择 [33][34][35] - 过去国产芯片跑模型面临配置复杂、性能波动、生态碎片化、文档不全、问题难复现等挑战 [36][37] - 玄武CLI通过在框架层封装复杂度来解决这些问题,构建了统一的算力资源池,自动识别芯片类型并匹配最合适的推理引擎,实现智能调度 [38][39] - 这种“黑盒化”处理解决了模型启动卡死和服务不稳定的问题 [40] - 其系统架构采用分层设计,关键能力集中在推理引擎层,采用多引擎并行架构 [41][43][44] - 多引擎包括侧重深度优化的自研引擎MLGuider、华为原生MindIE以及兼容社区标准的vLLM,并配套进程隔离和自动路由策略 [44] - 此架构抹平了不同国产芯片的底层技术差异,让开发者无需关注硬件细节即可实现跨芯片模型部署 [45][46] - 结合离线可用的特性,玄武CLI在国产算力环境中补齐了长期缺失的基础设施 [47] 清昴智能:玄武CLI的背后的公司 - 玄武CLI由清昴智能开发,该公司成立于2022年,核心聚焦于芯片适配以及模型-框架-算子的联合优化 [48][49] - 创始人兼CEO关超宇是清华特奖最年轻的获得者 [50] - 成立三年来,公司已获得华为哈勃的战略投资及多家国内一线基金的亿元级支持 [51] - 技术路线上,公司采用端到端的系统级优化,以自研异构推理引擎MLGuider为起点,向下协同硬件设计,向上支撑智算平台与Agentic AI平台 [51] - 在落地方面,公司曾推出多种国产一体机方案,达成稳定16+TPS的高性能吞吐表现 [52] - 目前MLGuider已完成超过15款主流芯片的适配,在满足预期推理效果下提供多种国产最优方案选择 [53] - 例如,支持Qwen 80B方案,并通过玄武CLI适配华为300I Duo、300I A2等多种高性价比硬件方案 [54] - 面向未来,公司提前布局Agentic AI平台,旨在为多智能体、多模态协作时代打下关键基础 [56] - Clawdbot被视为其面向未来的一个轻量级尝试,让用户能提前体验智能体时代的雏形 [57]
LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力
机器之心· 2026-01-30 12:25
技术演进与范式创新 - 大模型能力正通过不同范式解锁,包括无需微调的上下文学习、提升复杂问题求解能力的思维链以及可调用工具和多轮交互的智能体框架 [2] - LLM-in-Sandbox 是技术演进的下一个关键范式,其核心思想是让大模型在一个代码沙盒(虚拟电脑)中自由探索以完成任务 [3] - 该范式不仅对代码任务有效,更能显著提升模型在数学、物理、化学、生物医学、长文本理解、指令遵循等多个非代码领域的表现,且无需额外训练 [3] 核心思想与设计原理 - LLM-in-Sandbox 的核心思想是“给大模型一台电脑”,利用电脑的通用性来解锁模型的通用智能潜力 [5][7] - 电脑的通用性源于三大元能力:通过网络访问外部资源和知识、持久化地读写和组织文件、以及执行计算 [6] - 该范式采用轻量级、通用化的沙盒设计,与需要为每个任务配置特定环境的现有方案不同,其环境是通用的,依赖项在运行时安装,存储使用单一共享镜像 [10] - 这种设计带来了泛化性和可扩展性优势,例如,扩展到数千个任务时,传统方法可能需要高达 6TB 的存储,而 LLM-in-Sandbox 仅需约 1.1GB [11] - 沙盒环境基于 Docker 的 Ubuntu,仅预装 Python 和基础科学计算库,将领域特定工具的获取交给模型自主完成 [13] - 工作流采用多轮交互的探索式方法,模型在每一轮生成工具调用并接收反馈,直到任务完成或达到轮次限制 [15] 性能表现与实验结果 - 在六个非代码领域的实验表明,强大的语言模型在 LLM-in-Sandbox 模式下获得了一致性提升,且完全无需额外训练 [17][20] - 具体提升示例如下:Claude-Sonnet-4.5-Think 在数学任务上得分从 85.6 提升至 92.2(+6.6),在物理任务上从 56.9 提升至 63.3(+6.4)[20] - GPT-5 在数学任务上得分从 87.8 提升至 97.9(+10.1)[20] - DeepSeek-V3.2-Thinking 在指令遵循任务上得分从 60.3 提升至 74.7(+14.4)[20] - Qwen3-Coder-30B-A3B 在数学任务上得分从 17.9 提升至 42.1(+24.2),在物理任务上从 36.8 提升至 47.9(+11.1)[20] - 模型展现了涌现的工具使用能力,例如在化学任务中自主安装 Java 环境和 OPSIN 库以转换分子结构 [21] - 在长文本理解任务中,模型使用 grep、sed 等工具处理超过 100K tokens 的文档,而非将其全部放入 prompt [22] - 在指令遵循任务中,模型编写 Python 脚本来统计字符和检测词汇重叠,以迭代优化生成结果 [23] 强化学习增强与泛化能力 - 对于能力较弱的模型,研究者提出了 LLM-in-Sandbox RL,使用非智能体数据在沙盒环境中训练模型以增强其泛化能力 [27][28] - 训练采用基于上下文的任务,迫使模型主动探索沙盒以学会利用其能力 [29] - 实验表明,LLM-in-Sandbox RL 展现出强大的跨领域、跨推理模式和跨模型能力的泛化能力 [31] - 例如,在 Qwen3-4B-Instruct 模型上,经过 RL 训练后,其在数学任务的沙盒模式得分从基线的 35.4 提升至 50.2(+14.8),在物理任务上从 36.3 提升至 47.7(+11.4)[30] - 该方法不仅提升了沙盒模式表现,也同时提升了纯 LLM 模式的表现,说明学到的能力可以迁移 [31] 部署效率与成本优势 - 在长文本场景下,LLM-in-Sandbox 通过将文档存储在沙盒中而非放入 prompt,可显著降低 token 消耗,最多可降低 8 倍(例如从 100K tokens 降至 13K tokens)[32] - 通过将计算卸载到沙盒,工作负载从慢速的自回归生成转移到快速的并行预填充,保持了有竞争力的吞吐量 [34] - 效率数据显示,在平均情况下,MiniMax 模型可实现 2.2 倍的加速(QPM Ratio)[33][34] - 其他模型的 QPM 比率分别为:DeepSeek 0.6倍,Kimi 1.0倍,Qwen 1.1倍 [33] 超越文本的通用能力与未来展望 - LLM-in-Sandbox 突破了纯文本输入输出的范式,解锁了纯 LLM 无法完成的能力 [35] - 新能力包括:通过调用专业软件处理生成图像、视频、音频和交互式应用等跨模态能力;直接生成可用的文件(如 .png, .mp4);以及自主发现、安装和学习使用任意软件库 [36] - 随着模型能力增强和沙盒环境完善,LLM-in-Sandbox 可能演化为真正的通用数字创作系统 [38] - 研究者认为,鉴于其显著的性能提升和几乎可忽略的部署成本,LLM-in-Sandbox 应当成为大模型的默认部署范式,取代纯 LLM 推理 [3][40]
vLLM团队创业,种子轮10.5亿!清华特奖游凯超加盟
量子位· 2026-01-23 13:03
公司成立与融资 - 开源推理框架vLLM核心团队宣布创业,成立新公司Inferact [1] - 公司种子轮融资1.5亿美元(约10.5亿人民币),估值达8亿美元(约56亿人民币)[1] - 此轮融资创下近期AI基础设施领域融资新高,也是有史以来规模最大的种子轮融资之一 [2] - 融资由Andreessen Horowitz(a16z)与Lightspeed Venture Partners共同领投,红杉资本、Altimeter Capital、Redpoint Ventures及真格基金等跟投 [7] 市场背景与机遇 - 随着AI应用落地,行业焦点正从模型训练转向推理 [4] - 市场对于低成本、高可靠运行现有模型的需求,已超过对新模型研发的期待 [9] - 当应用程序需频繁与大模型交互时,算力成本和系统负载呈指数级上升,推理环节成为制约行业发展的最大瓶颈 [8] - 在推理规模化阶段,即使是微小的效率提升也能带来显著的成本节省 [6] 公司定位与产品策略 - Inferact旨在解决“推理瓶颈”,构建下一代商业引擎以应对大规模部署挑战 [5] - 公司采取双线并行策略:继续支持vLLM作为独立开源项目发展,同时开发独立的商业产品 [12][13] - 商业产品计划专注于硬件适配效率,帮助企业在不同类型硬件上运行AI模型 [14] - 公司设计独特反哺机制,利用商业资源滋养vLLM开源项目,确保其作为行业基石继续发展 [24] 技术基础与验证 - vLLM是公司的技术基石,已成为大模型领域的事实标准,几乎所有主流开源大模型在发布与部署时都将其作为首选支持的推理框架 [15] - vLLM已进入工业界实际生产环境,亚马逊已将其直接应用于自身核心购物应用的内部系统 [10] - 在万亿级商业场景、真实高并发流量下的部署,验证了技术的稳定性与大规模商业落地的确定性 [11] - vLLM的核心技术创新包括Paged Attention算法,解决了KV Cache显存碎片化问题,提升了吞吐量性能 [31] 团队背景 - CEO Simon Mo,加州大学伯克利分校EECS系背景,主攻机器学习系统设计,曾任Anyscale早期工程师,是vLLM项目的原始维护者之一 [25][26][27][28] - 联合创始人Woosuk Kwon,加州大学伯克利分校计算机科学博士,师从Ion Stoica教授,研究重点为大语言模型高效服务系统,是vLLM项目发起人及Paged Attention算法提出者 [30][31] - 核心技术力量包括清华特奖得主游凯超,曾在伯克利EECS系担任访问学者,主攻分布式深度学习系统,主导了vLLM基于张量并行的分布式推理功能实现 [33][34] - 核心团队与顾问团还包括前Roblox高级机器学习工程师Roger Wang,以及伯克利教授Joseph Gonzalez、Databricks联合创始人Ion Stoica教授等学术界与工业界资深力量 [35][36] 发展历程与行业洞察 - vLLM最初仅是创始团队在伯克利求学期间的Side Project,驱动源于“开源代码必须是全球AI基础设施的地基”的技术信仰 [17] - 项目在没有商业推广的情况下,迅速成为开发者社区的宠儿 [18] - 随着项目从实验室走向工业界,团队角色发生质变,通过与全球顶尖开发者协作,积累了独有的技术洞察并确立了行业权威 [20][21] - 团队发现,当推理任务从Demo演示变为数千张GPU集群的生产级部署时,挑战量级呈指数级上升,现有开源方案在深度底层优化、大规模集群线性扩展及复杂GPU部署流程上力不从心 [21][22] - 企业需求已从零散代码库转变为能稳定承载万亿次调用的工业级引擎,这需要引入严密的商业组织形式来构建下一代引擎 [23][24]
速递|a16z全程跟进:vLLM之父创AI推理Inferact,顶级投资阵容融资,估值达8亿美元
搜狐财经· 2026-01-23 12:46
公司融资与估值 - AI初创企业Inferact完成1.5亿美元种子轮融资,公司估值达到8亿美元 [2] - 本轮融资由安德森·霍洛维茨基金和光速创投领投,红杉资本、Altitude资本、红点创投及真格基金参与投资 [2] - 公司成立于2025年11月,并于近期正式对外公开 [3] 公司业务与技术核心 - Inferact专注于人工智能推理阶段,即AI模型完成训练后能够开始回答问题、解决任务的环节 [2] - 公司技术核心围绕开源项目vLLM构建,该项目于2023年发布,旨在帮助企业将AI模型高效部署在数据中心硬件上 [2] - vLLM项目最初由加州大学伯克利分校启动,现由PyTorch基金会监管,已吸引了来自AI产业数千名开发者的贡献 [2] - 公司首要任务是继续将vLLM作为独立的开源项目进行支持,所有改进都将回馈社区 [4] - 第二个目标是开发独立的商业产品,帮助企业更高效地在各类硬件上运行AI模型 [4] 行业背景与市场机遇 - AI行业面临的最大挑战将不再是构建新模型,而是如何经济高效且稳定可靠地运行现有模型 [2] - 过去企业需要等待数年才能迎来新模型发布,因为训练系统缓慢且昂贵,但随着现有模型足够强大,情况已发生改变 [3] - 开发者创建的AI产品必须持续与模型进行通信,这推高了成本并给系统带来压力,推理环节正成为瓶颈,且问题在未来几年可能愈发严峻 [3][4] - 此次大规模的种子轮融资反映出市场机遇的规模,以及即使微小的效率提升也能对成本产生显著影响 [4] 团队背景与投资者关系 - Inferact由首席执行官Simon Mo领导,他是vLLM项目的原始维护者之一 [3] - 安德森·霍洛维茨基金会参与可追溯至vLLM项目的早期阶段,vLLM在2023年成为其“AI开源资助计划”的首个受助项目 [3] - 在Inferact成立之前,安德森·霍洛维茨基金会还主办了该项目的首场社区聚会,为建立紧密联系奠定了早期基础 [3] 技术应用与市场认可 - 亚马逊公司不仅其云业务,连购物应用程序也依赖vLLM软件来运行内部人工智能系统,这证明了vLLM应用的广泛程度 [5]
速递|a16z全程跟进:vLLM之父创AI推理Inferact,顶级投资阵容融资,估值达8亿美元
Z Potentials· 2026-01-23 12:13
公司融资与估值 - AI初创企业Inferact已完成1.5亿美元种子轮融资,公司估值达8亿美元 [2] - 本轮融资由安德森·霍洛维茨基金和光速创投领投,红杉资本、Altitude资本、红点创投及真格基金参与投资 [2] - 公司成立于2025年11月,并于近期正式对外公开 [3] 公司背景与技术核心 - Inferact由vLLM项目的原始维护者之一Simon Mo领导 [3] - 公司技术核心围绕开源项目vLLM构建,该项目于2023年发布,旨在帮助企业将AI模型高效部署在数据中心硬件上 [2] - vLLM最初由加州大学伯克利分校启动,现由PyTorch基金会监管,已吸引了来自AI产业数千名开发者的贡献 [2] - 公司将自身创立渊源与伯克利分校孵化的其他成功软件项目(如Apache Spark和Ray)相类比 [3] 行业趋势与公司定位 - 公司专注于人工智能推理阶段,即AI模型完成训练后能够开始回答问题、解决任务的环节 [2] - 公司预判,未来AI行业面临的最大挑战将不再是构建新模型,而是如何经济高效且稳定可靠地运行现有模型 [2] - 投资者认为其兴趣反映了AI行业更广泛的转变:过去企业需等待数年迎来新模型发布,而现有模型已足够强大,开发者无需等待重大升级即可使用 [3] - 推理环节正成为瓶颈,因为开发者创建的AI产品必须持续与模型进行通信,这推高了成本并给系统带来压力,且该问题在未来几年可能会愈发严峻 [4] 公司战略与市场机遇 - 公司的首要任务是继续将vLLM作为独立的开源项目进行支持,所有改进都将回馈社区 [4] - 第二个目标是开发独立的商业产品,帮助企业更高效地在各类硬件上运行AI模型 [4] - 大规模的种子轮融资反映出市场机遇的规模,以及即使微小的效率提升也能对成本产生的显著影响 [4] - 公司并非试图取代或限制开源项目,而是旨在建立一项能够支持并拓展该项目的业务 [4] - vLLM应用广泛,例如亚马逊公司不仅其云业务,连购物应用程序也依赖该软件来运行内部人工智能系统 [4] 投资者关系 - 安德森·霍洛维茨基金会参与可追溯至vLLM项目的早期阶段,vLLM在2023年成为其“AI开源资助计划”的首个受助项目 [3] - 在Inferact成立之前,安德森·霍洛维茨基金会还主办了该项目的首场社区聚会,为与团队建立紧密联系奠定了早期基础 [3]
vLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创
机器之心· 2026-01-23 08:45
公司成立与融资 - 由开源大模型推理加速框架vLLM的创建者创立的人工智能初创公司Inferact正式成立 [1] - 公司在种子轮融资中筹集了1.5亿美元(约合10亿元人民币),公司估值达到8亿美元 [1] - 本轮融资由Andreessen Horowitz(a16z)和Lightspeed领投,Sequoia Capital、Altimeter Capital、Redpoint Ventures和ZhenFund也参与了投资 [4] - 1.5亿美元的种子轮融资规模超过了Mistral AI的1.15亿美元,是有史以来规模最大的种子轮融资之一 [4] 公司使命与定位 - 公司的使命是将vLLM发展成为世界领先的AI推理引擎,并通过降低推理成本、加快推理速度来加速AI的发展 [5] - 公司认为,AI行业未来面临的最大挑战不是构建新模型,而是如何以低成本、高可靠性地运行现有模型 [6] - 公司定位于模型和硬件的交汇点,与模型厂商合作确保新架构的首日支持,与硬件厂商集成新芯片,并支持大模型团队进行大规模部署 [12] 核心技术vLLM - 公司的核心是开源项目vLLM,这是一个于2023年启动的开源项目,旨在帮助企业在数据中心硬件上高效运行AI模型 [7] - vLLM最初由加州大学伯克利分校的天空计算实验室开发,现由PyTorch基金会负责管理,已吸引了来自整个AI行业的2000多名贡献者 [8] - vLLM是全球范围内最受欢迎的开源大模型推理加速框架,其GitHub仓库拥有68.2k个Star和12.8k个Fork [8] - vLLM支持了500多种模型架构,可在200多种加速器上运行,并支持着全球规模的推理 [12] - vLLM的推理能力在为Meta、谷歌、Character.AI等科技公司提供支持 [9] 团队与背景 - 公司的首席执行官Simon Mo是加州大学伯克利分校的在读博士生,也是vLLM的创始维护者之一 [9] - 公司成立于2025年11月,并于本周正式对外公布 [9] - vLLM项目的核心贡献者、清华博士游凯超是公司的联合创始人 [13] - 创始团队还包括Woosuk Kwon、Roger Wang、Joseph Gonzalez、Ion Stoica等人 [15] 行业背景与挑战 - 业界对于AI推理基础设施的重视程度正在急速提升 [4] - 当前用于大模型训练的AI集群,将在六个月内完全被用于推理,推理会逐渐消耗掉所有算力容量,并耗尽所有新增的容量 [11] 未来发展计划 - 公司的首要任务是继续支持vLLM作为独立的开源项目,并将改进成果分享给社区 [12] - 计划进一步提升vLLM的性能,深化对新兴模型架构的支持,并扩大对前沿硬件的覆盖范围 [12] - 公司的第二个目标是开发一款独立的商业产品,帮助企业在不同类型的硬件上更高效地运行AI模型 [12]
听LLaMA Factory、vLLM、RAGFlow作者亲述顶级开源项目的增长法则|GOBI 2025
AI科技大本营· 2025-12-17 17:42
大会核心信息 - 会议名称为GOBI 2025全球开源商业创新大会,由Upstream Labs、AI原点社区、CSDN联合主办 [14] - 会议将于12月21日10:00-17:15在北京海淀东升万丽酒店举行 [5][19] - 会议定位为首届开源商业化主题大会,旨在汇聚生态伙伴,站在全球开源与AI交汇的最前沿,共同解锁未来三年的创新机会 [14][19] 参会嘉宾与规模 - 大会汇聚了500+位开源基金会掌舵者、独角兽创始人、头部VC合伙人与顶级开发者 [14] - 参会嘉宾包括来自GitHub 60,000+ Star项目LLaMA Factory的郑耀威、vLLM社区核心贡献者张家驹、RAGFlow创始人张颖峰、Apache软件基金会成员及Datastrato创始人堵俊平等实战派专家 [2][6] - 其他重要嘉宾包括创新工场联合创始人汪华、CSDN创始人蒋涛、涛思数据创始人陶建辉、LVS创始人章文嵩、PingCAP副总裁刘松、月之暗面副总裁黄震昕等超过30位专家 [20][21] 大会议程与核心议题 - 大会包含三大顶层Keynote,系统洞察开源、AI与商业的前沿思辨 [17] - 核心议题围绕“AI浪潮三部曲:变局·聚力·创生”展开,包含四场深度圆桌讨论 [6][19] - 具体议程包括“破局·企业软件的‘巨硬’时刻”、“变局·AI带来的软件和SaaS变革”、“聚力·开源社区的进化与未来”以及“创生·AI催生的文艺复兴式创业者”等圆桌论坛 [20][21] - 圆桌论坛将探讨如何借助社区力量实现个人能力跃迁、如何让围观者变为共创者、以及如何构建社区精神部落等核心问题 [3] - 会议最后将进行“源起之道”开源商业创新营优胜项目路演及颁奖典礼 [22] 现场活动与体验 - 现场将展示10大“源起之道”开源商业创新营项目 [10][22] - 现场将提供10大具身智能应用场景及体验 [10][22] - 参会者可近距离体验前沿开源应用成果与优秀项目 [10][22] - 大会设有入场好礼及终极神秘大奖等互动环节 [10][22]
DeepSeek倒逼vLLM升级,芯片内卷、MoE横扫千模,vLLM核心维护者独家回应:如何凭PyTorch坐稳推理“铁王座”
36氪· 2025-12-15 08:36
vLLM项目发展历程与社区生态 - vLLM项目起源于加州大学伯克利分校Sky Computing Lab,于2023年开源其核心PagedAttention技术,在短短一年多内GitHub Star数突破4万,并迅速增长至6.5万,已成为全球科技公司首选的推理引擎 [1] - Neural Magic公司通过“免费平台 + 开源工具”策略,在AI优化领域脱颖而出,通过深入贡献vLLM构建了企业级推理堆栈并维护预优化模型库,其社区积累与工程实力吸引了红帽的注意 [1] - 2024年11月,红帽正式收购Neural Magic,并将包括vLLM核心维护者Michael Goin在内的核心团队纳入旗下,Michael在优化推理性能、最大化CPU/GPU效能方面拥有超过十年经验 [1] vLLM技术演进与模型支持 - vLLM开发团队作为项目“内核团队”,专注于集成与开发高性能推理内核,随着DeepSeek R1等模型的发布,团队开发重心从聚焦Llama系列转向全力投入DeepSeek模型相关特性优化 [3] - 在0.7.2版本中,团队紧凑开发以迅速响应DeepSeek新特性,高效支持了Qwen 2.5 VL并引入了Transformers backend,使用户能直接运行任意Hugging Face模型 [3] - 随后的0.7.3版本成为一次规模更大的更新,为DeepSeek启用了多Token预测、MLA注意力等优化,扩展了对AMD硬件的支持与调优,并推动了vLLM从支持张量并行、流水线并行到支持专家并行的演进 [4] - 团队将DeepSeek开源的一系列高性能工具,如DeepGEMM、DeepEP、专家并行负载均衡等,系统化地融入vLLM生态 [4] - 团队面向推理场景不断扩充高性能内核库,涵盖定制版Triton、CUTLASS、CUDA内核、HIP内核等,还包括各种量化支持与众多定制内核实现 [7] - 除了主导DeepSeek V3的整合,团队还完成了GPT-OSS、Qwen、Kimi等多个模型的适配与优化 [7] 硬件生态支持与战略 - vLLM团队的核心使命之一是构建开放、高效的硬件推理生态,广泛支持各类主流芯片,并深度参与新硬件的架构设计与性能优化 [8] - 过去几个月,团队与NVIDIA共同推进Blackwell芯片的支持工作,优化B200相关性能,并与AMD团队保持紧密协作以确保其在vLLM中的性能表现 [8] - 团队与Google TPU团队紧密合作一年多,完成了多次版本发布,并作为最高决策者参与设计了整体沐曦芯片的支持架构 [8] - 团队与硬件伙伴的合作流程严谨,例如在沐曦项目的早期阶段便共同讨论支持框架设计,主导高层架构,并通过创建跨公司“线上联合工作组”确保高效推进 [8] - vLLM广泛支持从NVIDIA、AMD到Google TPU乃至国内众多芯片的核心战略在于深度拥抱PyTorch,将其作为连接上层框架与底层硬件的“最大公约数” [9] - 只要硬件厂商提供了对PyTorch的良好支持,适配vLLM的工作就已完成了绝大部分(约90%),剩余约10%主要涉及对PyTorch中效率较低的部分进行定制优化 [10] - vLLM中的模型定义几乎完全基于PyTorch编写,并支持十余种其他硬件backend的注意力实现,如NVIDIA的FlashAttention、AMD的ROCm Attention、Google TPU的Pathways Attention等 [10] 多模态能力拓展 - vLLM团队将vLLM从一个纯文本推理引擎,全面升级为一个支持全模态生成与理解的统一服务平台,多模态模型架构改变了vLLM的架构 [17] - 团队对vLLM v1版本进行了彻底重构,一项关键创新是多模态前缀缓存,将Page Attention机制从文本token的键值缓存扩展至图像、音频等任意模态输入,大幅提升了重复请求的处理效率 [18] - 团队实现了编码器解耦技术,将视觉、音频编码器与语言模型backbone解耦,为超大规模推理场景提供了极致的弹性与资源利用率 [18] - 2024年12月,vLLM-Omni作为其首个“全模态”推理框架正式发布,它将文本、图像、音频、视频的统一生成从概念变为可落地的生产级代码 [19] - Omni引入了一套完全解耦的流水线架构,让不同阶段按需分配资源,并通过统一调度衔接,一个omni-modality推理请求会经过模态编码器、LLM核心与模态生成器三类组件 [19] - 如今vLLM支持的范围十分广泛,包括多模态理解与生成、嵌入模型、智能体编程,以及企业级的文档理解、OCR、推荐系统、客服、编程辅助乃至缺陷检测等判别式任务 [21] 社区竞争优势与迭代 - 随着vLLM逐渐发展成熟,许多公司开始将更多修改回馈至上游,更倾向于直接使用上游vLLM而不是开发私有版本,这一良性循环的核心驱动力在于“速度” [22] - vLLM的上游版本通过与众多领先的模型实验室和公司合作,快速收集反馈并修复问题,然后放回社区,vLLM的合作名单涵盖了从DeepSeek、Qwen、字节、腾讯,到LinkedIn、亚马逊、Mistral、Azure和Snowflake等 [23] - 当社区版本的迭代速度远超私有分支时,用户更倾向于使用社区版本,这种“速度优势”正推动vLLM加速成为大模型推理领域的事实标准 [23] - vLLM作为一个每月下载量超20万次的热门推理框架,团队正着手解决开发者反馈的启动速度偏慢问题,在GitHub上建立了专项跟踪与“启动体验优化”项目 [24] - 导致启动时间较长的因素包括CUDA graph capture time和torch.compile,开发团队已推动torch.compile团队重视启动时间问题并取得了一些显著改进 [24] - 团队还打造了工具和指南,指导用户处理冷启动与热启动的差异,并建议通过复制缓存目录来实现热启动以提升速度 [25] 红帽的战略角色与贡献 - 红帽全球约有两万名员工,其中可能有一两千名工程师完全在社区中做贡献,所做工作非常中立,vLLM的治理结构本身高度分散,共有15到20个不同组织的成员担任提交者或维护者 [26] - 红帽如此投入vLLM,源于一个战略判断:推理是AI应用成本的核心环节,实现高性能需要vLLM集成最前沿的模型优化 [26] - 红帽最具代表性的贡献是主导推动了vLLM v1版本的架构重构,这次升级为未来系统设计奠定了基础,并实质性地推动了社区标准化进程 [27] - 例如,红帽与PyTorch torch.compile团队长达一年半的合作,优化了上游框架以更好支持vLLM的高阶场景,让支持新硬件、新模型变得更容易 [27]