Workflow
vLLM
icon
搜索文档
Clawdbot国产芯片适配完成!清华特奖出手,开源框架直接一键部署
量子位· 2026-02-03 12:52
Clawdbot (OpenClaw) 的市场热度与核心价值 - 项目在不到一周内,GitHub Star数直冲12万,显示出极高的社区关注度 [1] - 其配套硬件Mac mini出现卖断货现象,同时阿里、腾讯等大型科技公司已火速接入,相关集成教程广泛传播 [1] - 项目的核心创新在于将AI从一个普通聊天机器人转变为“7×24小时不摸鱼的AI员工”,能够持续进行数据分析、市场监控等工作 [5] - 该AI员工可通过手机消息随时触发,并在完成任务后主动通知用户,实现了高响应性与自动化 [6] - 其火爆程度甚至迫使Anthropic公司两次要求其改名 [3] Clawdbot 面临的主要挑战与成本问题 - 用户在实际使用中面临高昂的Token费用,运行一天解决一个小问题就可能消耗数百美金 [8][10] 玄武CLI:国产开源解决方案 - 玄武CLI是一个国产开源框架,旨在让用户无需购买Mac mini,也无需支付API费用,即可在本地运行Clawdbot [13][14] - 该框架原生适配价格更实惠的国产芯片,为用户提供了成本更低的替代方案 [14] - 框架定位为“国产开源版的Ollama”,提供了类似应用商店的模型部署体验,简化了选型、下载和使用流程 [16][17][18] - 它封装了配环境、装驱动、调参数等复杂操作,大幅降低了使用门槛 [19] - 其命令体系(如 `xw pull`, `xw run`, `xw list`)与Ollama高度一致,便于用户无缝上手 [20] - 例如,使用 `xw pull qwen3-32b` 和 `xw run qwen3-32b` 命令,可在30秒内启动32B及以内的模型并进行对话 [21][22] - 本地运行模型使得模型、算力和数据均留在本地,不仅节省成本,也避免了Agent权限可能带来的信息泄露风险 [26] - 玄武CLI自身完全开源,支持GitHub/GitCode一键安装和解压即用,支持Docker容器化,实现0成本入门 [27][28] - 安装部署简单,无需复杂环境配置,依赖基础驱动,最快1分钟即可启动服务 [28][29] - 框架原生支持多卡、多实例并行,实例间相互隔离,提升了稳定性和可扩展性 [29] - 在应用层,它原生兼容OpenAI API规范,使得LangChain、LlamaIndex等框架只需更改一行API地址即可从云端调用切换为本地模型,极大降低了替换成本 [30] - 框架会按需加载模型,并结合量化精度动态分配显存和显卡资源,以充分利用本地硬件 [31] 玄武CLI的核心优势:国产芯片原生适配 - 与Ollama等主要围绕英伟达体系的方案不同,玄武CLI的核心优势在于对国产芯片的原生适配,提供了更高性价比的算力选择 [33][34][35] - 过去国产芯片跑模型面临配置复杂、性能波动、生态碎片化、文档不全、问题难复现等挑战 [36][37] - 玄武CLI通过在框架层封装复杂度来解决这些问题,构建了统一的算力资源池,自动识别芯片类型并匹配最合适的推理引擎,实现智能调度 [38][39] - 这种“黑盒化”处理解决了模型启动卡死和服务不稳定的问题 [40] - 其系统架构采用分层设计,关键能力集中在推理引擎层,采用多引擎并行架构 [41][43][44] - 多引擎包括侧重深度优化的自研引擎MLGuider、华为原生MindIE以及兼容社区标准的vLLM,并配套进程隔离和自动路由策略 [44] - 此架构抹平了不同国产芯片的底层技术差异,让开发者无需关注硬件细节即可实现跨芯片模型部署 [45][46] - 结合离线可用的特性,玄武CLI在国产算力环境中补齐了长期缺失的基础设施 [47] 清昴智能:玄武CLI的背后的公司 - 玄武CLI由清昴智能开发,该公司成立于2022年,核心聚焦于芯片适配以及模型-框架-算子的联合优化 [48][49] - 创始人兼CEO关超宇是清华特奖最年轻的获得者 [50] - 成立三年来,公司已获得华为哈勃的战略投资及多家国内一线基金的亿元级支持 [51] - 技术路线上,公司采用端到端的系统级优化,以自研异构推理引擎MLGuider为起点,向下协同硬件设计,向上支撑智算平台与Agentic AI平台 [51] - 在落地方面,公司曾推出多种国产一体机方案,达成稳定16+TPS的高性能吞吐表现 [52] - 目前MLGuider已完成超过15款主流芯片的适配,在满足预期推理效果下提供多种国产最优方案选择 [53] - 例如,支持Qwen 80B方案,并通过玄武CLI适配华为300I Duo、300I A2等多种高性价比硬件方案 [54] - 面向未来,公司提前布局Agentic AI平台,旨在为多智能体、多模态协作时代打下关键基础 [56] - Clawdbot被视为其面向未来的一个轻量级尝试,让用户能提前体验智能体时代的雏形 [57]
LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力
机器之心· 2026-01-30 12:25
大模型的能力正在被不同的范式逐步解锁:In-Context Learning 展示了模型无需微调即可泛化到新任务;Chain-of-Thought 通过引导模型分步推理来提升复杂问题 的求解能力;近期,智能体框架则赋予模型调用工具、多轮交互的能力。 沿着这条技术演进路线,下一步是什么? 近日,来自中国人民大学高瓴人工智能学院、微软研究院和清华大学的研究者提出了一个简洁而有效的范式: LLM-in-Sandbox ——让大模型在代码沙盒(即虚 拟电脑)中自由探索来完成任务。实验表明, 这一范式不仅在代码任务上有效,更能显著提升模型在数学、物理、化学、生物医学、长文本理解、指令遵循等多 个非代码领域的表现,且无需额外训练,同时显著减少长文本场景下的 token 消耗,并保持相当水平的推理速度。 研究者已将 LLM-in-Sandbox 开源为 Python 包,可与 vLLM、SGLang 等主流推理后端无缝集成。 LLM-in-Sandbox 应当成为大模型的默认部署范式 , 取代纯 LLM 推理 。 1. 核心思想:给大模型一台电脑 电脑可能是人类创造的最通用的工具,几乎任何任务都可以通过电脑完成。这种通用性 ...
vLLM团队创业,种子轮10.5亿!清华特奖游凯超加盟
量子位· 2026-01-23 13:03
公司成立与融资 - 开源推理框架vLLM核心团队宣布创业,成立新公司Inferact [1] - 公司种子轮融资1.5亿美元(约10.5亿人民币),估值达8亿美元(约56亿人民币)[1] - 此轮融资创下近期AI基础设施领域融资新高,也是有史以来规模最大的种子轮融资之一 [2] - 融资由Andreessen Horowitz(a16z)与Lightspeed Venture Partners共同领投,红杉资本、Altimeter Capital、Redpoint Ventures及真格基金等跟投 [7] 市场背景与机遇 - 随着AI应用落地,行业焦点正从模型训练转向推理 [4] - 市场对于低成本、高可靠运行现有模型的需求,已超过对新模型研发的期待 [9] - 当应用程序需频繁与大模型交互时,算力成本和系统负载呈指数级上升,推理环节成为制约行业发展的最大瓶颈 [8] - 在推理规模化阶段,即使是微小的效率提升也能带来显著的成本节省 [6] 公司定位与产品策略 - Inferact旨在解决“推理瓶颈”,构建下一代商业引擎以应对大规模部署挑战 [5] - 公司采取双线并行策略:继续支持vLLM作为独立开源项目发展,同时开发独立的商业产品 [12][13] - 商业产品计划专注于硬件适配效率,帮助企业在不同类型硬件上运行AI模型 [14] - 公司设计独特反哺机制,利用商业资源滋养vLLM开源项目,确保其作为行业基石继续发展 [24] 技术基础与验证 - vLLM是公司的技术基石,已成为大模型领域的事实标准,几乎所有主流开源大模型在发布与部署时都将其作为首选支持的推理框架 [15] - vLLM已进入工业界实际生产环境,亚马逊已将其直接应用于自身核心购物应用的内部系统 [10] - 在万亿级商业场景、真实高并发流量下的部署,验证了技术的稳定性与大规模商业落地的确定性 [11] - vLLM的核心技术创新包括Paged Attention算法,解决了KV Cache显存碎片化问题,提升了吞吐量性能 [31] 团队背景 - CEO Simon Mo,加州大学伯克利分校EECS系背景,主攻机器学习系统设计,曾任Anyscale早期工程师,是vLLM项目的原始维护者之一 [25][26][27][28] - 联合创始人Woosuk Kwon,加州大学伯克利分校计算机科学博士,师从Ion Stoica教授,研究重点为大语言模型高效服务系统,是vLLM项目发起人及Paged Attention算法提出者 [30][31] - 核心技术力量包括清华特奖得主游凯超,曾在伯克利EECS系担任访问学者,主攻分布式深度学习系统,主导了vLLM基于张量并行的分布式推理功能实现 [33][34] - 核心团队与顾问团还包括前Roblox高级机器学习工程师Roger Wang,以及伯克利教授Joseph Gonzalez、Databricks联合创始人Ion Stoica教授等学术界与工业界资深力量 [35][36] 发展历程与行业洞察 - vLLM最初仅是创始团队在伯克利求学期间的Side Project,驱动源于“开源代码必须是全球AI基础设施的地基”的技术信仰 [17] - 项目在没有商业推广的情况下,迅速成为开发者社区的宠儿 [18] - 随着项目从实验室走向工业界,团队角色发生质变,通过与全球顶尖开发者协作,积累了独有的技术洞察并确立了行业权威 [20][21] - 团队发现,当推理任务从Demo演示变为数千张GPU集群的生产级部署时,挑战量级呈指数级上升,现有开源方案在深度底层优化、大规模集群线性扩展及复杂GPU部署流程上力不从心 [21][22] - 企业需求已从零散代码库转变为能稳定承载万亿次调用的工业级引擎,这需要引入严密的商业组织形式来构建下一代引擎 [23][24]
速递|a16z全程跟进:vLLM之父创AI推理Inferact,顶级投资阵容融资,估值达8亿美元
搜狐财经· 2026-01-23 12:46
公司融资与估值 - AI初创企业Inferact完成1.5亿美元种子轮融资,公司估值达到8亿美元 [2] - 本轮融资由安德森·霍洛维茨基金和光速创投领投,红杉资本、Altitude资本、红点创投及真格基金参与投资 [2] - 公司成立于2025年11月,并于近期正式对外公开 [3] 公司业务与技术核心 - Inferact专注于人工智能推理阶段,即AI模型完成训练后能够开始回答问题、解决任务的环节 [2] - 公司技术核心围绕开源项目vLLM构建,该项目于2023年发布,旨在帮助企业将AI模型高效部署在数据中心硬件上 [2] - vLLM项目最初由加州大学伯克利分校启动,现由PyTorch基金会监管,已吸引了来自AI产业数千名开发者的贡献 [2] - 公司首要任务是继续将vLLM作为独立的开源项目进行支持,所有改进都将回馈社区 [4] - 第二个目标是开发独立的商业产品,帮助企业更高效地在各类硬件上运行AI模型 [4] 行业背景与市场机遇 - AI行业面临的最大挑战将不再是构建新模型,而是如何经济高效且稳定可靠地运行现有模型 [2] - 过去企业需要等待数年才能迎来新模型发布,因为训练系统缓慢且昂贵,但随着现有模型足够强大,情况已发生改变 [3] - 开发者创建的AI产品必须持续与模型进行通信,这推高了成本并给系统带来压力,推理环节正成为瓶颈,且问题在未来几年可能愈发严峻 [3][4] - 此次大规模的种子轮融资反映出市场机遇的规模,以及即使微小的效率提升也能对成本产生显著影响 [4] 团队背景与投资者关系 - Inferact由首席执行官Simon Mo领导,他是vLLM项目的原始维护者之一 [3] - 安德森·霍洛维茨基金会参与可追溯至vLLM项目的早期阶段,vLLM在2023年成为其“AI开源资助计划”的首个受助项目 [3] - 在Inferact成立之前,安德森·霍洛维茨基金会还主办了该项目的首场社区聚会,为建立紧密联系奠定了早期基础 [3] 技术应用与市场认可 - 亚马逊公司不仅其云业务,连购物应用程序也依赖vLLM软件来运行内部人工智能系统,这证明了vLLM应用的广泛程度 [5]
速递|a16z全程跟进:vLLM之父创AI推理Inferact,顶级投资阵容融资,估值达8亿美元
Z Potentials· 2026-01-23 12:13
公司融资与估值 - AI初创企业Inferact已完成1.5亿美元种子轮融资,公司估值达8亿美元 [2] - 本轮融资由安德森·霍洛维茨基金和光速创投领投,红杉资本、Altitude资本、红点创投及真格基金参与投资 [2] - 公司成立于2025年11月,并于近期正式对外公开 [3] 公司背景与技术核心 - Inferact由vLLM项目的原始维护者之一Simon Mo领导 [3] - 公司技术核心围绕开源项目vLLM构建,该项目于2023年发布,旨在帮助企业将AI模型高效部署在数据中心硬件上 [2] - vLLM最初由加州大学伯克利分校启动,现由PyTorch基金会监管,已吸引了来自AI产业数千名开发者的贡献 [2] - 公司将自身创立渊源与伯克利分校孵化的其他成功软件项目(如Apache Spark和Ray)相类比 [3] 行业趋势与公司定位 - 公司专注于人工智能推理阶段,即AI模型完成训练后能够开始回答问题、解决任务的环节 [2] - 公司预判,未来AI行业面临的最大挑战将不再是构建新模型,而是如何经济高效且稳定可靠地运行现有模型 [2] - 投资者认为其兴趣反映了AI行业更广泛的转变:过去企业需等待数年迎来新模型发布,而现有模型已足够强大,开发者无需等待重大升级即可使用 [3] - 推理环节正成为瓶颈,因为开发者创建的AI产品必须持续与模型进行通信,这推高了成本并给系统带来压力,且该问题在未来几年可能会愈发严峻 [4] 公司战略与市场机遇 - 公司的首要任务是继续将vLLM作为独立的开源项目进行支持,所有改进都将回馈社区 [4] - 第二个目标是开发独立的商业产品,帮助企业更高效地在各类硬件上运行AI模型 [4] - 大规模的种子轮融资反映出市场机遇的规模,以及即使微小的效率提升也能对成本产生的显著影响 [4] - 公司并非试图取代或限制开源项目,而是旨在建立一项能够支持并拓展该项目的业务 [4] - vLLM应用广泛,例如亚马逊公司不仅其云业务,连购物应用程序也依赖该软件来运行内部人工智能系统 [4] 投资者关系 - 安德森·霍洛维茨基金会参与可追溯至vLLM项目的早期阶段,vLLM在2023年成为其“AI开源资助计划”的首个受助项目 [3] - 在Inferact成立之前,安德森·霍洛维茨基金会还主办了该项目的首场社区聚会,为与团队建立紧密联系奠定了早期基础 [3]
vLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创
机器之心· 2026-01-23 08:45
公司成立与融资 - 由开源大模型推理加速框架vLLM的创建者创立的人工智能初创公司Inferact正式成立 [1] - 公司在种子轮融资中筹集了1.5亿美元(约合10亿元人民币),公司估值达到8亿美元 [1] - 本轮融资由Andreessen Horowitz(a16z)和Lightspeed领投,Sequoia Capital、Altimeter Capital、Redpoint Ventures和ZhenFund也参与了投资 [4] - 1.5亿美元的种子轮融资规模超过了Mistral AI的1.15亿美元,是有史以来规模最大的种子轮融资之一 [4] 公司使命与定位 - 公司的使命是将vLLM发展成为世界领先的AI推理引擎,并通过降低推理成本、加快推理速度来加速AI的发展 [5] - 公司认为,AI行业未来面临的最大挑战不是构建新模型,而是如何以低成本、高可靠性地运行现有模型 [6] - 公司定位于模型和硬件的交汇点,与模型厂商合作确保新架构的首日支持,与硬件厂商集成新芯片,并支持大模型团队进行大规模部署 [12] 核心技术vLLM - 公司的核心是开源项目vLLM,这是一个于2023年启动的开源项目,旨在帮助企业在数据中心硬件上高效运行AI模型 [7] - vLLM最初由加州大学伯克利分校的天空计算实验室开发,现由PyTorch基金会负责管理,已吸引了来自整个AI行业的2000多名贡献者 [8] - vLLM是全球范围内最受欢迎的开源大模型推理加速框架,其GitHub仓库拥有68.2k个Star和12.8k个Fork [8] - vLLM支持了500多种模型架构,可在200多种加速器上运行,并支持着全球规模的推理 [12] - vLLM的推理能力在为Meta、谷歌、Character.AI等科技公司提供支持 [9] 团队与背景 - 公司的首席执行官Simon Mo是加州大学伯克利分校的在读博士生,也是vLLM的创始维护者之一 [9] - 公司成立于2025年11月,并于本周正式对外公布 [9] - vLLM项目的核心贡献者、清华博士游凯超是公司的联合创始人 [13] - 创始团队还包括Woosuk Kwon、Roger Wang、Joseph Gonzalez、Ion Stoica等人 [15] 行业背景与挑战 - 业界对于AI推理基础设施的重视程度正在急速提升 [4] - 当前用于大模型训练的AI集群,将在六个月内完全被用于推理,推理会逐渐消耗掉所有算力容量,并耗尽所有新增的容量 [11] 未来发展计划 - 公司的首要任务是继续支持vLLM作为独立的开源项目,并将改进成果分享给社区 [12] - 计划进一步提升vLLM的性能,深化对新兴模型架构的支持,并扩大对前沿硬件的覆盖范围 [12] - 公司的第二个目标是开发一款独立的商业产品,帮助企业在不同类型的硬件上更高效地运行AI模型 [12]
听LLaMA Factory、vLLM、RAGFlow作者亲述顶级开源项目的增长法则|GOBI 2025
AI科技大本营· 2025-12-17 17:42
大会核心信息 - 会议名称为GOBI 2025全球开源商业创新大会,由Upstream Labs、AI原点社区、CSDN联合主办 [14] - 会议将于12月21日10:00-17:15在北京海淀东升万丽酒店举行 [5][19] - 会议定位为首届开源商业化主题大会,旨在汇聚生态伙伴,站在全球开源与AI交汇的最前沿,共同解锁未来三年的创新机会 [14][19] 参会嘉宾与规模 - 大会汇聚了500+位开源基金会掌舵者、独角兽创始人、头部VC合伙人与顶级开发者 [14] - 参会嘉宾包括来自GitHub 60,000+ Star项目LLaMA Factory的郑耀威、vLLM社区核心贡献者张家驹、RAGFlow创始人张颖峰、Apache软件基金会成员及Datastrato创始人堵俊平等实战派专家 [2][6] - 其他重要嘉宾包括创新工场联合创始人汪华、CSDN创始人蒋涛、涛思数据创始人陶建辉、LVS创始人章文嵩、PingCAP副总裁刘松、月之暗面副总裁黄震昕等超过30位专家 [20][21] 大会议程与核心议题 - 大会包含三大顶层Keynote,系统洞察开源、AI与商业的前沿思辨 [17] - 核心议题围绕“AI浪潮三部曲:变局·聚力·创生”展开,包含四场深度圆桌讨论 [6][19] - 具体议程包括“破局·企业软件的‘巨硬’时刻”、“变局·AI带来的软件和SaaS变革”、“聚力·开源社区的进化与未来”以及“创生·AI催生的文艺复兴式创业者”等圆桌论坛 [20][21] - 圆桌论坛将探讨如何借助社区力量实现个人能力跃迁、如何让围观者变为共创者、以及如何构建社区精神部落等核心问题 [3] - 会议最后将进行“源起之道”开源商业创新营优胜项目路演及颁奖典礼 [22] 现场活动与体验 - 现场将展示10大“源起之道”开源商业创新营项目 [10][22] - 现场将提供10大具身智能应用场景及体验 [10][22] - 参会者可近距离体验前沿开源应用成果与优秀项目 [10][22] - 大会设有入场好礼及终极神秘大奖等互动环节 [10][22]
DeepSeek倒逼vLLM升级,芯片内卷、MoE横扫千模,vLLM核心维护者独家回应:如何凭PyTorch坐稳推理“铁王座”
36氪· 2025-12-15 08:36
vLLM项目发展历程与社区生态 - vLLM项目起源于加州大学伯克利分校Sky Computing Lab,于2023年开源其核心PagedAttention技术,在短短一年多内GitHub Star数突破4万,并迅速增长至6.5万,已成为全球科技公司首选的推理引擎 [1] - Neural Magic公司通过“免费平台 + 开源工具”策略,在AI优化领域脱颖而出,通过深入贡献vLLM构建了企业级推理堆栈并维护预优化模型库,其社区积累与工程实力吸引了红帽的注意 [1] - 2024年11月,红帽正式收购Neural Magic,并将包括vLLM核心维护者Michael Goin在内的核心团队纳入旗下,Michael在优化推理性能、最大化CPU/GPU效能方面拥有超过十年经验 [1] vLLM技术演进与模型支持 - vLLM开发团队作为项目“内核团队”,专注于集成与开发高性能推理内核,随着DeepSeek R1等模型的发布,团队开发重心从聚焦Llama系列转向全力投入DeepSeek模型相关特性优化 [3] - 在0.7.2版本中,团队紧凑开发以迅速响应DeepSeek新特性,高效支持了Qwen 2.5 VL并引入了Transformers backend,使用户能直接运行任意Hugging Face模型 [3] - 随后的0.7.3版本成为一次规模更大的更新,为DeepSeek启用了多Token预测、MLA注意力等优化,扩展了对AMD硬件的支持与调优,并推动了vLLM从支持张量并行、流水线并行到支持专家并行的演进 [4] - 团队将DeepSeek开源的一系列高性能工具,如DeepGEMM、DeepEP、专家并行负载均衡等,系统化地融入vLLM生态 [4] - 团队面向推理场景不断扩充高性能内核库,涵盖定制版Triton、CUTLASS、CUDA内核、HIP内核等,还包括各种量化支持与众多定制内核实现 [7] - 除了主导DeepSeek V3的整合,团队还完成了GPT-OSS、Qwen、Kimi等多个模型的适配与优化 [7] 硬件生态支持与战略 - vLLM团队的核心使命之一是构建开放、高效的硬件推理生态,广泛支持各类主流芯片,并深度参与新硬件的架构设计与性能优化 [8] - 过去几个月,团队与NVIDIA共同推进Blackwell芯片的支持工作,优化B200相关性能,并与AMD团队保持紧密协作以确保其在vLLM中的性能表现 [8] - 团队与Google TPU团队紧密合作一年多,完成了多次版本发布,并作为最高决策者参与设计了整体沐曦芯片的支持架构 [8] - 团队与硬件伙伴的合作流程严谨,例如在沐曦项目的早期阶段便共同讨论支持框架设计,主导高层架构,并通过创建跨公司“线上联合工作组”确保高效推进 [8] - vLLM广泛支持从NVIDIA、AMD到Google TPU乃至国内众多芯片的核心战略在于深度拥抱PyTorch,将其作为连接上层框架与底层硬件的“最大公约数” [9] - 只要硬件厂商提供了对PyTorch的良好支持,适配vLLM的工作就已完成了绝大部分(约90%),剩余约10%主要涉及对PyTorch中效率较低的部分进行定制优化 [10] - vLLM中的模型定义几乎完全基于PyTorch编写,并支持十余种其他硬件backend的注意力实现,如NVIDIA的FlashAttention、AMD的ROCm Attention、Google TPU的Pathways Attention等 [10] 多模态能力拓展 - vLLM团队将vLLM从一个纯文本推理引擎,全面升级为一个支持全模态生成与理解的统一服务平台,多模态模型架构改变了vLLM的架构 [17] - 团队对vLLM v1版本进行了彻底重构,一项关键创新是多模态前缀缓存,将Page Attention机制从文本token的键值缓存扩展至图像、音频等任意模态输入,大幅提升了重复请求的处理效率 [18] - 团队实现了编码器解耦技术,将视觉、音频编码器与语言模型backbone解耦,为超大规模推理场景提供了极致的弹性与资源利用率 [18] - 2024年12月,vLLM-Omni作为其首个“全模态”推理框架正式发布,它将文本、图像、音频、视频的统一生成从概念变为可落地的生产级代码 [19] - Omni引入了一套完全解耦的流水线架构,让不同阶段按需分配资源,并通过统一调度衔接,一个omni-modality推理请求会经过模态编码器、LLM核心与模态生成器三类组件 [19] - 如今vLLM支持的范围十分广泛,包括多模态理解与生成、嵌入模型、智能体编程,以及企业级的文档理解、OCR、推荐系统、客服、编程辅助乃至缺陷检测等判别式任务 [21] 社区竞争优势与迭代 - 随着vLLM逐渐发展成熟,许多公司开始将更多修改回馈至上游,更倾向于直接使用上游vLLM而不是开发私有版本,这一良性循环的核心驱动力在于“速度” [22] - vLLM的上游版本通过与众多领先的模型实验室和公司合作,快速收集反馈并修复问题,然后放回社区,vLLM的合作名单涵盖了从DeepSeek、Qwen、字节、腾讯,到LinkedIn、亚马逊、Mistral、Azure和Snowflake等 [23] - 当社区版本的迭代速度远超私有分支时,用户更倾向于使用社区版本,这种“速度优势”正推动vLLM加速成为大模型推理领域的事实标准 [23] - vLLM作为一个每月下载量超20万次的热门推理框架,团队正着手解决开发者反馈的启动速度偏慢问题,在GitHub上建立了专项跟踪与“启动体验优化”项目 [24] - 导致启动时间较长的因素包括CUDA graph capture time和torch.compile,开发团队已推动torch.compile团队重视启动时间问题并取得了一些显著改进 [24] - 团队还打造了工具和指南,指导用户处理冷启动与热启动的差异,并建议通过复制缓存目录来实现热启动以提升速度 [25] 红帽的战略角色与贡献 - 红帽全球约有两万名员工,其中可能有一两千名工程师完全在社区中做贡献,所做工作非常中立,vLLM的治理结构本身高度分散,共有15到20个不同组织的成员担任提交者或维护者 [26] - 红帽如此投入vLLM,源于一个战略判断:推理是AI应用成本的核心环节,实现高性能需要vLLM集成最前沿的模型优化 [26] - 红帽最具代表性的贡献是主导推动了vLLM v1版本的架构重构,这次升级为未来系统设计奠定了基础,并实质性地推动了社区标准化进程 [27] - 例如,红帽与PyTorch torch.compile团队长达一年半的合作,优化了上游框架以更好支持vLLM的高阶场景,让支持新硬件、新模型变得更容易 [27]
LMCache:基于KV缓存复用的LLM推理优化方案
新浪财经· 2025-12-09 21:41
行业技术趋势 - 在大语言模型推理服务中,首令牌时间是一个核心性能指标,直接影响用户体验 [1][15] - 传统推理方案存在重复计算问题,每次处理相同输入文本都需重新计算KV缓存,导致效率低下 [2][17][18] 解决方案与产品 - LMCache提出了一套KV缓存持久化与复用的创新方案,旨在优化首令牌时间 [1][16] - 该方案通过将KV缓存存储在多级介质中实现复用,支持GPU显存、CPU内存、磁盘乃至NIXL分布式存储 [2][6][18][20] - 其核心优势在于支持任意位置文本匹配,而不仅是前缀匹配,从而能更广泛地命中缓存 [2][5][18] - 该方案已与vLLM推理框架深度集成,支持跨设备共享缓存和跨节点传递等生产级特性 [1][7][16][21] 性能表现 - 实测表明,在多轮对话和RAG等高重复率场景下,搭配vLLM使用可使响应速度提升3到10倍 [2][13][18][26] - 缓存读取速度比原生方案快约7倍,同时系统吞吐量也有所提升 [5][19] 应用场景与价值 - 该技术特别适用于聊天机器人和RAG应用,能在不升级硬件的情况下有效降低响应延迟 [8][22] - 对于提示词重复率高的场景,3至10倍的首令牌时间优化具有显著的实际价值 [13][26] 技术生态与部署 - LMCache目前主要绑定vLLM生态,并优先支持Linux操作系统 [14][23][27] - 基本运行要求包括Python 3.9+、NVIDIA V100或H100等GPU以及CUDA 12.8以上版本 [10][24] - 提供多种安装方式,包括pip直接安装、源码编译以及Docker镜像部署 [11][12][25][26] - 对AMD GPU的支持正在完善中,例如MI300X需要特定的ROCm编译参数 [13][26]
开源破局AI落地:中小企业的技术平权与巨头的生态暗战
21世纪经济报道· 2025-11-11 22:20
开源AI采用现状 - 超过50%的受访企业在AI技术栈的数据、模型与工具层面使用开源技术[1] - 科技、媒体与通信行业的开源AI使用率最高,达到70%[1] - 开源技术通过公开源代码与全球协作,让企业能够根据自身需求快速定制解决方案[1] 企业AI落地挑战与策略 - 企业需要迅速接入大模型,但也要合理应用以规避风险,避免在单一模型厂商上绑死[2] - 企业面临高效利用异构资源的挑战,包括GPU、CPU等多样化算力以及公有云、边缘计算和私有数据中心等多种部署环境[2] - 不同部门或业务场景可能使用不同的大模型或定制小模型,使资源管理更加复杂[2] - 开源生态可以兼容多样化环境,支持企业的不同业务[3] AI操作系统与推理引擎 - 企业需要有弹性、可扩容的AI应用平台,同时兼顾成本与信息安全,AI操作系统是核心中枢[4] - AI操作系统应通过标准化接口和模块化设计,对应不同硬件和不同模型,其核心是推理引擎[4] - 在超过350个企业中,仍有超过51%的企业尚未部署任何推理引擎[5] - 推理引擎类似于传统操作系统在CPU上的作用,通过标准化和模块化设计实现GPU和其他算力的高效利用[4] 开源推理引擎发展 - vLLM是一个高性能、开源LLM推理和服务引擎,旨在提升LLM的推理速度和GPU资源利用率[6] - 红帽发布了开源项目llm-d,进一步增强vLLM推理能力,为AI推理的规模化落地提供方案[6] - Meta的Llama系列推理框架主要针对自家服务,在跨模型与硬件适配能力方面有限[6] - vLLM和SG Lang等开源推理引擎由于支持多种模型和硬件,更适合企业场景[6] 行业趋势转变 - AI落地叙事从造模型转向跑模型,从比拼算法转向构建生态[4] - 开源社区为全球开发者打下良好基础,企业只需在社区中找到技术并企业化[4] - 企业应充分利用开源社区的集群效应,结合企业级AI平台,实现任意云环境、任意模型和加速器的AI部署[6]