Workflow
AI大模型推理
icon
搜索文档
DeepSeek倒逼vLLM升级,芯片内卷、MoE横扫千模,vLLM核心维护者独家回应:如何凭PyTorch坐稳推理“铁王座”
36氪· 2025-12-15 08:36
vLLM项目发展历程与社区生态 - vLLM项目起源于加州大学伯克利分校Sky Computing Lab,于2023年开源其核心PagedAttention技术,在短短一年多内GitHub Star数突破4万,并迅速增长至6.5万,已成为全球科技公司首选的推理引擎 [1] - Neural Magic公司通过“免费平台 + 开源工具”策略,在AI优化领域脱颖而出,通过深入贡献vLLM构建了企业级推理堆栈并维护预优化模型库,其社区积累与工程实力吸引了红帽的注意 [1] - 2024年11月,红帽正式收购Neural Magic,并将包括vLLM核心维护者Michael Goin在内的核心团队纳入旗下,Michael在优化推理性能、最大化CPU/GPU效能方面拥有超过十年经验 [1] vLLM技术演进与模型支持 - vLLM开发团队作为项目“内核团队”,专注于集成与开发高性能推理内核,随着DeepSeek R1等模型的发布,团队开发重心从聚焦Llama系列转向全力投入DeepSeek模型相关特性优化 [3] - 在0.7.2版本中,团队紧凑开发以迅速响应DeepSeek新特性,高效支持了Qwen 2.5 VL并引入了Transformers backend,使用户能直接运行任意Hugging Face模型 [3] - 随后的0.7.3版本成为一次规模更大的更新,为DeepSeek启用了多Token预测、MLA注意力等优化,扩展了对AMD硬件的支持与调优,并推动了vLLM从支持张量并行、流水线并行到支持专家并行的演进 [4] - 团队将DeepSeek开源的一系列高性能工具,如DeepGEMM、DeepEP、专家并行负载均衡等,系统化地融入vLLM生态 [4] - 团队面向推理场景不断扩充高性能内核库,涵盖定制版Triton、CUTLASS、CUDA内核、HIP内核等,还包括各种量化支持与众多定制内核实现 [7] - 除了主导DeepSeek V3的整合,团队还完成了GPT-OSS、Qwen、Kimi等多个模型的适配与优化 [7] 硬件生态支持与战略 - vLLM团队的核心使命之一是构建开放、高效的硬件推理生态,广泛支持各类主流芯片,并深度参与新硬件的架构设计与性能优化 [8] - 过去几个月,团队与NVIDIA共同推进Blackwell芯片的支持工作,优化B200相关性能,并与AMD团队保持紧密协作以确保其在vLLM中的性能表现 [8] - 团队与Google TPU团队紧密合作一年多,完成了多次版本发布,并作为最高决策者参与设计了整体沐曦芯片的支持架构 [8] - 团队与硬件伙伴的合作流程严谨,例如在沐曦项目的早期阶段便共同讨论支持框架设计,主导高层架构,并通过创建跨公司“线上联合工作组”确保高效推进 [8] - vLLM广泛支持从NVIDIA、AMD到Google TPU乃至国内众多芯片的核心战略在于深度拥抱PyTorch,将其作为连接上层框架与底层硬件的“最大公约数” [9] - 只要硬件厂商提供了对PyTorch的良好支持,适配vLLM的工作就已完成了绝大部分(约90%),剩余约10%主要涉及对PyTorch中效率较低的部分进行定制优化 [10] - vLLM中的模型定义几乎完全基于PyTorch编写,并支持十余种其他硬件backend的注意力实现,如NVIDIA的FlashAttention、AMD的ROCm Attention、Google TPU的Pathways Attention等 [10] 多模态能力拓展 - vLLM团队将vLLM从一个纯文本推理引擎,全面升级为一个支持全模态生成与理解的统一服务平台,多模态模型架构改变了vLLM的架构 [17] - 团队对vLLM v1版本进行了彻底重构,一项关键创新是多模态前缀缓存,将Page Attention机制从文本token的键值缓存扩展至图像、音频等任意模态输入,大幅提升了重复请求的处理效率 [18] - 团队实现了编码器解耦技术,将视觉、音频编码器与语言模型backbone解耦,为超大规模推理场景提供了极致的弹性与资源利用率 [18] - 2024年12月,vLLM-Omni作为其首个“全模态”推理框架正式发布,它将文本、图像、音频、视频的统一生成从概念变为可落地的生产级代码 [19] - Omni引入了一套完全解耦的流水线架构,让不同阶段按需分配资源,并通过统一调度衔接,一个omni-modality推理请求会经过模态编码器、LLM核心与模态生成器三类组件 [19] - 如今vLLM支持的范围十分广泛,包括多模态理解与生成、嵌入模型、智能体编程,以及企业级的文档理解、OCR、推荐系统、客服、编程辅助乃至缺陷检测等判别式任务 [21] 社区竞争优势与迭代 - 随着vLLM逐渐发展成熟,许多公司开始将更多修改回馈至上游,更倾向于直接使用上游vLLM而不是开发私有版本,这一良性循环的核心驱动力在于“速度” [22] - vLLM的上游版本通过与众多领先的模型实验室和公司合作,快速收集反馈并修复问题,然后放回社区,vLLM的合作名单涵盖了从DeepSeek、Qwen、字节、腾讯,到LinkedIn、亚马逊、Mistral、Azure和Snowflake等 [23] - 当社区版本的迭代速度远超私有分支时,用户更倾向于使用社区版本,这种“速度优势”正推动vLLM加速成为大模型推理领域的事实标准 [23] - vLLM作为一个每月下载量超20万次的热门推理框架,团队正着手解决开发者反馈的启动速度偏慢问题,在GitHub上建立了专项跟踪与“启动体验优化”项目 [24] - 导致启动时间较长的因素包括CUDA graph capture time和torch.compile,开发团队已推动torch.compile团队重视启动时间问题并取得了一些显著改进 [24] - 团队还打造了工具和指南,指导用户处理冷启动与热启动的差异,并建议通过复制缓存目录来实现热启动以提升速度 [25] 红帽的战略角色与贡献 - 红帽全球约有两万名员工,其中可能有一两千名工程师完全在社区中做贡献,所做工作非常中立,vLLM的治理结构本身高度分散,共有15到20个不同组织的成员担任提交者或维护者 [26] - 红帽如此投入vLLM,源于一个战略判断:推理是AI应用成本的核心环节,实现高性能需要vLLM集成最前沿的模型优化 [26] - 红帽最具代表性的贡献是主导推动了vLLM v1版本的架构重构,这次升级为未来系统设计奠定了基础,并实质性地推动了社区标准化进程 [27] - 例如,红帽与PyTorch torch.compile团队长达一年半的合作,优化了上游框架以更好支持vLLM的高阶场景,让支持新硬件、新模型变得更容易 [27]
国产 ASIC:PD 分离和超节点:ASIC 系列研究之四
申万宏源证券· 2025-09-26 21:28
投资评级 - 报告对国产ASIC行业持积极看法,认为ASIC设计服务商迎来发展机遇,博通、Marvell、国内芯原股份、翱捷科技、灿芯股份有望受益 [2] 核心观点 - ASIC在能效与成本上优势突出,专用芯片特性使其在推理场景更具优势,AI渗透率提升带动推理需求激增,拓宽ASIC市场空间 [1][3] - ASIC设计复杂度高,专业分工下设计服务商价值凸显,博通等头部服务商凭借完整IP体系、封装技术和量产经验巩固行业地位 [1][3] - 国内云厂商自研ASIC已有独立成果,并非跟随海外路径,百度、阿里、字节等头部厂商推动国产ASIC放量,本土设计服务商迎来战略机遇 [1][3] - PD分离与超节点成为国产ASIC发展的两大核心趋势,华为、海光等厂商已形成自主技术体系,采用开源开放模式适配多元化需求 [1][4] 目录总结 大模型推理带动ASIC需求 - 2028-2030年全球AI芯片市场规模有望达5000亿美元,AI基础设施支出预计达3-4万亿美元 [8] - ASIC专用性强,谷歌TPU v5能效比为英伟达H200的1.46倍,亚马逊Trainium2训练成本较GPU降低40%,推理成本降55% [14][15] - 推理需求激增驱动ASIC需求,ChatGPT C端WAU达7亿,OpenRouter统计Token消耗量一年翻近10倍 [21][29] - 博通2024年AI ASIC收入122亿美元,2025年前三季度达137亿美元,AMD预计2028年全球AI ASIC市场规模达1250亿美元 [1][30] ASIC设计复杂度高,服务商价值凸显 - ASIC设计需前端需求定义与后端技术落地,云厂商多依赖服务商,博通、Marvell为全球主要服务商 [36][41] - 谷歌TPU成功离不开与博通合作,博通优势包括30亿美元投入积累的完整IP体系、TPU设计经验、3.5D XDSiP封装技术、高速互联与CPO技术 [1][55] - 博通2024年AI ASIC收入122亿美元,2025年前三季度达137亿美元,季度环比增速超越英伟达 [1][55] 国内ASIC发展并非跟随 - 2025H1中国AI云市场CR5超75%,头部云厂需求旺盛,百度昆仑芯迭代至第三代,实现万卡集群部署并中标10亿元中国移动订单 [1][74][75] - 阿里平头哥PPU显存容量96GB、带宽700GB/s超英伟达A800,签约中国联通16384张算力卡订单 [76][78] - 字节2020年启动芯片自研,计划2026年前量产,国产服务商芯原股份、翱捷科技、灿芯股份各具优势 [1][80][82] 国产ASIC技术趋势:PD分离与超节点 - PD分离指Prefill与Decode任务用不同芯片完成,华为昇腾950分PR和DT型号适配不同场景 [1][94][95] - 超节点通过高带宽互联形成统一计算体,海光开放HSL协议吸引寒武纪等参与,华为开放灵衢总线支持超8192卡扩展 [1][104][107] - 英伟达Rubin CPX为海外首个芯片级PD分离实践,采用GDDR7替代HBM降低成本,华为昇腾950PR/950DT分别针对Prefill和Decode优化 [90][92][95]
旋极信息:浙江曲速新产品TGU01芯片主要用于AI大模型推理场景
证券日报· 2025-09-04 17:45
公司产品动态 - 浙江曲速新产品TGU01芯片主要用于AI大模型推理场景 [2] - 该芯片目前已经适配DeepSeek软件 [2] 行业技术应用 - AI大模型推理场景成为芯片产品重要应用方向 [2]
英伟达:FY25Q4业绩点评:FY25Q4业绩超预期,Blackwell需求强劲,推理计算需求高速增长-20250228
光大证券· 2025-02-28 08:22
报告公司投资评级 - 买入(维持)[4][6] 报告的核心观点 - 英伟达 FY25Q4 业绩超市场预期,数据中心和汽车业务收入高速增长,AI 大模型推理需求加速增长,Blackwell 需求强劲且供应链问题解决,预计 FY2026 - 2028 业绩延续高速增长,维持“买入”评级[1][2][4] 根据相关目录分别进行总结 业绩情况 - FY25Q4 营收 393.3 亿美元,YoY + 78%,QoQ + 12%,超彭博一致预期;Non - GAAP 毛利率 73.5%,QoQ - 1.5pct,YoY - 3.2pct;Non - GAAP 净利润 220.7 亿美元,QoQ + 10%,YoY + 72%,对应 Non - GAAP EPS 0.89 美元,超彭博一致预期[1] - FY25 全年收入 1305 亿美元,同比上升 114%,超彭博一致预期;Non - GAAP 净利润 742.6 亿美元,同比增加 130%,对应 EPS 2.99 美元,超彭博一致预期[1] - FY26Q1 指引营收 430 亿美元,YoY + 65%,QoQ + 9%,超彭博一致预期;Non - GAAP 毛利率 71%,QoQ - 3pct,低于彭博一致预期[1] 业务板块 - 数据中心业务 FY25 全年营收 1152 亿美元,YoY + 142%;FY25Q4 营收 356 亿美元,QoQ + 16%,YoY + 93%,约 50%收入来自大型云厂商,Q4 营收贡献占比增至 90.6%,Hopper200 出货持续环比增长,Blackwell 需求强劲贡献约 110 亿美元收入,大模型对推理芯片需求持续增长[2] - 游戏业务 FY25 全年营收 114 亿美元,YoY + 9%;FY25Q4 营收 25 亿美元,YoY - 11%,QoQ - 22%,Q4 出货量受供应链限制影响,假期需求强劲,预计 FY26Q1 出货量恢复增长,搭载 GeForce RTX 50 系列显卡的笔记本电脑 3 月起发售[2] - 专业可视化业务 FY25 全年营收 19 亿美元,YoY + 21%;FY25Q4 营收 5 亿美元,YoY + 10%,QoQ + 5%,客户对 RTX GPU 工作站需求持续提升[2] - 汽车业务 FY25 全年营收 17 亿美元,YoY + 55%;FY25Q4 营收 6 亿美元,YoY + 103%,QoQ + 27%,增长系自动汽车持续量产爬坡[2] 行业趋势 - Open AI o3、DeepSeek - R1 等大模型推动推理需求加速增长,长思维推理相比一次性推理需超 100 倍数据量,未来 AI 大模型计算需求远超当前大语言模型,Blackwell 因高 Token 吞吐量和低成本需求持续提升,其供应链问题已解决,下一代 Blackwell Ultra 2025 年下半年发布[3] 盈利预测与估值 - 预计 Blackwell 平台和 AI 大模型推理需求增长驱动英伟达 FY2026 - 2028 业绩高速增长,维持 FY2026 - FY2027 GAAP 净利润预测 1301.62/1843.24 亿美元,新增 FY2028 GAAP 净利润预测 2374.51 亿美元,对应 FY2026 - 2028 GAAP 净利润同比增速 78.6%/41.61%/28.82%,对应 FY2026 - 2028 GAAP EPS 为 5.33/7.55/9.73 美元,2 月 26 日收盘价 131.28 美元对应 FY2026/FY2027 25x/17x PE[4]
【英伟达(NVDA.O)】FY25Q4业绩超预期,Blackwell需求强劲,推理计算需求高速增长——FY25Q4业绩点评
光大证券研究· 2025-02-27 21:48
文章核心观点 英伟达发布FY25Q4及FY25全年业绩,业绩超市场预期,各业务有不同表现,AI大模型推理需求加速增长,下一代产品将推出 [2][3][4] 业绩情况 - FY25Q4营收393.3亿美元,YoY+78%,QoQ+12%,超彭博一致预期;Non - GAAP毛利率73.5%,QoQ - 1.5pct,YoY - 3.2pct;Non - GAAP净利润220.7亿美元,QoQ+10%,YoY+72%,对应Non - GAAP EPS 0.89美元,超彭博一致预期 [2] - FY25全年收入1305亿美元,同比上升114%,超彭博一致预期;Non - GAAP净利润742.6亿美元,同比增加130%,对应EPS 2.99美元,超彭博一致预期 [2] - FY26Q1指引营收430亿美元,YoY+65%,QoQ+9%,超彭博一致预期;Non - GAAP毛利率71%,QoQ - 3pct,低于彭博一致预期 [2] 业务表现 数据中心业务 - FY25全年营收1152亿美元,YoY+142%;FY25Q4营收356亿美元,QoQ+16%,YoY+93%,约50%收入来自大型云厂商,Q4营收贡献占比增至90.6% [3] - Hopper200出货持续环比增长,Blackwell需求强劲,贡献约110亿美元收入,大模型对推理芯片需求持续增长 [3] 游戏业务 - FY25全年营收114亿美元,YoY+9%;FY25Q4营收25亿美元,YoY - 11%,QoQ - 22%,Q4出货量受供应链限制影响,假期需求维持强劲 [3] - 公司预计FY26Q1出货量将恢复增长,搭载GeForce RTX 50系列显卡的笔记本电脑将于3月起发售 [3] 专业可视化业务 - FY25全年营收19亿美元,YoY+21%;FY25Q4营收5亿美元,YoY+10%,QoQ+5%,客户对RTX GPU工作站需求持续提升 [3] 汽车业务 - FY25全年营收17亿美元,YoY+55%;FY25Q4营收6亿美元,YoY+103%,QoQ+27%,增长系自动汽车持续量产爬坡 [3] AI发展情况 - Open AI o3、DeepSeek - R1等大模型推动推理需求加速增长,长思维推理相比一次性推理,需要超100倍的数据量,未来AI大模型计算需求会远超当前大语言模型 [4] - Blackwell需求将持续提升,其供应链问题已解决,下一代Blackwell Ultra将于2025年下半年发布 [4]