Run:ai
搜索文档
下一个“AI卖铲人”:算力调度是推理盈利关键,向量数据库成刚需
华尔街见闻· 2025-12-24 12:17
AI基础设施软件行业概览 - 生成式AI应用加速渗透,AI基础设施软件成为应用落地的关键“卖铲人”,行业正迎来黄金发展期 [1] - 与模型训练环节被巨头垄断不同,推理和应用部署环节为独立软件厂商打开了新的商业空间 [1] - 当前两类产品最为关键:算力调度软件和数据类软件 [1] 算力调度软件 - 算力调度能力是决定模型推理服务盈利水平的核心变量,直接决定毛利率 [1][6] - 在单日10亿查询量场景下,使用H800芯片,单卡吞吐能力每提升10%,毛利率能够提升2-7个百分点 [1][6] - 敏感性分析显示,当单卡吞吐从基准值的0.6倍提升至1.4倍时,毛利率可从52%提升至80% [6] - 海外云厂商毛利率差异显著,2025年三季度谷歌云毛利率43.3%,微软智能云34.6%,亚马逊AWS仅为23.7%,硬件调度能力影响关键 [8] 国内厂商算力调度实践 - 国内模型价格战激烈,成本控制至关重要,例如Deepseek V3定价为每百万token输入2元、输出3元,远低于海外同类产品1.25-5美元的价格 [5] - 华为Flex:ai实现异构算力统一调度,通过芯片级切分技术,在特定场景下可将平均利用率提升30% [5] - 阿里巴巴Aegaeon实现token级动态调度,将10个模型所需GPU数量从1192张锐减至213张,资源节约率达82% [5] - 英伟达Run:ai可将GPU利用率提升5倍,Deepseek自研调度系统实现成本利润率545% [6] 向量数据库与RAG技术 - 向量数据库是RAG应用的刚需基础,Gartner预测2025年企业RAG技术采用率将达68% [1][10] - 2024年全球已有45%的企业在智能客服、数据分析等场景部署RAG系统 [10] - 向量数据库核心价值在于支撑海量数据的毫秒级检索,需在亿级数据规模下保持高QPS实时检索能力 [10] - 从2024年四季度开始,通过API接口接入大模型的Token消耗量一年内翻了近10倍,直接拉动了向量数据库需求 [11] 数据库格局重塑 - 生成式AI时代,数据架构正从“分析优先”转向“实时运营+分析协同”,高频、低延迟的实时事务处理需求凸显OLTP数据库优势 [12] - MongoDB凭借低门槛、高弹性契合中小客户AI落地需求,2026财年一至三季度核心产品Atlas收入增速分别为26%、29%、30% [15][16] - MongoDB在2025年2月以2.2亿美元收购Voyage AI补齐向量检索能力,其嵌入模型在HuggingFace RTEB测评中排名前列 [16] - 2026财年三季度MongoDB毛利率达76%,预计年底经营利润率达18%,全年营收增长率约21%-22% [16] 数据平台厂商的应对策略 - Snowflake与Databricks选择向上下游纵向拓展,打造全栈工具链 [15][17] - Snowflake 2025财年收入达36.26亿美元,同比增长29.21%,预计2026财年收入44.46亿美元 [17] - Databricks 2025年年化收入超48亿美元,同比增长55%,数据湖仓产品年化收入超10亿美元,净留存率超140% [17] - 截至2026财年三季度,Snowflake年消费超100万美元的高价值客户达688家,福布斯全球2000强企业中已有766家成为其客户 [17] 存储架构技术升级 - AI推理进入实时化、PB级数据访问新阶段,存储IO性能至关重要,LLM推理的KV缓存访问粒度仅8KB-4MB,向量数据库检索粒度低至64B-8KB [18] - 英伟达推出SCADA方案实现GPU直连SSD,将IO延迟从毫秒级降至微秒级,测试显示1颗H100 GPU的IO调度效率是Gen5 Intel Xeon Platinum CPU的2倍以上 [18] - 向量数据库需进行技术升级,包括采用GPU适配的列式存储、将检索算法改为GPU并行版本、自主管理GPU显存分配 [19]
Nvidia Acquires SchedMD to Support Open-Source Workload Management for AI
PYMNTS.com· 2025-12-16 04:43
英伟达收购SchedMD及其战略意义 - 英伟达已完成对SchedMD公司的收购 并将继续分发其开源Slurm软件 [1] - 此次收购旨在继续投资Slurm的开发 确保其保持在高性能计算和人工智能领域领先的开源调度器地位 [3] - 公司将为SchedMD的客户提供开源软件支持、培训和开发服务 并将Slurm作为开源、供应商中立的软件进行开发和分发 [3] Slurm软件的市场地位与协同效应 - Slurm是一种用于高性能计算和人工智能的工作负载管理系统 在TOP500超级计算机榜单中 超过一半的排名前10和前100的系统都在使用该软件 [2] - 两家公司已有超过十年的合作历史 [2] - 收购将加速SchedMD接入新系统 使英伟达加速计算平台的用户能够优化其整个计算基础设施的工作负载 同时支持多样化的硬件和软件生态系统 [4] 收购的战略目标与行业愿景 - SchedMD首席执行官表示 此次收购彰显了Slrum在严苛的高性能计算和人工智能环境中的重要性 英伟达在加速计算领域的深厚专业知识和投资将增强Slurm的开发 以满足下一代人工智能和超级计算的需求 [4][5] - 英伟达首席执行官指出 公司正经历“三个巨大的平台转型” 即从传统计算转向加速计算 从经典机器学习转向生成式人工智能 以及现在转向执行多步骤任务的智能体系统 [7] 英伟达在计算管理软件领域的连续布局 - 此次收购是英伟达在计算管理软件领域的又一布局 此前公司在2024年4月宣布计划收购基于Kubernetes的工作负载管理和编排软件提供商Run:ai 该交易已于2025年1月获得监管机构批准后完成 [5] - 英伟达表示 收购Run:ai将帮助客户更高效地利用其人工智能计算资源 使其能够在本地、云端或混合环境中管理和优化计算基础设施 [6]
华为发布AI容器技术Flex:AI,国产算力再次突破
中邮证券· 2025-11-24 13:50
行业投资评级 - 行业投资评级为“强于大市”并维持此评级 [1] 核心观点 - 华为发布并开源创新AI容器技术Flex:ai,通过算力切分技术将单张GPU/NPU算力卡切分为多份虚拟算力单元,切分粒度精准至10%,旨在解决行业内算力资源平均利用率仅为30%至40%的难题 [4] - 在无法充分利用整卡算力的AI工作负载场景下,华为Flex:ai技术可使算力资源平均利用率提升30% [4] - Gartner预测,到2027年,75%以上的AI工作负载将采用容器技术进行部署和运行 [5] - 与英伟达Run:ai相比,华为Flex:ai在虚拟化、智能调度等方面具备独特优势,并秉持开源与兼容异构算力理念,可实现对英伟达、昇腾及其他第三方算力资源的统一管理和高效利用 [5] - 该技术是“以软件能力补齐硬件短板”的确定性突破,其核心围绕“XPU池化+算力细粒度切分+全局智能调度”三大支柱,致力于提升AI集群算力利用效率、降低生态迁移门槛、加速模型训练与推理落地进程 [6][7] 行业基本情况与表现 - 行业收盘点位为5068.36,52周最高点为5841.52,52周最低点为3963.29 [1] - 行业指数相对沪深300指数的表现数据涵盖从2024年11月至2025年11月,具体相对值变化区间为-13%至27% [3] 建议关注领域及公司 - 报告建议关注两大方向:AI容器技术领域与国产算力领域 [7] - AI容器领域建议关注公司包括:博睿数据、浩瀚深度、普元信息、青云科技、实达集团、首都在线、中亦科技、南威软件、浪潮数字企业 [7] - 国产算力领域建议关注公司包括:寒武纪、云天励飞、亿都(国际控股)、浪潮信息、曙光数创、超讯通信、瑞晟智能、华丰科技、神州数码、软通动力、烽火通信、广电运通、拓维信息、四川长虹、润建股份、数据港、润泽科技、光环新网、科华数据、奥飞数据、优刻得、立讯精密、安博通等 [7]
对标英伟达 华为开源AI容器技术Flex:ai 它可使算力平均利用率提升30%
每日经济新闻· 2025-11-21 23:08
行业背景与问题 - AI产业高速发展催生海量算力需求,但全球算力资源利用率偏低问题凸显,表现为小模型任务独占整卡导致资源闲置、大模型任务单机算力不足、大量通用服务器算力处于"休眠"状态 [1] - 供需错配造成资源浪费成为产业发展的关键桎梏 [1] 华为Flex:ai技术发布与特点 - 华为公司副总裁周跃峰在2025AI容器应用落地与发展论坛上发布AI容器技术Flex:ai [1] - Flex:ai通过算力切分技术将单张GPU/NPU算力卡切分为多份虚拟算力单元,切分粒度精准至10% [1] - 该技术实现单卡同时承载多个AI工作负载,在无法充分利用整卡算力的场景下,算力资源平均利用率可提升30% [1] - 在先进制程受限、单颗AI芯片性能与国外存在差距的现实中,Flex:ai延续了华为"以软件补硬件"的发展路径 [1] 与竞争对手Run:ai的对比 - 华为Flex:ai对标英伟达2024年底收购的以色列公司Run:ai [2] - Run:ai核心产品是基于Kubernetes的软件平台,可通过动态调度、池化和分片优化GPU资源使用,例如帮助Wayve公司将GPU集群效率从不足25%提升到80%以上 [2] - Flex:ai同样聚焦于通过软件创新实现对英伟达、昇腾等第三方算力的统一管理与调度,屏蔽底层硬件差异 [2] - 相比Run:ai主要服务于英伟达GPU生态,Flex:ai没有生态限制,支持英伟达GPU和华为昇腾NPU等算力卡 [2] 技术应用验证与行业趋势 - Flex:ai能力在瑞金医院联合打造的多模态病理大模型"RuiPath"中得到验证,该模型基于103万张病理切片数据训练,仅用16张昇腾910B算力卡完成大规模训练 [3] - Flex:ai通过算力资源切分、智能任务调度等技术,将XPU资源可用度从40%提升至70% [3] - Gartner预测到2027年,75%以上的AI工作负载将采用容器技术进行部署和运行 [3] 开源策略与生态建设 - Flex:ai将在发布后同步开源在魔擎社区中 [3] - 该技术将与华为此前开源的多款AI工具共同组成完整的ModelEngine开源生态 [3]
Nvidia's internal emails reveal a 'fundamental disconnect' with major software clients
Business Insider· 2025-11-14 18:35
公司软件业务发展现状 - 公司在AI热潮中市值达到高点 成为首家市值5万亿美元的公司[1] - 公司正面临挑战 其全球现场运营部门的资深销售员工内部邮件揭示了在向客户讲述全面软件故事和销售软件产品时遇到的障碍[2] - 软件销售涉及Nvidia AI Enterprise (NVAIE) Run:ai Omniverse和vGPU等一系列产品[3] 公司软件产品详情 - Nvidia AI Enterprise (NVAIE) 是一套帮助客户开发自有AI应用程序的工具 于2021年推出 设计用于运行在公司的AI芯片和CUDA软件包上[4] - NVAIE的客户包括纳斯达克 美国国税局(IRS)和AT&T等[4] - 内部讨论聚焦于这些商业软件产品的销售 而非CUDA[4] 软件销售财务预测 - 公司主要业务是设计GPU和其他AI硬件 财报中未单独披露商业软件收入[5] - 软件业务规模较小 但有助于为公司更广泛的AI产品组合产生经常性收入并加深客户依赖[5] - 公司预测软件销售表现健康 其中第三财季北美和拉美地区独立软件销售预计达到目标的110% 而硬件捆绑软件销售预计仅达到目标的39%[6] - 当季整体软件销售预测为7870万美元 主要由NVAIE驱动 其预测达到目标的186%[6] 销售流程中的挑战 - 公司需要与销售伙伴和客户经理围绕NVAIE等产品制定全面软件故事 并计划为客户创建研讨会以规划AI项目[7] - 内部和与客户谈判时均需要额外的教育工作 最大痛点在于教育潜在客户的采购和法律团队理解AI Enterprise软件[8] - 公司与客户的法律和采购团队在理解软件销售流程上存在根本性脱节 尤其在金融和医疗等高度监管的行业[8] - 数据安全 赔偿义务以及客户要求高于公司承受范围的损害赔偿责任上限是谈判中的其他难点[9] 行业背景 - AI技术采纳不均衡的现象并非公司独有 一些公司认为这项热门技术尚处于早期 不适合广泛部署[10]