下一个“AI卖铲人”:算力调度是推理盈利关键,向量数据库成刚需
华尔街见闻·2025-12-24 12:17

AI基础设施软件行业概览 - 生成式AI应用加速渗透,AI基础设施软件成为应用落地的关键“卖铲人”,行业正迎来黄金发展期 [1] - 与模型训练环节被巨头垄断不同,推理和应用部署环节为独立软件厂商打开了新的商业空间 [1] - 当前两类产品最为关键:算力调度软件和数据类软件 [1] 算力调度软件 - 算力调度能力是决定模型推理服务盈利水平的核心变量,直接决定毛利率 [1][6] - 在单日10亿查询量场景下,使用H800芯片,单卡吞吐能力每提升10%,毛利率能够提升2-7个百分点 [1][6] - 敏感性分析显示,当单卡吞吐从基准值的0.6倍提升至1.4倍时,毛利率可从52%提升至80% [6] - 海外云厂商毛利率差异显著,2025年三季度谷歌云毛利率43.3%,微软智能云34.6%,亚马逊AWS仅为23.7%,硬件调度能力影响关键 [8] 国内厂商算力调度实践 - 国内模型价格战激烈,成本控制至关重要,例如Deepseek V3定价为每百万token输入2元、输出3元,远低于海外同类产品1.25-5美元的价格 [5] - 华为Flex:ai实现异构算力统一调度,通过芯片级切分技术,在特定场景下可将平均利用率提升30% [5] - 阿里巴巴Aegaeon实现token级动态调度,将10个模型所需GPU数量从1192张锐减至213张,资源节约率达82% [5] - 英伟达Run:ai可将GPU利用率提升5倍,Deepseek自研调度系统实现成本利润率545% [6] 向量数据库与RAG技术 - 向量数据库是RAG应用的刚需基础,Gartner预测2025年企业RAG技术采用率将达68% [1][10] - 2024年全球已有45%的企业在智能客服、数据分析等场景部署RAG系统 [10] - 向量数据库核心价值在于支撑海量数据的毫秒级检索,需在亿级数据规模下保持高QPS实时检索能力 [10] - 从2024年四季度开始,通过API接口接入大模型的Token消耗量一年内翻了近10倍,直接拉动了向量数据库需求 [11] 数据库格局重塑 - 生成式AI时代,数据架构正从“分析优先”转向“实时运营+分析协同”,高频、低延迟的实时事务处理需求凸显OLTP数据库优势 [12] - MongoDB凭借低门槛、高弹性契合中小客户AI落地需求,2026财年一至三季度核心产品Atlas收入增速分别为26%、29%、30% [15][16] - MongoDB在2025年2月以2.2亿美元收购Voyage AI补齐向量检索能力,其嵌入模型在HuggingFace RTEB测评中排名前列 [16] - 2026财年三季度MongoDB毛利率达76%,预计年底经营利润率达18%,全年营收增长率约21%-22% [16] 数据平台厂商的应对策略 - Snowflake与Databricks选择向上下游纵向拓展,打造全栈工具链 [15][17] - Snowflake 2025财年收入达36.26亿美元,同比增长29.21%,预计2026财年收入44.46亿美元 [17] - Databricks 2025年年化收入超48亿美元,同比增长55%,数据湖仓产品年化收入超10亿美元,净留存率超140% [17] - 截至2026财年三季度,Snowflake年消费超100万美元的高价值客户达688家,福布斯全球2000强企业中已有766家成为其客户 [17] 存储架构技术升级 - AI推理进入实时化、PB级数据访问新阶段,存储IO性能至关重要,LLM推理的KV缓存访问粒度仅8KB-4MB,向量数据库检索粒度低至64B-8KB [18] - 英伟达推出SCADA方案实现GPU直连SSD,将IO延迟从毫秒级降至微秒级,测试显示1颗H100 GPU的IO调度效率是Gen5 Intel Xeon Platinum CPU的2倍以上 [18] - 向量数据库需进行技术升级,包括采用GPU适配的列式存储、将检索算法改为GPU并行版本、自主管理GPU显存分配 [19]