AI Infra
搜索文档
AI infra:算力系统化升级DB for AI进程加速:计算机行业重大事项点评
华创证券· 2026-01-27 18:13
行业投资评级 - 计算机行业评级为“推荐”(维持)[3] 核心观点 - 大模型记忆和硬件将成为模型发展核心叙事,助力AI数据库(AIDB)与向量数据库规模化进程[2] - AI基础设施(AI infra)正从算力中心化升级为算力系统化、数据智能化的协同演进路径,向量数据库与AI原生数据库与底层算力平台共同构成“模型训练—推理部署—数据支撑—智能应用”闭环体系[6] - 产业不断发展,看好数据库赛道,建议关注AI infra在数据库方面的机遇[6] 行业趋势与事件分析 - **AI Infra向系统级协同演进**:NVIDIA BlueField-4数据处理器为NVIDIA推理上下文内存存储平台提供核心支撑,构建面向超大规模并发推理场景的新一代AI-native存储基础设施,通过扩展AI Agent的长期记忆能力并实现机架级集群间高带宽上下文状态共享,在系统层面显著提升推理效率[6] - **数据库向AI原生底座演进**:阿里云PolarDB以“AI就绪数据库”为目标,系统性提出多模态AI数据湖库(Lakebase)、高效融合搜索、模型算子化服务与Agent后端能力四大支柱,推动数据库从传统OLTP/OLAP基础设施向AI原生数据底座演进[2][6] - **产业资本大规模投入**:2025年9月,OpenAI与Oracle、日本软银联合宣布将在美国新建五个AI数据中心(AIDC),未来三年总投资预计超过4000亿美元,以满足对文件存储和数据库的需求并为AI发展提供计算能力[6] - **向量数据库市场高速增长**:根据MarketsandMarkets数据,向量数据库市场规模预计将在2025年达到26.521亿美元,到2030年将达到89.457亿美元,预测期内复合年增长率(CAGR)为27.5%[6] 重点公司动态 - **达梦数据**:自2023年开始布局AI领域,聚焦数据管理、多模型训练、智能体生成,其启云数据库智能运维平台基于LLaMA3.x、QWen2.5等通用大模型微调,能实现参数优化、SQL生成与优化等功能,2025年12月,达梦数据库管理系统V8在信通院“可信数据库”测试中通过,标志其向量数据库在非结构化数据领域达国内技术先进水平[6] - **星环科技**:2025年公司围绕“AI+DATA”核心战略推出新一代AI infra,包含知识平台、AI平台、AI就绪数据平台、资源平台四大平台,旗下基于海光7000系列处理器与星环科技分布式数据库ArgoDB的联合解决方案在TPC-C基准测试中创造了新的性能纪录[6] - **海量数据**:2025年12月,清华大学联合海量数据共同申报的数据智能北京市重点实验室成功获批,实验室以构建安全可信、智能高效的新一代数据基础设施为核心目标,重点布局AI原生数据库、自主数据科学系统、可信数据空间三大方向[6] 行业表现数据 - **行业基本数据**:计算机行业股票家数337只,总市值64,270.02亿元,流通市值58,082.25亿元[3] - **相对指数表现**:过去1个月绝对表现11.5%,相对表现10.5%;过去6个月绝对表现21.1%,相对表现7.1%;过去12个月绝对表现39.5%,相对表现16.7%[4] 投资建议 - 关注AI infra在数据库方面的机遇,相关企业包括达梦数据、星环科技、海量数据等[6]
清华教授翟季冬:Benchmark正在「失效」,智能路由终结大模型选型乱象
雷峰网· 2026-01-23 15:47
文章核心观点 - 当前AI模型与算力市场存在“选择悖论”,模型基准测试分数与用户真实需求脱节,服务商在性能、价格、稳定性上的差异导致企业选型负担沉重、成本高企 [2][7] - 清程极智公司开发的AI Ping平台旨在成为算力界的“大众点评”,通过系统性评测与智能路由,帮助用户在众多模型和服务商中做出高性价比选择,以解决行业信息不对称问题 [3][12] - AI基础设施(Infra)行业的核心价值在于通过软件技术优化算力利用效率,其生命力源于持续的模型演进、算力架构融合以及多样化的推理场景需求,商业化路径包括软硬件整机服务与算力平台整合 [20][21][27] 模型与算力市场的“选择悖论” - 模型基准测试的高分不一定匹配用户真实需求,同款模型在不同MaaS平台上的效果可能差异巨大,部分服务商为降低成本会进行“阉割级”量化(如从FP8变为INT4),影响输出表现 [2][8] - 影响模型使用体验的因素多维:服务商API服务吞吐量差异巨大,例如DeepSeek-v3.2模型在不同供应商的吞吐覆盖从15到200 token/s,相差10倍以上;支持的输入输出长度从8k到160k不等,相差20倍 [8] - 服务商的算力部署地理位置会影响调用延迟,例如用户在北京调用位于上海或深圳的模型,体验会有很大差异 [9] - 各服务商定价策略和促销活动导致成本相差甚远,而用户需求本身也是多维度的,有的看重性价比,有的追求稳定性或响应速度 [10] - 将模型选型的主动权完全交给用户是巨大挑战,对企业级用户而言,选择不当会引发巨大的成本鸿沟:同样预算,调用大模型可能仅支持十万次请求,而小模型可达百万次量级 [2][10] 清程极智的解决方案:AI Ping平台 - AI Ping是一款智能路由产品,旨在成为算力界的“大众点评”,通过持续评测国内MaaS供应商,对比同款模型在不同厂商的延迟、带宽、吞吐效率与价格成本差异 [12][13] - 智能路由能力分为两层:一是在众多API服务提供者中选择最佳服务商(服务商路由),二是在众多大模型中选择最佳模型(模型路由) [13] - 产品开发初期面临精准匹配模型的难题,因为需要积累海量用户历史数据,而目标市场(个人开发者和中小企业)对产品质量要求极高,八十分水准在他们眼中几乎等同于不合格 [13][14] - 团队通过“笨办法”冷启动:一方面为供应商进行大量基准测试,另一方面联合上下游企业在真实场景中积累用户数据 [14] - 为满足企业高吞吐需求,平台需具备强大的算力整合能力及国产算力接入能力,清程极智将其自研的“赤兔”推理引擎与AI Ping对接,完成算力资源整合调度 [14] - 平台采用类似“团购”的逻辑,通过聚合海量用户需求,以更大体量与算力厂商议价,形成马太效应:数据越集中,模型匹配越精准,用户成本越低,同时帮助算力厂商盘活资源 [3][17] - AI Ping已得到行业认可,例如硅基流动创始人袁进辉曾引用其测评结果向用户解释不同版本算力的指标差异 [18][19] AI基础设施(Infra)行业的价值与商业化路径 - AI Infra行业的核心焦虑在于如何赚到更多钱,商业化逻辑在于通过服务软件有效整合算力并提供给用户 [20][21] - 清程极智的核心竞争力是中间软件层技术(如编译、通信库、并行加速),其定位是与芯片厂商合作,在芯片系统软件之上做增量,让大模型在芯片上发挥极致效率 [22] - 公司探索的商业化路径包括:1) 将软件与硬件打包为整机服务,解决用户买了国产卡却难落地的问题;2) 通过AI Ping等平台与算力厂商合作,提升国产算力易用性 [23] - 行业对Infra价值的认知正在转变,例如DeepSeek通过模型架构设计和Infra软件技术,以极少的算力卡和极低成本训练出大规模模型,并开源了大量算力加速类Infra软件,使市场意识到其重要性 [24] AI基础设施行业的未来与挑战 - 行业存在一种担忧:AI Infra的价值可能只存在于国产算力群雄逐鹿阶段,一旦算力架构定型、大模型技术收敛,其必要性会大打折扣 [25] - 然而,Infra的生命力源于底层架构与上层软件的双重迭代,只要模型还在演进、算力架构还在融合发展,其需求就会持续存在 [27] - 模型侧尚未完全收敛:文生图、文生视频等多模态模型兴起,DeepSeek V4将引入更多稀疏性技术难题,AI for Science等新应用领域也在倒逼底层需求变革 [27] - 国内算力市场架构不统一,厂商众多,有的选择对标英伟达的SIMT架构,有的主攻SIMD架构,且许多厂商正走架构融合路线(如华为在SIMD中融入SIMT,英伟达则相反),这决定了AI Infra的不可替代性 [28][29] - 适配不同架构需要大量本土化改造,例如开源工具Triton在适配国产芯片时必须经过大量改造 [29] - 未来推理场景全面爆发将带来新挑战:芯片峰值算力与实际利用率存在巨大鸿沟,一块标称300TFLOPS算力的芯片,在大模型训练或推理中实际利用率往往只有10%-20%,即便英伟达在预训练场景下利用率也仅达50%上下 [30] - AI Infra未来的核心攻坚方向是如何针对文字、图像、视频等不同推理场景,实现硬件性能的最大化释放并满足极高时延要求 [30] - 行业还在探索“冷赛道”如AI for Science,这些领域短期内难见商业回报,但对科技发展至关重要,且对软硬件协同能力提出更高要求,这也体现了Infra行业穿越周期的本真价值 [30][31]
PPIO创始人姚欣:闲置率高达八成的国产GPU,如何盘活成「真算力」?丨智算想象力十人谈
雷峰网· 2026-01-20 18:50
公司发展历程与战略选择 - 公司于2018年边缘算力与CDN市场竞争白热化时成立,毅然切入边缘云领域[3] - 创始团队拥有PPTV分布式平台的成功经验,其创业逻辑是将C端算力整合经验应用于B端[3] - 初期在“先找供给”与“先找需求”间徘徊,商业难以闭环,直至2020年疫情导致线上流量激增,才跑通增长曲线[3] - 2023年,在GPU贸易利润暴涨时,公司拒绝“稳赚不赔”的算力倒卖生意,选择聚焦AI推理市场[3] - 公司营收实现指数级增长,2024年营收已达5.58亿[4] - 2024年7月,公司在世界人工智能大会上成为国内首个推出兼容E2B的Agent沙箱的公司[4] 技术演进与业务布局 - 2022年进入GPU领域,最初服务于云游戏和云渲染的分布式GPU架构[9] - 2023年帮助国内头部模型厂商搭建了第一代推理平台服务,成为首个推理Infra客户[9] - 2024年重点聚焦出海,集成大量开源模型,推出一整套MaaS平台[10] - 2024年初,业务再向上延伸至PaaS层,推出为AI Agent场景设计的Agent沙箱[11] - 公司已从边缘云、GPU推理平台发展到Agent沙箱,成为具备全栈技术能力的AI云服务商[6] - 技术路线的核心挑战是“为看不见的需求做技术”,需为未来可能达十亿、百亿规模的市场提前进行技术储备和研发[5][12] 商业模式与核心能力 - 公司价值观强调“价值创造”,不做单纯的算力贸易,而是致力于做有技术附加值的东西[15] - 商业模式是整合汇聚大量闲置的分布式算力,并将其转化为云服务,技术附加值体现在将闲置算力token化[15] - 整合的算力资源包括:游戏显卡(如4090、3090)、上一代训练GPU(如被H100替换的A100)、以及利用率仅10%-20%的国产GPU智算中心[16] - 选择聚焦推理市场而非训练,因为推理追求极致的成本性价比,这与公司整合分布式闲置资源以降低算力使用门槛的能力相匹配[17] - 公司拥有独特的分布式云技术栈,建立在分散、碎片、异构的基础设施上,与传统云厂商基于集中式、标准化数据中心的架构完全不同[27] 市场定位与竞争策略 - 公司目标客户群体是AI初创公司和开发者,过去两年主要为此两类人群提供服务[24] - 观察到新的AI应用消耗量巨大,其token消耗可能比上一代应用直接提升10倍甚至100倍[25] - 以海外对标公司E2B为例,其在硅谷的用量一年内增长了400多倍,从4万多增长到1600多万[21] - 认为在Agent Infra层面,云大厂的影响力相比PC和移动时代已大幅削弱,原因在于:GPU Infra架构是近三年新兴领域,大厂先发优势不明显;AI成本高促使开发者追求跨云、多云架构,避免厂商锁定[22][23] - 竞争策略强调“不绑定+开源”,与国内四五十款主流开源框架对接合作,基于开源和可迁移性方便开发者,不将GPU与CPU捆绑销售[23] 运营现状与未来展望 - 公司平台拥有4000多个节点,这些节点多为零售型IDC,可在闲置期将机器托管至平台供调用[28] - 调度策略灵活,对延迟敏感的应用就近调用,对成本敏感的应用可调度至电价更低的地区(如新疆电费是北京的1/3)或利用全球时差进行跨区域调度[29] - 过去一年,公司平台上的token消耗增长了一百倍以上[35] - 未来的挑战在于需求侧,需等待大规模爆发的需求出现,尤其是对时延敏感的需求[32] - 公司战略判断领先,2023年即提出“聚焦推理、聚焦开源、海外优先”,这使其抓住了后续的DeepSeek等机会[37]
计算机周观察20260118:继续看好AI应用行情
招商证券· 2026-01-18 15:33
报告行业投资评级 - 行业评级为“推荐”(维持)[2] 报告的核心观点 - 继续看好AI应用行情,认为2026年是AI应用元年,行情刚刚开启 [1] - 春季躁动行情持续,计算机板块从不缺席 [1] - AI时代超级OS入口争夺日益激烈,持续重视AI应用及AI基础设施 [5][16] 一、AI产业进展回顾 - **阿里巴巴千问App大规模升级**:全面接入淘宝、支付宝、飞猪、高德等阿里生态业务,首次实现点外卖、购物、订机票等AI购物功能,上线超400项AI办事功能,成为全球首个能完成真实生活复杂任务的AI助手 [5][9] - **千问App用户增长**:阿里官宣上线两个月后,千问C端月活跃用户突破1亿 [5][9] - **苹果引入谷歌Gemini**:苹果确认将引入谷歌Gemini大模型驱动新版Siri,协议以云计算合同形式构建,苹果未来将因此向谷歌支付数十亿美元 [5][11] - **苹果同时整合OpenAI**:在iOS18.4测试版代码中同时出现“Google”和“OpenAI”字样,苹果正在开发“第三方模型”选项 [5][11] - **OpenAI引入广告**:将在未来几周内向部分美国用户测试广告投放,以筹集研发成本,广告面向免费版及每月8美元的ChatGPTGo用户,Plus、Pro等高价订阅用户不会看到广告 [5][13] - **Meta扩大AI眼镜产能**:计划在2026年将智能眼镜年产能提升至2000万副,并可能进一步上调,同时公司战略进一步向AI集中,并裁减Reality Labs部门约10%的员工 [5][16] 二、市场表现回顾 - **行业指数表现**:计算机板块近1个月绝对涨幅20.2%,相对涨幅15.0%;近6个月绝对涨幅24.2%,相对涨幅6.1%;近12个月绝对涨幅53.2%,相对涨幅28.7% [4] - **近期板块表现**:2026年第二周,计算机板块上涨3.82% [17] - **个股周度涨幅前五**:杰创智能 (+28.95%)、石基信息 (+28.69%)、光云科技 (+28.43%)、三维天地 (+24.36%)、中科星图 (+21.74%) [17][18] - **个股周度跌幅前五**:*ST立方 (-33.66%)、航天长峰 (-21.02%)、*ST万方 (-14.52%)、航天信息 (-14.46%)、海峡创新 (-13.40%) [17][18] - **个股周度换手率前五**:佳缘科技 (173.12%)、科大国创 (148.78%)、御银股份 (148.34%)、三维天地 (142.69%)、汉得信息 (142.20%) [17][18] 投资建议与关注公司 - **建议关注方向**:AI时代超级OS入口、AI应用及AI基础设施 [5][16] - **建议关注公司**: - 头部大模型厂商:阿里巴巴 [5][16] - 垂直场景AI应用:金山办公、合合信息、金蝶国际、用友网络、卓易信息、能科科技、税友股份 [5][16] - 端侧AI硬件供应链:虹软科技 [16] - AI数据服务提供商:海外MongoDB、Snowflake;国内达梦数据、星环科技 [5][16] 行业规模数据 - **股票家数**:286只,占市场总数5.5% [2] - **总市值**:4800.7十亿元,占市场总市值4.3% [2] - **流通市值**:4256.1十亿元,占市场流通市值4.2% [2]
大模型最难的AI Infra,用Vibe Coding搞定
机器之心· 2026-01-07 13:16
文章核心观点 - 传统的“氛围编程”(Vibe Coding)在应对AI基础设施(AI Infra)等复杂系统开发时,存在上下文丢失、决策偏离和质量不稳定三大痛点,根源在于缺乏持久化、结构化的决策管理机制[3][4] - 为解决上述问题,文章提出并实践了“文档驱动的氛围编程”新范式,通过系统化的设计文档将关键决策前置、结构化和持久化,使开发者专注于高层设计,AI负责实现细节,从而高效、高质量地完成复杂系统开发[5][6][7] - 该新范式在阿里巴巴团队开发的、面向Agentic RL的GPU资源调度系统(一个数万行代码的分布式训练系统)中成功应用,通过“时分复用”方案解决了GPU利用率挑战,并在生产级集群上验证了其显著性能提升[9][14][45] AI编程范式演进与挑战 - “氛围编程”(Vibe Coding)因其“聊一聊就能生成代码”的体验,在简单任务上提升了开发效率,成为开发者新宠[2] - 但在AI Infra等复杂系统(动辄数万行代码、成百上千个相互关联的决策点)开发中,传统氛围编程面临三大困境:1) 上下文丢失:对话历史被压缩,关键设计决策在多轮交互中被遗忘;2) 决策偏离:AI自主做出的技术决策容易偏离开发者意图;3) 质量不稳定:相同需求在不同时间可能得到截然不同的实现方案[3][4] - 这些问题的根源在于当前对话式编程缺乏对复杂决策进行持久化、结构化管理的机制[4] 文档驱动的氛围编程方法论 - 核心理念是将复杂系统的关键决策前置到设计阶段,通过结构化设计文档体系化、持久化地记录所有决策点,让开发有章可循,大幅降低复杂度门槛[5][6] - 设计文档作为关键工具,实现了开发者与AI在关键决策上的对齐,直接解决了传统氛围编程的三大痛点:持久化文档消除上下文丢失,明确决策避免AI偏离意图,规范和代码逻辑确保质量稳定[24] - 该方法带来了工作方式的根本转变:开发者从编码、调试等执行层面,转向与AI讨论设计、通过文档明确决策直至完全对齐,然后由AI负责实现[24] - 与传统开发和单纯氛围编程相比,文档化氛围编程在理解架构、设计方案、编码效率与质量、团队协作等方面展现出综合优势[26] 方法论实施:组织、审阅与分步开发 - **内容组织**:设计文档需系统性地跟进自顶向下的决策点,并层次化拆解,形成决策体系。文档模板需包含迭代版本记录和代码实施进度[31][32] - **审阅修改**:建立了系统化的多轮迭代审阅流程以确保文档质量。利用工具(如iFlow CLI)将常见审阅场景的指令固化为Prompt模板,以应对理解困难、修改一致性、内容爆炸、AI过度设计、逻辑错误隐蔽性等挑战[28][33][35] - **分步实施**:实施分为两个阶段:1) 规划阶段:将设计拆解为依赖有序的小步骤(通常每步包含3-5个相互关联的方法),并绘制依赖图;2) 增量开发循环:AI按步骤读取设计并生成代码,开发者审查后提交,循环直至完成[36][37][39] 防御性编程与系统健壮性 - 在分布式AI训练等复杂系统中,微小的错误可能引发级联故障,而AI编程倾向于主动进行错误处理,有时反而会掩盖真实错误信息[40] - 新范式将防御性思维前置到设计阶段:在关键节点设置验证点,构建标准化的错误处理模式库,并利用AI自动生成健壮的防御代码[40] - 具体措施包括:1) 维护统一的验证模式库(如检查整数范围、出口条件检查等),遵循单一定义、多处复用原则;2) 在设计文档中用标准化注释标注验证需求;3) AI实施时自动将标注展开为具体验证逻辑;4) 对于超过10行的复杂验证,定义独立的验证函数[41][42][44] 应用案例:Agentic RL的GPU资源调度优化 - **业务挑战**:在Agentic RL采样过程中,智能体执行任务的时间呈长尾分布,导致经典的“落后者效应”,即必须等待最慢的样本完成,造成GPU资源闲置和浪费,成为性能瓶颈[12] - **方案对比**:业界主流方案存在缺陷:1) 共置方案:rollout和training严格串行,阶段内和阶段间均存在资源闲置;2) 异步分离方案:静态分配rollout和training专用GPU,引入“双边空泡”问题,即两侧GPU都可能出现闲置[13] - **创新方案**:提出“时分复用”方案,其核心是基于rollout对GPU资源需求动态波动的洞察,设计智能资源调度机制:在采样需求低谷期分配部分GPU执行训练任务,实现需求波动与资源调度的匹配[14] - **技术实现**:采用两阶段流程:1) 全力采样阶段:所有GPU协同处理大多数样本;2) 并行执行阶段:当采样完成度达标后,系统缩容,释放固定GPU转入训练模式,同时长尾样本迁移至剩余GPU继续处理。训练完成后立即扩容,回收所有GPU准备下一轮采样[14] - **方案价值**:该策略将训练的快速执行特性与rollout需求波动在时间维度巧妙匹配,提升了整体GPU资源利用效率,但显著增加了系统复杂度[15][18] 方案性能验证与结果 - **实验配置**:在生产级大规模集群(160卡GPU)上验证,使用Qwen3-235B-A22B模型(235B参数),设置最大交互轮数100轮,最大token长度64K,batch size为512[46] - **性能对比**:与采用128卡training、32卡rollout静态分配的baseline(异步分离方案)相比,采用动态调度的时分复用方案使rollout吞吐率提升了3.5倍[47] - **任务完成率**:Baseline方案因rollout资源受限(仅32卡),采样速度慢,导致大量任务触发超时限制。时分复用方案通过动态释放更多GPU用于rollout,显著加快采样速度,完全避免了超时,提升了训练稳定性和样本利用效率[50] - **系统开销**:分析表明,时分复用方案引入的额外参数同步开销(在160卡间进行)在整体训练时间中占比极小。缩容操作(释放rollout模型参数)的实测开销在秒级,未成为性能瓶颈[53][55]
当AI已成为共识,企业究竟该如何真正“用起来”?
吴晓波频道· 2026-01-07 08:30
AI在企业落地面临的核心挑战 - 未来三年92%的企业将继续加大对AI的投资,但仅有1%的企业认为自己已达到“成熟部署”阶段[2] - AI规模化的最大障碍并非员工不会用,而是领导者的决策速度不够快,即领导层是AI落地的最大障碍[2] - AI进入企业后,考验的是战略选择、组织协同、数据与流程、治理与风控等综合内部能力,而非单纯技术能力[4] - AI竞争的关键在于谁能更快重塑企业内部的认知、组织与能力,而非谁先看见新技术[6] AI基础设施与产业生态 - 从产业角度看,模型能力已可覆盖足够多应用场景,真正的瓶颈在于模型能否被规模化应用[8] - 未来机会可分为两层基础设施:第一层是AI Infra(算力基础设施),其竞争正转向通过超大规模集群“以空间换时间”来释放模型能力[8] - 第二层是Agent Infra(智能体基础设施),它让智能体作为新的生产力单元能够被创建、调度、管理和复用[8] - 仅有算力只能解决“模型能不能跑”,而Agent Infra解决的是“模型能不能干活”的问题[8] - 未来重要的不只是模型公司或单一应用,而是围绕AI Infra和Agent Infra形成的整套产业生态[9] 企业落地AI的实践框架 - 企业落地AI需完成三件事:搭建企业知识库、要求员工根据岗位创建7-8个数字员工、优化工作流程将所有数字员工串联形成新工作流[13] - 企业知识库需沉淀所有内部制度、流程、文档和经验,供员工和数字员工调用[13] - 创建数字员工的目的是复制优秀员工能力,让普通员工借助数字员工达到优秀水平[13] - 数字员工实时响应OA、ERP的能力将使整个工作流效率发生本质变化[13] 大模型应用定位与激励挑战 - 使用大模型前需明确其定位:工具、员工、老板还是协作伙伴,这决定了后续使用方式[14] - 大模型更愿意将自己定位为协作者,而非完全替代人类的存在[14] - 大模型具备高速并行工作和人类泛化能力的优势,应研究如何用好其优势[14] - 大语言模型发展面临“激励模型”问题,需确定是对思考过程还是仅对最终结果进行激励[10] - 在数学和编程等结果可明确验证的领域AI发展快,但在法律、金融等领域,结果好坏对错难以判定和验证[10] - 若只激励最终结果,AI模型可能像人类员工一样进行“reward hacking”,使用不希望的手段达成KPI[11] 行业应用案例与模式 - 美图的增长逻辑是围绕图像与视觉处理这一核心技术,向高频、刚需的影像使用场景做乘法延展,而非盲目做加法[16] - 美图和大疆类似,都是在核心能力上不断延展新产品形态和应用场景[16] - 美图是把AI能力持续压缩进业务系统的公司,其视觉模型与营销、电商场景天然耦合,使中国企业在相关领域展现全球领先优势[18] - 通用大模型在工业和企业场景中因可靠性不足而难直接使用,其训练数据未经严格校验可能导致输出错误[19][20] - 行业正从“通用大模型”转向“智能体”,将AI拆解为嵌入具体业务环节的“数字同事”,如医疗辅助诊疗、智慧客服等[22] - 企业AI落地的关键并非“稀缺的算法天才”,而是能够管理数据、运营智能体的组织能力[24] - 通过数据制备、智能体生成平台及系统化培训,AI可被纳入企业自身能力体系[25] AI在实体产业的价值体现 - 在厦钨新能,AI作为“研发加速器”,通过构建材料数据库与模拟计算,将依赖试错的研发转变为数据驱动的精准预测[26] - 在厦门时代,AI作为“产线优化师”,通过实时监测分析生产数据,提前预警质量波动并自动调节工艺参数[27] - AI在实体产业的真正价值在于消除生产与研发环节的“不确定性”,并对“效率与质量”进行深层重构[28] 企业成功应用AI的关键共识 - AI的难题已不在模型参数,而在企业内部,考验的是能否建立一套AI落地体系,把试点变流程、工具变机制[32] - AI转型的关键不是买工具、堆系统或技术外包,而是先拉齐组织认知、搭建能力框架,确保有人能理解、管理和运营AI[32] - 真正拉开企业差距的,往往不是谁更早拥抱技术,而是谁更早把能力沉淀进组织[34] - 技术决定上限,组织决定结果[33]
清程极智师天麾:MaaS盈利战打响,Infra技术已成利润关键丨GAIR 2025
雷峰网· 2025-12-26 17:57
文章核心观点 - 国产算力正从“能用”走向“好用”,其利用率瓶颈主要在于软件生态与系统级优化能力,而非硬件本身[4][5] - 第三方AI Infra公司通过自研全栈软件(如推理引擎)和提供评测路由服务,在芯片多元化的市场中解决适配、优化和商业化问题,创造核心价值[5][12][26] - MaaS(模型即服务)市场增长迅猛且前景广阔,其发展核心在于通过技术优化降低成本和门槛,而第三方平台能有效消除供需信息差[15][30][33] 行业现状与挑战 - 国产算力面临“M×N”的碎片化挑战:底层有N款不同芯片,上层有M个不同大模型,需进行M×N次组合优化,工作量巨大[25] - 行业现状是各家芯片厂商自行适配推理引擎(如vLLM、SGLang),导致适配版本、功能和接口不一致,用户使用和维护难度大[21] - 市场长期存在重视硬件、轻视软件的惯性,但软件生态不完善是国产算力利用率低的核心症结[12][21] - 大模型正向低位宽浮点数(如FP8、FP4)演进,但大部分国产显卡目前不支持FP8,FP4适配更是缺乏,给客户带来成本与效果的两难选择[27] 公司解决方案与产品 - 公司自研“赤兔推理引擎”,旨在作为连接AI应用与底层芯片的核心桥梁,兼容海外及华为、沐曦、海光、燧原等主流国产芯片,降低客户使用门槛[21][22] - 选择全栈自研而非修改开源方案,是为了避免技术包袱,并实现从底层硬件、算子层、推理引擎到上层应用的全链路端到端联合优化,追求极致性价比[26] - 通过纯软件技术突破硬件限制,使FP4和FP8格式能在不支持该特性的国产显卡上运行,计算时转FP16保精度,存储时用FP8/FP4省显存,已在多平台完成适配[28][29] - 推出“AI Ping”平台,提供一站式大模型服务评测与API调用,以消除MaaS市场信息差,其单次API调用费用不到一分钱,成本和使用门槛极低[30] 市场机遇与趋势 - 中国MaaS市场增长远超预期,2025年上半年市场增长率已超过400%,头部云厂商甚至提前完成年度目标[33] - MaaS市场非常标准,未来将演变为卷性能和卷价格的竞争,而降低价格需要大规模优化技术[15] - 中国具备发展MaaS的优良土壤:供给侧拥有全球最繁荣的开源模型生态和爆发式增长的AI算力;需求侧因其低成本、低门槛优势,能吸引企业、个人、科研等多类开发者[35] - MaaS的盈利高度依赖技术,因为省去中间环节后利润损耗少,技术优势更为关键[16] 竞争定位与商业化 - 作为第三方AI Infra公司,其定位在于芯片厂商与云厂商之间,凭借软件优化积累与芯片厂商合作进行软硬件联合优化[12] - 第三方公司的存在具有必要性,例如采购多家芯片的国央企客户需要统一的软件进行管理和优化,否则将非常费劲[13] - 商业化路径已跑顺,尤其在MaaS领域,因为性能每通过推理引擎提升一点,厂商就能多挣一点钱,客户更愿意为能创造额外价值的技术付费[14] - 私有化部署利润可观,MaaS的商业化在过去较难,但现在已非常顺畅[14] 产品技术细节与成效 - 赤兔推理引擎0.5版本已发布,支持超大规模专家并行、PD分离、AF分离等能力,并已完成对华为384超节点方案的深度适配与性能优化[27] - 在DeepSeek-R1上的测试验证了技术方向:不同精度格式效果排序为FP8 > FP4 > INT8 > INT4,证明低位宽浮点数是大模型主流趋势[29] - AI Ping平台评测覆盖极广,已接入29家MaaS厂商,整合400余项MaaS服务,并执行7×24小时不间断评测[36] - 评测数据准确度高,与部分云厂商后台数据交叉验证显示,吞吐指标平均误差在0.2%以内,P90首次延迟稳定在0.8秒以内[38] - AI Ping的“路由”功能提供统一接口,可调用背后20多家供应商资源,根据数据最多能帮助用户降低50%的成本,同时优化延迟和吞吐指标[40][41]
申万宏源:AI Infra已成为AI应用落地关键 “卖铲人” 看好OLTP与向量数据库方向
智通财经网· 2025-12-24 14:49
AI基础设施(AI Infra)成为AI应用落地的关键“卖铲人” - AI Infra作为AI模型训练与推理的底层支撑,已成为应用落地的关键“卖铲人”[1] - 生成式AI与Agent加速渗透,AI infra软件作为应用部署的基础设施,有望进入高速增长期[1] 算力调度是决定模型推理盈利能力的核心 - 算力调度是决定模型推理盈利水平的核心变量,国内模型Token收费显著低于海外,成本敏感度更高[1] - 阿里Aegaeon通过Token级调度可减少82% GPU用量,华为Flex:ai提升30%算力利用率,高效调度能力成为模型推理厂商盈利关键[1] - 根据测算,在单日10亿查询量下,若使用H800芯片,单卡吞吐能力每提升10%,毛利率能够提升2-7个百分点[1] 向量数据库与数据类Infra需求率先爆发 - 数据类Infra需求先于应用爆发,向量数据库成刚需[2] - RAG技术渗透率快速提升,Gartner预测2025年企业采用率将达68%[2] - 向量数据库作为RAG核心组件,支撑海量数据毫秒级检索,市场需求持续高增[2] AI时代数据架构向“实时运营+分析协同”演进 - AI时代数据架构从“分析优先”转向“实时运营+分析协同”[3] - 行业变化一:NoSQL与OLTP数据库再风靡,通过补充向量索引能力切入向量数据库市场[3] - 行业变化二:数据湖、数据仓库厂商(以OLAP为主)通过并购、合作方式引入AI模型,向全栈工具迈进[3] 数据库厂商的差异化竞争格局 - MongoDB凭借“低门槛+高弹性”,契合中小客户低成本AI落地需求,增长弹性突出[3] - MongoDB作为文档型NoSQL数据库,适配非结构化数据存储与高频实时CRUD操作,契合AI原生应用与Agent需求,2025年收购Voyage AI补齐向量检索能力[3] - MongoDB FY26Q3核心产品实现30%增速,增长弹性突出[3] - Snowflake与Databricks靠全流程工具链和客户粘性,占据数据密集型行业核心场景,但需应对CSP跨界竞争与实时能力短板[3] - Snowflake与Databricks以OLAP为核心向全栈工具延伸,靠海量数据处理能力成为中大型企业首选,但TP能力暂有不足(尤其是Snowflake),面临中小市场渗透与云厂商挤压压力[3] GPU主导数据中心,驱动存储与数据库技术升级 - GPU主导数据控制中心,存储与数据库技术升级[4] - NVIDIA推出SCADA方案实现GPU直连SSD,将IO延迟降至微秒级[4] - 向量数据库需适配GPU并行计算,通过列式存储、算子重写等技术升级,匹配AI实时推理需求[4] 相关上市公司标的 - 相关标的包括:MongoDB(MDB.US)、达梦数据(688692.SH)、英方软件(688435.SH)、Snowflake(SNOW.US)、深信服(300454.SZ)等[5]
下一个“AI卖铲人”:算力调度是推理盈利关键,向量数据库成刚需
华尔街见闻· 2025-12-24 12:17
AI基础设施软件行业概览 - 生成式AI应用加速渗透,AI基础设施软件成为应用落地的关键“卖铲人”,行业正迎来黄金发展期 [1] - 与模型训练环节被巨头垄断不同,推理和应用部署环节为独立软件厂商打开了新的商业空间 [1] - 当前两类产品最为关键:算力调度软件和数据类软件 [1] 算力调度软件 - 算力调度能力是决定模型推理服务盈利水平的核心变量,直接决定毛利率 [1][6] - 在单日10亿查询量场景下,使用H800芯片,单卡吞吐能力每提升10%,毛利率能够提升2-7个百分点 [1][6] - 敏感性分析显示,当单卡吞吐从基准值的0.6倍提升至1.4倍时,毛利率可从52%提升至80% [6] - 海外云厂商毛利率差异显著,2025年三季度谷歌云毛利率43.3%,微软智能云34.6%,亚马逊AWS仅为23.7%,硬件调度能力影响关键 [8] 国内厂商算力调度实践 - 国内模型价格战激烈,成本控制至关重要,例如Deepseek V3定价为每百万token输入2元、输出3元,远低于海外同类产品1.25-5美元的价格 [5] - 华为Flex:ai实现异构算力统一调度,通过芯片级切分技术,在特定场景下可将平均利用率提升30% [5] - 阿里巴巴Aegaeon实现token级动态调度,将10个模型所需GPU数量从1192张锐减至213张,资源节约率达82% [5] - 英伟达Run:ai可将GPU利用率提升5倍,Deepseek自研调度系统实现成本利润率545% [6] 向量数据库与RAG技术 - 向量数据库是RAG应用的刚需基础,Gartner预测2025年企业RAG技术采用率将达68% [1][10] - 2024年全球已有45%的企业在智能客服、数据分析等场景部署RAG系统 [10] - 向量数据库核心价值在于支撑海量数据的毫秒级检索,需在亿级数据规模下保持高QPS实时检索能力 [10] - 从2024年四季度开始,通过API接口接入大模型的Token消耗量一年内翻了近10倍,直接拉动了向量数据库需求 [11] 数据库格局重塑 - 生成式AI时代,数据架构正从“分析优先”转向“实时运营+分析协同”,高频、低延迟的实时事务处理需求凸显OLTP数据库优势 [12] - MongoDB凭借低门槛、高弹性契合中小客户AI落地需求,2026财年一至三季度核心产品Atlas收入增速分别为26%、29%、30% [15][16] - MongoDB在2025年2月以2.2亿美元收购Voyage AI补齐向量检索能力,其嵌入模型在HuggingFace RTEB测评中排名前列 [16] - 2026财年三季度MongoDB毛利率达76%,预计年底经营利润率达18%,全年营收增长率约21%-22% [16] 数据平台厂商的应对策略 - Snowflake与Databricks选择向上下游纵向拓展,打造全栈工具链 [15][17] - Snowflake 2025财年收入达36.26亿美元,同比增长29.21%,预计2026财年收入44.46亿美元 [17] - Databricks 2025年年化收入超48亿美元,同比增长55%,数据湖仓产品年化收入超10亿美元,净留存率超140% [17] - 截至2026财年三季度,Snowflake年消费超100万美元的高价值客户达688家,福布斯全球2000强企业中已有766家成为其客户 [17] 存储架构技术升级 - AI推理进入实时化、PB级数据访问新阶段,存储IO性能至关重要,LLM推理的KV缓存访问粒度仅8KB-4MB,向量数据库检索粒度低至64B-8KB [18] - 英伟达推出SCADA方案实现GPU直连SSD,将IO延迟从毫秒级降至微秒级,测试显示1颗H100 GPU的IO调度效率是Gen5 Intel Xeon Platinum CPU的2倍以上 [18] - 向量数据库需进行技术升级,包括采用GPU适配的列式存储、将检索算法改为GPU并行版本、自主管理GPU显存分配 [19]
中银晨会聚焦-20251224
中银国际· 2025-12-24 09:19
报告核心观点 - AI推理需求正催化云厂商资本开支,推动AI基础设施(AI Infra)升级,其中AI PCB(印制电路板)是此轮升级浪潮中的核心增量环节,而构成AI PCB的三大核心原材料——电子布、铜箔、树脂——因其构筑了PCB介电性能的核心壁垒,成为投资关注的重点[2][6] - 低介电性能是AI PCB设计的关键指标,选用低介电常数(Low-Dk)和低介电损耗(Low-Df)材料对于降低信道损耗和保持信号完整至关重要,这一技术趋势不随下游GPU/ASIC竞争格局变化而改变[6] - 随着英伟达预计在2026年10月量产Rubin GPU,其服务器所采用的更高阶PCB/CCL(覆铜板)解决方案(如M8.5/M9)将驱动核心原材料迎来“从0→1”的关键节点,上游供应链备货潮预计在2026年上半年开启[8][9] - 报告测算,全球HDI板及18层以上高多层板对应的CCL原材料市场规模将从2025年的约30.98亿美元增长至2029年的约38.91亿美元,其中AI相关材料需求有望迎来快速增长[9] 行业趋势与驱动因素 - AI基础设施的升级方向是追求更高的计算效率和更大的互联带宽,这要求PCB向高多层、小线宽线距发展,但也带来了电气性能损失、散热下降和信号干扰等挑战[6] - AI Infra对数据传输损耗的严苛要求,正推动PCB和CCL向M8/M9等级升级[7] - 英伟达Rubin服务器的不同部件(如Compute Tray, Switch Tray等)预计将分别采用M8、M8.5、M9等级的PCB/CCL解决方案[8] 核心材料与技术壁垒 - **电子布**:石英纤维因其优异的介电损耗(在1MHz频率下Df值为0.0001)和低热膨胀系数(0.54ppm/℃)成为优选材料,预计将用于M9解决方案[7][8] - **铜箔**:HVLP4/5铜箔凭借极低的表面粗糙度(Rz ≤ 1.5μm)成为优选材料,高阶HVLP铜箔预计将用于Rubin Ultra服务器的正交背板解决方案[7][8] - **树脂**:PCH树脂和PTFE树脂凭借优异的介电性能成为优选材料,高频高速树脂是M8.5和M9解决方案的关键组成部分[7][8] - M9解决方案可能采用“高频高速树脂+HVLP4/5铜箔+石英纤维布”的材料组合,而M8.5解决方案可能采用“高频高速树脂+HVLP4铜箔+Low-Dk二代布”的组合[8] 市场规模预测 - 预计2025年全球HDI板及18层以上高多层板对应的CCL原材料市场规模约为**30.98亿美元**,到2029年将增长至约**38.91亿美元**[9] - 细分市场规模预测(2025/2029年): - 电子布市场规模约为**7.75亿美元 / 9.73亿美元**[9] - 铜箔市场规模约为**12.39亿美元 / 15.56亿美元**[9] - 树脂市场规模约为**7.75亿美元 / 9.73亿美元**[9] 投资建议与关注公司 - **石英纤维布和低介电电子布**:建议关注菲利华、中材科技、宏和科技[10] - **HVLP铜箔**:建议关注德福科技、隆扬电子、铜冠铜箔[10] - **高频高速树脂**:建议关注东材科技、圣泉集团[10] 市场与行业表现(2025年12月24日) - **主要市场指数**:上证综指收于3919.98点(涨0.07%),深证成指收于13368.99点(涨0.27%),创业板指收于3205.01点(涨0.41%)[3] - **行业表现(申万一级)**:电子行业当日上涨0.58%,涨幅居前;计算机行业下跌1.05%[4] - **12月金股组合**:包含保利置业集团、极兔速递-W、招商轮船、万华化学、安集科技、华友钴业、安井食品、长白山、菲利华等公司[5]