AI推理

搜索文档
清华创业团队打造!国内首个专注AI推理Serverless GPU平台
机器之心· 2025-05-28 11:54
公司介绍 - 共绩科技是全球唯一利用动态闲置资源提供安全稳定服务的分布式计算平台,致力于构建信息、算力、能源一体化的资源调度网络 [1] - 公司核心团队来自清华大学、北京大学及Intel、字节跳动、阿里等知名企业,在分布式资源调度领域深耕多年 [27] - 已承建青海省、河北省省级算力调度平台,累计服务90余家人工智能企业 [27] 产品技术 - 共绩云AI推理Serverless平台支持极简快速部署,RTX 4090价格低至1.68元/小时,按毫秒计费 [2] - 采用Docker容器化技术实现五步部署,提供预制镜像与7x24h免费技术支持 [25][26] - 自研闲时算力调度平台整合26家智算中心资源(包括金山云、火山引擎),形成万卡资源池 [27] 行业痛点 - AI推理市场存在"弹性、稳定、低价"不可能三角,传统整租模式导致闲置成本高或扩容慢 [8][11] - 国内Serverless GPU服务资源稀缺,供需错配造成大量闲置与短租一卡难求并存 [19][12] - 现有服务模式要求长租且管理繁琐,阻碍创业公司快速迭代 [12] 解决方案 - 通过Serverless GPU实现毫秒级按量计费,流量激增时秒级扩容,回落时缩容归零 [23][24] - 独创动态资源调度网络打破单一云厂商边界,将闲置算力转化为可用资源 [21][27] - 支持实时/批量推理、3D渲染等场景,冷启动速度媲美国外RunPod [15][17] 市场活动 - 新用户注册充值可获20%额外积分,邀请好友双方各得50元积分 [3][30] - 活动期限至6月18日,RTX 4090推理服务维持1.68元/小时促销价 [29][30]
Morgan Stanley--出口管制正在缩小中国的HBM差距
傅里叶的猫· 2025-05-27 22:52
中国HBM技术发展 - 中国HBM3技术落后全球领先者3-4年 但差距正通过AI芯片生产规模能力缩小[2] - 长鑫存储计划2025年中期小批量生产HBM2 2026年开发HBM3 2027年生产HBM3/3E[1][14] - 中国在hybrid bonding封装技术领域占据强势地位 长江存储相关专利达119项远超三星(83项)和SK海力士(11项)[20][21] 半导体供应链国产化进展 - 中国前端半导体制造产能占全球20% 后端占40% 预计2027年37%成熟节点产能集中在中国[5] - 本土供应链已覆盖EDA设计(华大九天)、晶圆代工(中芯国际)、存储(长江/长鑫)、封装测试(通富微电)等全环节[6] - 长鑫存储DDR5技术差距从5年缩短至3年 2025年产能预计占全球DRAM市场的14%[18] AI芯片替代方案 - 英伟达计划推出GDDR7替代HBM的6000D GPU 预计2025年出货100万台 带来3.84亿美元收入[6][7] - 游戏GPU可满足中小型企业AI推理需求 预计2023-2027年中国游戏GPU市场CAGR从4%提升至10%[12] - 华为昇腾910C采用8颗HBM2E 壁仞/燧原等厂商也使用韩国HBM2/2E[13] 技术竞争格局 - 全球HBM产能2025年底预计34万片/月 长鑫存储2026年规划10万片/月 2028年扩至40万片/月[16] - hybrid bonding将成为16层以上HBM堆叠关键技术 三星/SK海力士/美光计划2027年HBM4e采用该工艺[27][28] - 长鑫存储在无EUV情况下开发15nm以下DRAM节点 面临良率和生产规模挑战[17] 产能扩张计划 - 长鑫存储2025年产能预计达540kwpm(8英寸等效) 合肥/北京工厂合计30万片/月12英寸晶圆产能[18][19] - 武汉新芯启动HBM专项 长电科技推出XDFOI封装方案 通富微电负责HBM2堆叠组装[22]
万国数据-SW(9698.HK):EBITDA增长提速 上架率提升
格隆汇· 2025-05-22 01:44
风险提示:1)云计算行业增速弱于我们预期;2)融资利率上升;3)市场竞争加剧。 预计2025 年业绩稳步增长,净负债/调整后EBITDA 比例逐步下降公司维持业绩指引不变,预计其2025 年总收入为112.9-115.9 亿元(同比增长9.4%-12.3%), 调整后EBITDA 为51.9-53.9 亿元( 同比增长 6.4%-10.5%),这一业绩指引部分受到ABS 项目出表的影响。我们注意到,ABS 项目完成后,公司杠 杆率逐步下降,1Q25 净负债/经调整EBITDA 比例已下降至6.6 倍(1Q24:7.7 倍)。公司将继续积极推 进公募REITS 的发行工作,随着市场需求的进一步好转及REITS 项目的推进,公司的杠杆率有望逐步 下降,利息费用将相应减少,带动业绩改善。 看好公司长期发展,维持"买入"评级 我们维持盈利预测不变,预计公司25-27 年经调整EBITDA 分别为52.9/59.3/68.8 亿元。我们采用SOTP 估值法对公司估值,国内业务方面,考虑到公司上架率提升及REITS 项目带来的现金流改善,我们将 2025 年EV/EBITDA 目标估值由15 倍上调至16 倍(可比平均: ...
AI推理加速演进:云计算的变迁抉择
21世纪经济报道· 2025-05-21 19:09
AI发展趋势 - 开源大模型高效迭代推动AI发展从训练转向推理 小模型应用落地需求增加 对云计算市场产生深远影响 [1] - IDC预测未来AI推理市场规模将达训练需求的十倍以上 垂直场景小模型部署潜力更大 [1] - 行业投资重心转向推理 企业需关注推理效率(吞吐量、时延、成本) Akamai服务提升3倍吞吐并降低60%时延 [2][3] 云计算架构变革 - 边缘计算成为重要增长点 分布式架构需满足低延时(10毫秒)、灵活部署 Akamai覆盖130国4200边缘节点 [3] - 混合云/多云策略被绝大多数企业接受 客户探讨如何执行符合业务特性的多云战略 [1] - 边缘推理优势显著:靠近用户提升体验 满足数据主权要求 降低数据传输成本 [3] 模型应用特征 - 实际生产中89%用户采用小模型解决具体问题 商业化程度高于大模型 智能客服等场景已验证效果 [2] - 时延敏感领域更适合边缘部署小模型 "快思考"与"慢思考"模型需差异化云环境部署 [3][4] - 中国企业出海加速嵌入AI推理能力 如商旅行业用AI生成非定制行程建议 [5] 行业挑战与优化 - 企业CTO反映前期过度投入训练 推理准备不足 需构建运营级服务能力(算力/数据管理/边缘运维) [2] - "慢思考"模型推高云计算成本 迫使企业优化服务效率 需平衡资源使用与成本 [3] - 推理需额外考虑可扩展性、合规性等要素 与训练数据中心要求存在差异 [2]
天弘科技:以太网交换机、ASIC服务器双轮驱动-20250521
国金证券· 2025-05-21 09:23
报告公司投资评级 - 报告给予公司“买入”评级,目标价133.02美元 [4][75] 报告的核心观点 - 公司作为ASIC服务器与以太网ODM交换机主要厂商,有望受益ASIC行业趋势,在ASIC服务器赢得新客户定点,以及ODM收入占比增长带动盈利能力提升,具备较强alpha属性,随着主要ASIC客户新一代产品25H2有望开始放量,公司业绩预期有望持续兑现 [3] 根据相关目录分别进行总结 一、深度布局ASIC服务器+以太网交换机,AI推理核心受益标的 - 推理算力重要性提升,ASIC产业链有望受益:大语言模型推理成本指数级下降,每美元生成token数量增长,模型能力提升,推理成本降低和算法迭代带动ASIC需求增长,ASIC相比GPU性价比高,可定制开发,提升运算效率、降低功耗和单价 [14][15] - ASIC有望受益客户放量+客户拓展:公司连接与云端解决方案产品主要客户优质,增长驱动力来自ASIC服务器与高速以太网交换机在北美CSP放量,目前主要ASIC服务器客户为谷歌,25H1企业终端市场收入承压,25H2有望重回增长,还成为Meta的ASIC服务器供应商,获得一家领先商业化AI公司的ASIC系统项目全栈方案 [27][29][30] - 受益AI以太网组网趋势,交换机业务有望起量:大型云厂商在AI芯片组网中逐渐转向以太网,数据中心以太网交换机以白盒交换机为主,公司作为白牌交换机主要厂商之一,份额有望提升,以太网交换机市场有望增长,公司有望受益于客户需求带动的交换机需求增长 [32][39][45] 二、从EMS转向ODM,有望加强客户绑定并保持较强竞争力 - 从EMS转向ODM,盈利能力改善:公司推出“硬件平台解决方案”的ODM业务模式,收入持续增长,带动盈利能力提升,未来ODM业务收入占比有望继续提升,驱动力来自交换机收入增长和ASIC服务器复杂度提升 [50][51][53] - ASIC机柜有望成为主流方案,公司有望受益于加深已有客户绑定+拓展新客户:ASIC逐渐转向机柜形式出货,公司已有客户和新客户的ASIC预计采用机柜形式,公司作为领先企业,有望增强行业地位,获得更多项目导入机会,未来有望更多参与设计,加强与客户绑定,提升盈利能力 [57][60][61] - 全球布局,有望充分降低关税影响:公司产能全球布局,数据中心业务在加拿大、墨西哥、马来西亚、印度有产能布局,出货有望享受协定或低关税,主要数据中心出货产品在关税豁免清单,极端情况下可能将业务转向美国本土或墨西哥 [62][66] 三、ASIC行业β+公司自身α,有望开启强预期、强现实的持续兑现 - 公司作为主要厂商,有望受益ASIC行业趋势,具备较强alpha属性,经营杠杆高,利润弹性大,ODM业务收入占比有望提升,盈利能力持续向上,市场对公司客户有较强预期,25H2公司ASIC业务和交换机业务有望业绩持续兑现 [67][68] 四、盈利预测与投资建议 - 盈利预测:预计公司2025 - 2027年营业收入分别为112.47、139.27、158.84亿美元,同比+16.60%、+23.83%、+14.05%,毛利率分别为11.17%、11.31%、11.23%,连接与云解决方案业务、通信终端市场、企业终端市场、高级技术解决方案收入有不同预测 [69][70][71] - 投资建议:预计公司2025 - 2027年净利润分别为5.93、7.65、8.71亿美元,同比+38.4%、+29.1%、+13.9%,EPS分别为5.15、6.65、7.57美元,给予公司26年20X PE,对应目标价133.02美元,首次覆盖,予以“买入”评级 [74][75]
AI巨头新品亮相Computex 2025 争霸生态整合与AI推理市场
证券时报网· 2025-05-20 20:09
行业动态 - Computex 2025是亚洲最大电子科技展会 英伟达 英特尔等公司发布新品 AI推理成为重点布局方向 生态整合被突出强调 [1] 英伟达生态拓展 - 公司发布GB300 NVL72平台及NVIDIA NVLink Fusion 首次向第三方开放NVLink IP授权 允许非英伟达CPU ASIC或加速器与GPU深度整合 [2] - 联发科 Marvell Alchip Technologies Astera Labs Synopsys Cadence等公司率先采用NVLink Fusion 富士通 高通CPU可与英伟达GPU集成构建高性能AI工厂 [2] - 创始人黄仁勋表示数据中心需重构 AI融入每个计算平台 NVLink Fusion开放AI平台和生态系统 [2] 英伟达战略布局 - 公司将联合富士康 台积电在中国台湾建设首座人工智能超级计算机 强化AI生态系统核心支柱 新办事处命名为"Nvidia Constellation" [3] - 公司计划在上海建研究中心 聚焦中国客户定制化需求 [4] 英伟达产品更新 - 推出GB300 NVL72 AI服务器 推理性能提升50% 2025年第三季度量产上市 [5] - 针对企业级AI推理市场推出RTX PRO服务器 最多配置8张Blackwell RTX Pro Graphics 6000卡 完全兼容AI企业软件平台 [5] - 个人工作站DGX Spark将于7月起发售 [5] - 更新机器人基础模型Isaac GR00T 增加人形机器人训练合成数据生成框架Isaac GR00T - Dreams 发布用于合成运动生成的蓝图及NVIDIA Blackwell系统 [5] 英特尔产品发布 - 推出锐炫Pro B60和锐炫Pro B50 GPU 专为AI推理和专业工作站设计 采用PCIe Gen5接口 性能提升10%-20% [6] - Gaudi 3 AI加速器提供PCIe和机架级系统部署选择 支持现有服务器数据中心环境可扩展AI推理 2025年下半年上市 [6] - AI Assistant Builder已在GitHub发布 作为轻量级开放软件框架 开发者可创建针对英特尔平台优化的本地AI代理 [6] AMD动态 - 计划于2025年5月21日正式揭晓Radeon RX 9060 XT [6] 市场观点 - 黄仁勋指出美国AI扩散规则限制其他国家使用美国技术是错误做法 应加速推广美国技术 AI是完整技术栈 不能只保护某一层 [3] - 失去中国市场意味着美国公司损失90%全球市场 英伟达因禁售H20计提55亿美元库存减值损失 放弃150亿美元销售额 中国每年潜在市场达500亿美元 [3]
再战英伟达!英特尔发布全新AI推理GPU芯片,陈立武:想重回巅峰就需“说真话”
钛媒体APP· 2025-05-20 12:39
公司战略与领导力 - 英特尔CEO陈立武强调芯片产业需要建立完整系统,包括软件、网络和储存技术,并大力转向光学技术,同时加强与存储芯片合作以实现SoC芯片整合与高速效能 [2] - 公司正在改变产品竞争力不足的现状,目前在PC和客户端市场市占率约68%,数据中心CPU领域市占率55% [2] - CEO推动"说实话"文化,直接与底层工程师沟通,重新调整工程团队直接向其报告以确保产品方向正确 [3] - 公司强调执行力的重要性,要求团队兑现公开承诺,通过成果说话 [3] - CEO表示将长期留任,认为英特尔是一家标志性公司 [3] 新产品发布 - 发布锐炫Pro B系列GPU,包括B60(24GB显存)和B50(16GB显存),针对AEC和推理工作站优化,支持多GPU扩展 [4] - 新产品在Windows上兼容消费级和专业级驱动程序,在Linux上支持容器化软件栈以简化AI部署 [4] - 发布代号Project Battlematrix的工作站级至强平台,支持最多8块B60 GPU,可运行高达1500亿参数的AI模型 [4] - 锐炫Pro B系列GPU显存容量是对标NVIDIA产品的3倍代际提升 [4] - B50 GPU峰值性能170 Tops(Int8),B60达197 Tops,符合美国出口管制规则可供应中国大陆市场 [7] 技术性能与应用 - 两张B60 GPU可支持20k tokens上下文窗口,四张可支持10万tokens长篇论文推理 [5] - 团队完成底层技术工作,提供一键部署解决方案 [5] - Gaudi 3 AI加速器提供PCIe和机架级系统部署选择,PCIe卡支持现有数据中心服务器运行AI推理 [7] - Gaudi 3机架级系统每个机架最多支持64个加速器,提供8.2 TB高带宽内存 [7] 市场策略 - 锐炫Pro B50 GPU+至强CPU组合将替补Gaudi 3无法在中国销售的情况,迎合国内AI推理需求 [8] - 发布AI Assistant Builder开源软件栈,帮助开发者创建针对英特尔平台优化的本地AI Agent [8] - B60 GPU样品将于2025年6月提供给华擎、蓝戟等合作伙伴,B50 GPU将于今年7月上市 [7] - Gaudi 3 PCIe卡计划2025年下半年上市 [7] 行业地位与历史 - 公司正在努力恢复竞争优势,证明在台积电和英伟达主导的市场中仍具主导地位 [9] - 庆祝围绕x86架构四十年的合作与创新,几乎所有现代数字设备的根源都与中国台湾生态系统相关 [9] - CEO分享其与中国台湾的历史渊源,曾帮助濒临倒闭的益华电脑实现股价从2.42美元涨至316美元,市值达88亿美元 [9] - CEO表示这是其第六次担任CEO,也是首次以英特尔CEO身份回到台北 [10]
一场英伟达引发的大泡沫,快破了
虎嗅APP· 2025-05-20 08:00
核心观点 - AI算力市场因英伟达高端芯片受限引发供应链争夺战,服务器价格波动剧烈且交易链条高度隐秘 [4][6] - 智算中心建设泡沫显现,2025年Q1中国165个项目中仅10%投产,同时国际科技巨头缩减数据中心投资 [11][12] - 行业呈现两极分化:中小算力供应商面临退租潮,而字节、阿里等大厂持续加码AI基建投入 [12][14] - 推理需求取代预训练成为新增长点,但存在芯片性能不足、垂类模型缺失等产业链断点 [19][21] 算力供应链动态 - 英伟达Hooper系列(H200)和Blackwell系列(B200)通过特殊渠道进入中国市场,H200比H100效率高30%但价格仅增加20余万 [5] - 国内H200供应商不超过10家,单周供应能力达100台服务器,B200单价超300万且流通路径更隐秘 [5][6] - 算力交易采用"P"单位计价规避型号标注,部分经销商通过模组嵌入或第三方包装实现"曲线上市" [6] 智算泡沫现状 - 2024年智算中心项目达458个,但实际点亮率不足50%,国产芯片因性能短板无法用于预训练 [10][11] - 2025年Q1中国智算项目58%处于审批阶段,仅16个投产,Meta、微软等国际企业同步缩减投资 [11] - 飞利信、莲花控股等公司终止数亿元算力租赁合同,反映非核心需求方退场 [14] 巨头战略布局 - 字节跳动计划2025年投入892亿元采购AI芯片,其中500亿元定向英伟达产品 [12] - 阿里巴巴宣布三年3800亿元AI基建预算,超过去十年总和 [12] - 车厂智算中心需求达万P规模,成为仅次于科技巨头的第二大采购方 [19] 产业链瓶颈 - 推理需求爆发:单个AI应用日算力消耗可达百万P级,但存在工程化优化挑战 [19] - 国产芯片存在"短板效应",堆叠无法弥补性能缺陷 [21] - 医疗垂类模型受限于数据开放率不足5%,三甲医院仅3%脱敏数据可用 [21][22] 商业模式创新 - 算力供应商通过直接投资AI企业锁定需求,形成垄断式消纳路径 [14][15] - LP+产业基金模式构建资本闭环,实现算力采购资金回流 [16][17] - 新型智算服务商转型为算法+行业解决方案提供商,突破硬件供应商定位 [22]
一场英伟达引发的大泡沫,快破了
虎嗅· 2025-05-20 07:02
核心观点 - 围绕英伟达高端芯片的算力资源争夺战因关税暂停窗口期升温,服务器价格波动剧烈且供应链复杂[1][2][3] - 国内智算产业经历从炒卡热潮到泡沫破裂的周期,供需结构性错配导致大量算力闲置与低效[10][12][15] - 科技巨头持续加码AI基建投入,与中小算力供应商收缩形成鲜明对比[17][18][20] - 行业探索新型算力消纳模式,包括投资绑定和产业基金联动等非主流路径[23][25][26] - 推理需求爆发凸显产业链断点,垂类模型缺失和芯片性能短板制约算力有效利用[30][32][34] 芯片供应与价格动态 - 服务器价格近期上浮15%-20%,关税暂停后供应商计划恢复原价[2] - 英伟达Hooper系列(H200)和Blackwell系列(B200)通过隐秘渠道进入国内市场,H200比H100效率高30%但价格仅高20多万元[3][4] - 国内已有供应商具备每周100台H200供应能力,掌握货源的供应商不超过十家[6] - B200价格高达300多万元且流通受限最严,主要用于大模型预训练[4] 市场供需与交易模式 - 算力交易采用抽象计价方式,合同以算力单位"P"代替具体芯片型号[7] - 部分经销商通过特殊采购渠道多层转售,或借助第三方企业将模组嵌入产品实现"曲线上市"[8] - 2024年智算中心项目超458个,但2025Q1数据显示165个项目中仅16个投产,占比不足10%[11][13] - 智算中心点亮率不足50%,国产芯片因性能短板无法用于预训练[15] 企业战略与投入 - 字节跳动计划2025年投入123亿美元(约892亿元)于AI基础设施,其中400亿元预算用于中国采购AI芯片[17] - 阿里巴巴宣布未来三年拟投入3800亿元建设AI基础设施,超过去十年总和[18] - 大厂采购导致市场供货紧张,"签约后交不出货"现象普遍[19] 行业结构性矛盾 - 算力供给呈现"结构性错配":高端需求未满足与低效算力闲置并存[15] - 国产芯片存在"短板效应",堆叠无法弥补性能差距导致集群效能受限[32][33] - 医疗等行业垂类模型受制于数据开放率不足(医疗数据开放率<5%),三甲医院仅3%脱敏数据可用于AI训练[35][36] 新兴商业模式 - 算力供应商通过投资绑定被投企业算力需求,形成垄断式消纳路径[23] - 产业基金联动模式:算力供应商以LP身份绑定被投企业未来采购,构建资金闭环[25][26] - 新型智算服务商崛起,提供算法团队和行业专家深度参与客户AI开发[38]
芯片新贵,集体转向
半导体芯闻· 2025-05-12 18:08
行业趋势 - AI芯片行业正从大规模训练市场转向更现实的推理市场,Nvidia在训练芯片市场占据主导地位,而其他公司如Graphcore、英特尔Gaudi、SambaNova等转向推理市场 [1] - 训练芯片市场门槛高,需要重资本、重算力和成熟的软件生态,新晋企业难以生存,推理芯片成为更易规模化落地的选择 [1] - 推理市场对内存和网络的要求较低,适合初创公司切入,而Nvidia在训练市场的优势包括HBM内存和NVLink等网络技术 [21][22] Graphcore - Graphcore曾专注于训练芯片,其IPU处理器采用并行处理架构,适合处理稀疏数据,在化学材料和医疗领域表现突出 [2][4] - 2020年Graphcore估值达28亿美元,但其IPU系统在大型训练项目中难以挑战Nvidia,2021年微软终止合作后公司开始衰落 [4][5] - 2024年软银收购Graphcore后转向推理市场,优化Poplar SDK,推出轻量级推理方案,聚焦金融、医疗和政府场景 [6] 英特尔Gaudi - 英特尔2019年以20亿美元收购Habana Labs,Gaudi系列主打训练和推理,Gaudi2对比Nvidia A100吞吐量性能提高2倍 [7][9] - 英特尔内部存在Habana与GPU部门的竞争,官僚效率低下影响决策,Gaudi训练平台市场采用率低迷 [9][10] - 2023年Gaudi转向训练+推理并重,Gaudi3强调推理性能和成本优势,每美元推理吞吐量高于GPU近30%,但未能达到营收预期 [10][11] Groq - Groq创始人曾参与Google TPU设计,其LPU架构采用确定性设计,主打低延迟和高吞吐率,适合推理任务 [12][14] - 早期尝试训练市场失败后转向推理即服务,2024年展示Llama 2-70B模型每秒生成300+ Token,吸引金融、军事等延迟敏感行业 [15] - GroqCloud平台提供API接口,与LangChain等生态集成,定位为AI推理云服务提供商 [15] SambaNova - SambaNova采用RDU架构,曾重视训练市场,但2022年后转向推理即服务,推出SambaNova Suite企业AI系统 [16][18] - 2024年裁员15%并完全转向推理,聚焦政府、金融和医疗等私有化模型部署需求强烈的领域 [18][19] - 提供多语言文本分析、智能问答等推理服务,商业化路径逐渐清晰 [19] 技术对比 - Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink网络技术,初创公司难以竞争 [21][22] - 推理任务内存负担低,无需存储梯度和复杂网络通信,适合初创公司设计专用芯片 [21] - 未来AI芯片竞争将更注重成本、部署和可维护性,推理市场成为战略重点 [23]