AI推理
搜索文档
一场英伟达引发的大泡沫,快破了
虎嗅· 2025-05-20 07:02
核心观点 - 围绕英伟达高端芯片的算力资源争夺战因关税暂停窗口期升温,服务器价格波动剧烈且供应链复杂[1][2][3] - 国内智算产业经历从炒卡热潮到泡沫破裂的周期,供需结构性错配导致大量算力闲置与低效[10][12][15] - 科技巨头持续加码AI基建投入,与中小算力供应商收缩形成鲜明对比[17][18][20] - 行业探索新型算力消纳模式,包括投资绑定和产业基金联动等非主流路径[23][25][26] - 推理需求爆发凸显产业链断点,垂类模型缺失和芯片性能短板制约算力有效利用[30][32][34] 芯片供应与价格动态 - 服务器价格近期上浮15%-20%,关税暂停后供应商计划恢复原价[2] - 英伟达Hooper系列(H200)和Blackwell系列(B200)通过隐秘渠道进入国内市场,H200比H100效率高30%但价格仅高20多万元[3][4] - 国内已有供应商具备每周100台H200供应能力,掌握货源的供应商不超过十家[6] - B200价格高达300多万元且流通受限最严,主要用于大模型预训练[4] 市场供需与交易模式 - 算力交易采用抽象计价方式,合同以算力单位"P"代替具体芯片型号[7] - 部分经销商通过特殊采购渠道多层转售,或借助第三方企业将模组嵌入产品实现"曲线上市"[8] - 2024年智算中心项目超458个,但2025Q1数据显示165个项目中仅16个投产,占比不足10%[11][13] - 智算中心点亮率不足50%,国产芯片因性能短板无法用于预训练[15] 企业战略与投入 - 字节跳动计划2025年投入123亿美元(约892亿元)于AI基础设施,其中400亿元预算用于中国采购AI芯片[17] - 阿里巴巴宣布未来三年拟投入3800亿元建设AI基础设施,超过去十年总和[18] - 大厂采购导致市场供货紧张,"签约后交不出货"现象普遍[19] 行业结构性矛盾 - 算力供给呈现"结构性错配":高端需求未满足与低效算力闲置并存[15] - 国产芯片存在"短板效应",堆叠无法弥补性能差距导致集群效能受限[32][33] - 医疗等行业垂类模型受制于数据开放率不足(医疗数据开放率<5%),三甲医院仅3%脱敏数据可用于AI训练[35][36] 新兴商业模式 - 算力供应商通过投资绑定被投企业算力需求,形成垄断式消纳路径[23] - 产业基金联动模式:算力供应商以LP身份绑定被投企业未来采购,构建资金闭环[25][26] - 新型智算服务商崛起,提供算法团队和行业专家深度参与客户AI开发[38]
芯片新贵,集体转向
半导体芯闻· 2025-05-12 18:08
行业趋势 - AI芯片行业正从大规模训练市场转向更现实的推理市场,Nvidia在训练芯片市场占据主导地位,而其他公司如Graphcore、英特尔Gaudi、SambaNova等转向推理市场 [1] - 训练芯片市场门槛高,需要重资本、重算力和成熟的软件生态,新晋企业难以生存,推理芯片成为更易规模化落地的选择 [1] - 推理市场对内存和网络的要求较低,适合初创公司切入,而Nvidia在训练市场的优势包括HBM内存和NVLink等网络技术 [21][22] Graphcore - Graphcore曾专注于训练芯片,其IPU处理器采用并行处理架构,适合处理稀疏数据,在化学材料和医疗领域表现突出 [2][4] - 2020年Graphcore估值达28亿美元,但其IPU系统在大型训练项目中难以挑战Nvidia,2021年微软终止合作后公司开始衰落 [4][5] - 2024年软银收购Graphcore后转向推理市场,优化Poplar SDK,推出轻量级推理方案,聚焦金融、医疗和政府场景 [6] 英特尔Gaudi - 英特尔2019年以20亿美元收购Habana Labs,Gaudi系列主打训练和推理,Gaudi2对比Nvidia A100吞吐量性能提高2倍 [7][9] - 英特尔内部存在Habana与GPU部门的竞争,官僚效率低下影响决策,Gaudi训练平台市场采用率低迷 [9][10] - 2023年Gaudi转向训练+推理并重,Gaudi3强调推理性能和成本优势,每美元推理吞吐量高于GPU近30%,但未能达到营收预期 [10][11] Groq - Groq创始人曾参与Google TPU设计,其LPU架构采用确定性设计,主打低延迟和高吞吐率,适合推理任务 [12][14] - 早期尝试训练市场失败后转向推理即服务,2024年展示Llama 2-70B模型每秒生成300+ Token,吸引金融、军事等延迟敏感行业 [15] - GroqCloud平台提供API接口,与LangChain等生态集成,定位为AI推理云服务提供商 [15] SambaNova - SambaNova采用RDU架构,曾重视训练市场,但2022年后转向推理即服务,推出SambaNova Suite企业AI系统 [16][18] - 2024年裁员15%并完全转向推理,聚焦政府、金融和医疗等私有化模型部署需求强烈的领域 [18][19] - 提供多语言文本分析、智能问答等推理服务,商业化路径逐渐清晰 [19] 技术对比 - Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink网络技术,初创公司难以竞争 [21][22] - 推理任务内存负担低,无需存储梯度和复杂网络通信,适合初创公司设计专用芯片 [21] - 未来AI芯片竞争将更注重成本、部署和可维护性,推理市场成为战略重点 [23]
智通决策参考︱恒指稳步推进 重点观察机器人和稀土概念表现
智通财经· 2025-05-12 08:51
地缘政治与市场影响 - 印巴宣布停火,乌克兰提议5月15日在土耳其恢复俄乌直接谈判,显示地缘冲突趋缓 [1] - 中美会谈长达8小时进入解决分歧阶段,会谈结果将对市场走向起重大引领作用 [1] - 美国4月CPI数据及美联储主席鲍威尔讲话受关注,市场观察6月降息可能性 [1] 行业与公司动态 - 国家部署打击战略矿产走私出口专项行动,涉及镓、锗、锑、钨、中重稀土等资源 [2] - 宇树科技在上海成立分公司并扩招,机器人板块动向值得关注 [2] - 腾讯控股、京东、阿里等互联网巨头本周公布财报 [1] 万国数据-SW(09698)财报分析 - 2024年营业收入103.22亿元(+5.5%),调整后EBITDA 48.76亿元(+3%),国际业务出表后口径 [3] - 4Q24国际业务完成B轮融资,上市公司持股35.6%,合并报表口径调整后EBITDA 51.93亿元(+12.3%) [3] - 国内业务运营面积613,583平方米(+12%),机柜利用率73.8%,单价2011元/平米/月 [3] - 2025年国内新签订单152MW,资本开支预算上调至43亿元,23亿元用于新订单建设 [4] - 海外业务DayOne累计签单467MW,运营规模121MW,2024年收入1.73亿美元,计划18个月内上市 [4] 建筑行业出海趋势 - 中国建筑企业国际竞争力强,中国交建、中国建筑等进入ENR 2024年度全球前10强 [5] - 雅万高铁、中欧班列等"一带一路"项目展现技术实力,越南和发榕桔钢厂、克罗地亚风电项目为标志性工程 [6] - 八大建筑央企2024年海外新签同比+13.3%,2025年一季度同比+23.9%,中钢国际海外新签同比+54% [7] - 港股重点关注中交建(01800)、中国中铁(00390)、中铁建(01186)、中国能源建设(03996) [7] 港股市场数据 - 恒生期指(五月)未平仓合约总数96870张,净数36007张,结算日2024年05月29日 [8] - 恒生指数牛熊街货分布显示22868点熊证密集,港股存在做多动力,本周看涨 [8] - 港元汇率强势,资本持续流入,科技、生物制药、新消费等稀缺标的受资金青睐 [10]
芯片新贵,集体转向
半导体行业观察· 2025-05-10 10:53
AI芯片行业趋势 - AI芯片行业正从大规模训练市场转向更具现实落地潜力的推理市场,Nvidia在训练市场占据绝对主导地位,而其他公司如Graphcore、英特尔Gaudi等纷纷转向推理领域 [1] - 训练市场门槛极高,需要重资本、重算力和成熟的软件生态,新晋企业难以与Nvidia竞争,推理市场则更易规模化和商业化 [1][4] - 推理市场的优势在于内存和网络需求较低,适合初创企业切入,而Nvidia在训练市场的优势包括CUDA生态、HBM内存和NVLink技术 [21][22] Graphcore转型 - Graphcore曾专注于训练芯片IPU,其Colosual MK2 GC200 IPU采用台积电7nm制程,性能接近Nvidia A100,2020年估值达28亿美元 [4] - IPU在稀疏数据处理(如分子研究)和医疗领域表现突出,微软曾用于新冠X光片识别,速度比传统芯片快10倍 [5] - 由于训练市场竞争失败,Graphcore被软银收购后转向推理市场,推出轻量级推理方案,聚焦金融、医疗和政府场景 [5][6] 英特尔Gaudi策略调整 - 英特尔2019年以20亿美元收购Habana Labs,Gaudi2采用7nm制程,吞吐量性能比Nvidia A100高2倍 [7] - 内部管理混乱导致Gaudi市场表现不佳,2023年转向"训练+推理并重",Gaudi3强调推理性价比,成本优势达30% [9][10] - 英特尔终止Falcon Shores开发,Gaudi3现面向企业私有化部署,如语义搜索和客服机器人 [10][11] Groq技术定位 - Groq创始人曾参与Google TPU开发,其LPU架构采用确定性设计,专注低延迟推理,适合大模型推理任务 [13] - 2024年展示Llama 2-70B模型推理速度达300 token/秒,吸引金融、军事等延迟敏感领域客户 [15] - Groq转型推理即服务(Inference-as-a-Service),通过GroqCloud平台提供API,与LangChain等生态集成 [16] SambaNova业务转向 - SambaNova的RDU芯片曾主打训练优势,但2022年后转向推理即服务,推出企业AI系统SambaNova Suite [17][19] - 聚焦金融、政府等私有化部署需求,提供合规化推理解决方案,与拉美金融机构和欧洲能源公司合作 [20][21] - 2024年裁员15%,完全放弃训练市场,专注推理商业化 [19] 技术对比与市场逻辑 - 训练芯片需复杂内存层级(HBM/DDR)和全互联网络,Nvidia凭借CUDA生态和硬件优化占据绝对优势 [21][22] - 推理芯片门槛较低,初创企业可通过垂直场景(如医疗、金融)或技术差异化(如Groq的低延迟)竞争 [23] - 行业进入"真实世界"阶段,竞争焦点从算力转向成本、部署和维护便利性 [23]
AI推理时代 边缘云不再“边缘”
中国经营报· 2025-05-09 23:09
边缘云技术革命 - 边缘云突破传统集中式计算模式 将数据处理能力下沉至网络边缘 实现数据快速响应和处理 [1] - 在AI大模型竞争中 行业焦点从训练阶段转向AI推理 边缘云成为新竞争焦点 [1] - 边缘云靠近节点 可提升数据交互和AI推理即时性与效率 同时保障信息安全 [1][5] AI推理需求爆发 - AI推理计算需求可能是训练需求的10倍甚至更多 企业更关注"后训练"阶段部署问题 [1] - 巴克莱报告指出 AI推理计算需求预计占通用人工智能总计算需求的70%以上 达训练需求的4.5倍 [3] - 英伟达创始人预测 推理算力需求规模增长将"轻松超过去年估计的100倍" [3] 行业技术动态 - OpenAI推出O1推理模型 Anthropic上线依赖推理的Agent功能 DeepSeek R1推理模型引发全球关注 [3] - DeepSeek采用跨节点专家并行模式 通过全面开源将AI推理资源池成本降至百卡/千卡范围 [4] - DeepSeek轻量灵活的部署方式已获科技、金融、政务等多行业接入 推动端侧AI爆发 [4] 边缘云核心优势 - 边缘云地理分布广泛 缩短交互链路 降低数据传输开销和成本 [5] - 边缘云节点容量大、健壮性强 结合边缘推理可支持企业数字化和智能化转型 [5] - 边缘侧提供额外能力如边缘缓存和安全防护 增强模型部署安全性 [5] 市场竞争要素 - 未来竞争核心在于成本/性能计算 包括推理成本、延迟和吞吐量 [6] - 边缘推理靠近终端用户和数据源 可提升用户体验和效率 同时满足"数据主权"需求 [6] - AI行业投资已开始转向推理 推理效率需综合评估吞吐量、时延和成本 [6]
Sambanova裁员,放弃训练芯片
半导体行业观察· 2025-05-06 08:57
AI芯片初创公司战略转型 - SambaNova Systems在2023年4月放弃AI训练业务,裁员15%,全面转向AI推理领域,成为第一代AI芯片初创公司中最后一个放弃训练业务的企业 [1] - 类似战略转型案例包括:Groq在2022年完全转向推理基准,Cerebras从CS-1的训练重心转向CS-2的推理重心 [1] 转型原因分析 市场因素 - 行业普遍认为AI推理市场规模可能是训练市场的10倍,因单个模型训练后需执行大量推理任务 [3] - 若未来AI生态由少数大型模型主导,推理市场规模将显著超越训练市场 [3] 技术门槛差异 - 训练需缓存梯度/激活值,要求复杂内存架构(SRAM+HBM+DDR),而推理仅需前向计算,内存需求降低50%以上 [3][4] - 训练需全对全芯片间网络同步梯度,推理仅需线性流水线通信,初创公司有限网络设计更适配推理场景 [5] 英伟达垄断压力 - 英伟达通过CUDA生态、HBM内存(单芯片最高80GB)、NVLink/Infiniband网络技术建立训练领域绝对优势 [6] - 即使SambaNova具备HBM和点对点网络,仍难以突破英伟达在低精度训练算法适配性上的先发优势 [6] 初创公司竞争策略 - 放弃训练业务因需同时解决内存带宽(HBM供给受限)、网络拓扑、算法适配三重挑战,而推理仅需优化单次前向计算 [4][5][6] - 现有案例显示,初创公司转向推理后可规避与英伟达直接竞争,专注特定场景优化(如Groq的确定性延迟、d-Matrix的稀疏计算) [2][6] 行业格局影响 - 英伟达在训练市场的技术壁垒(硬件+软件协同优化)迫使初创公司重新定位,形成训练市场单极垄断、推理市场多强并存的格局 [7] - 头部实验室对英伟达硬件的路径依赖(如GPT-4级模型训练代码适配)进一步强化其市场地位 [6]
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
硬AI· 2025-04-29 08:18
行业需求与市场动态 - 大型语言模型对推理芯片的需求激增,导致英伟达GPU供不应求,需求遍及所有地区 [3][4] - token生成量自年初以来增长5倍以上,给生态系统带来巨大压力,推动对处理工作负载的投资激增 [4] - AI公司用户数量呈爆炸式增长,例如Open Router等API公司数据显示,GPU资源争夺激烈,甚至出现"最后一块GB200"在2025年仅剩一块的状况 [4] 英伟达的供应与业绩 - 英伟达Blackwell芯片(尤其是GB200/300型号)供应受限,短期内无法满足爆炸式需求 [6] - Hopper GPU需求虽改善,但云客户5-6年折旧周期可能导致投资回报率不理想 [6] - 美元上行、供应紧张和出口限制叠加,引发市场对英伟达短期盈利的担忧 [6] 摩根士丹利的观点与调整 - 摩根士丹利将英伟达目标价从162美元轻微下调至160美元,主要反映同行组整体估值下降,而非公司基本面变化 [3][6] - 下调目标价体现对英伟达短期业绩的谨慎态度,但长期增长潜力依然强劲 [3][8] - 截至发稿,英伟达股价为111美元,较大摩目标价高45%左右 [6] 推理需求的关键性 - 摩根士丹利认为推理需求是关键,由使用模型并产生收入的部分驱动,证明推理模型的扩展是真实存在的 [4] - 推理需求与仅依赖风险投资的训练需求有本质区别 [4]
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
华尔街见闻· 2025-04-27 18:38
投资者情绪与需求变化 - 过去四周投资者情绪因宏观经济和供应链风险恶化 但英伟达GPU核心需求因大型语言模型对推理芯片需求飙升且遍及所有地区 [1] - token生成量自年初以来增长5倍以上 给生态系统带来巨大压力并推动处理工作负载的投资激增 [1] - 多家AI公司报告用户数量爆炸式增长 例如Open Router等API公司因推理软件需求被迫争抢GPU资源 [1] 英伟达芯片供需状况 - 英伟达Blackwell芯片供应受限 尤其是GB200/300型号无法满足爆炸式需求 [2] - Hopper GPU需求有所改善 但云客户5-6年折旧周期导致投资回报率不理想 [2] - 美元上行、供应紧张和出口限制叠加 引发市场对英伟达短期盈利担忧 [2] 摩根士丹利对英伟达的评估 - 摩根士丹利将英伟达目标价从162美元下调至160美元 主要反映同行组整体估值下降而非公司基本面变化 [2] - 截止发稿英伟达股价为111美元 较大摩目标价高45%左右 [2] - 摩根士丹利认为供应限制和毛利率压力影响市场情绪 但对长期增长潜力保持信心 [4] 财务预测调整 - 摩根士丹利将2026财年收入预测上调10.7% 每股收益上调11.9% 并认为这些数字可能仍非常保守 [5]
“AI消化期论”可笑!大摩上调英伟达(NVDA.US)2026 年业绩预期
智通财经网· 2025-04-25 21:38
智通财经APP获悉,摩根士丹利上调了对英伟达(NVDA.US)的 2026 年业绩预期,称人工智能处于消化 阶段的想法"很可笑"。 分析师约瑟夫·摩尔在给客户的报告中写道:"过去四周,尽管投资者情绪因宏观和供应链风险而恶化, 但在全球范围内,与大多数大语言模型相关的推理芯片短缺,GPU的核心需求却大幅上升。""尽管华尔 街对一系列非常现实的担忧感到焦虑,但硅谷的关注点已转向一个截然不同的挑战——自年初以来,生 成的token数量增长了5倍以上,这极大地挤压了生态系统,并推动了对处理这些工作负载的投资激 增。" 由于近期H20的限制,摩尔维持其对2026财年的预期不变,但将2027财年(2026自然年)的营收预期从之 前的2309亿美元上调至2555亿美元。基于数据中心业务的持续增长,他还将调整后的每股收益预期从之 前的5.37美元上调至6.01美元。 摩尔进一步指出,基于API公司Open Router以及"多种"专有渠道的检查,AI推理需求增长的趋势已变得 明显。他补充说,尽管情绪受到关税、贸易战和其他问题的影响,但这些并未体现在硬数据中。 此外,科技界近期有多条推文称AI需求出现"急剧加速",包括Open ...
内存压缩技术新突破,提高AI推理效率!
半导体芯闻· 2025-04-25 18:19
核心观点 - ZeroPoint Technologies与Rebellions合作开发下一代内存优化AI加速器 旨在通过硬件内存压缩技术显著提升AI推理性能并降低成本 计划2026年推出新产品 目标实现前所未有的代币/秒/瓦特性能水平[2][5] 技术合作与产品规划 - 两家公司基于ZeroPoint的内存压缩、压缩和内存管理技术开发AI加速器 通过增加内存带宽和容量优化基础模型推理工作流程[2] - 新产品计划于2026年发布 声称有望实现突破性代币/秒/瓦特性能水平[2] - 合作聚焦无损模型压缩 在保持准确性的同时减少模型尺寸和能耗[5] 技术原理与性能优势 - ZeroPoint基于硬件的内存优化引擎比软件压缩方法快1000倍 在纳秒级窗口内完成压缩/解压缩、数据聚合及内存管理三项操作[2][5] - 技术以64字节缓存行粒度运行 相比ZSTD等传统技术使用的4-128kB数据块更精细[5] - 可实现内存容量/带宽提升2-4倍 每瓦性能提高50% 总拥有成本大幅降低[5] - 测试显示软件压缩结合内联硬件解压缩已使LLM等应用的可寻址内存、带宽和代币/秒性能提升约50%[5] 市场影响与成本效益 - 100GB HBM的基座模型工作负载可等效150GB HBM运行 带来数十亿美元成本节省[5] - 技术为AI芯片制造商挑战NVIDIA主导地位提供基础 通过功率和成本效率创新参与全球竞争[5] - 内存中超过70%数据为冗余 无损压缩技术可显著提升数据中心效率[5] 行业技术背景 - Marvell和英特尔在HBM领域的进展已提升性能 但硬件加速内存压缩技术可带来进一步改进[5] - 内存优化技术预计从竞争优势发展为高性能推理加速器解决方案必备组件[5]