AI推理
搜索文档
2026年AI最大的叙事变化是什么?
华尔街见闻· 2026-02-02 21:33
行业焦点转变:从AI训练到推理 - 2026年可能成为AI推理工作负载超越训练的转折之年 [1] - 行业焦点正从训练转向能够真正带来投资回报的推理环节 [1] - 到2030年预计1.2万亿美元的AI资本开支中,推理最终可能占据多数份额或达75% [1][4] AI资本开支与芯片板块表现 - AI资本开支的持续增长正推动芯片板块强劲表现 [1] - 费城半导体指数(SOX)年初至今上涨约13%,创下过去20年中第二好的1月表现,远超标普500指数仅1%的涨幅 [1] - 这轮上涨由存储芯片、半导体设备商以及模拟芯片厂商引领,而非由计算领域龙头英伟达和博通推动 [1] - 超大规模云服务商强调AI投资对维持两位数增长至关重要,其表态为市场注入信心 [2] 主要芯片公司表现与前景 - 英伟达保持领先地位,拥有最广泛的产品管线,涵盖训练与推理领域,并具备供应保障优势 [5] - 博通与谷歌、Anthropic保持良好合作关系,并在OpenAI、苹果和xAI获得新机会 [5] - AMD作为英伟达通用芯片的可靠第二供应商 [5] - 存储和半导体设备供应商的机会持续存在,尽管近期大涨后波动性可能加大 [5] - 根据表格数据,年初至今部分公司股价涨幅显著:美光科技上涨45.4%,拉姆研究上涨36.4%,ASML上涨33.0%,应用材料上涨25.4%,英特尔上涨25.9% [2] 推理市场的芯片机会 - 推理工作负载需要一系列在成本和性能上优化的芯片解决方案 [4] - 从GPU、CPU到ASIC等多种硅解决方案都将在推理市场中找到定位 [3] - 市场对谷歌内部自研芯片风险的担忧被夸大,导致博通股价下跌过度 [5] - 市场对台积电2纳米制程的过度担忧导致AMD股价下跌,但该制程进展仍在正轨 [5] 光学连接与铜缆市场 - 光学收发器和组件供应商成为仅次于存储芯片的最强劲芯片板块表现者 [6] - 随着AI集群规模和带宽需求扩大,增加光学连接的必要性毋庸置疑 [6] - 除Meta外,超大规模云服务商对共封装光学的兴趣证据有限,原因是其运营复杂度更高 [6] - 据Lightcounting分析,CPO销售在2026/27年预计仅占约460亿美元以太网收发器市场的约1%(约5亿美元) [6] - 铜缆仍具相关性,建议买入主动电缆领导者Credo Technology Group [6]
专注推理,放弃训练!一家中国GPU公司要差异化突围
21世纪经济报道· 2026-02-02 17:56
全球AI算力市场趋势:推理成为新主战场 - 2025年全球大模型token消耗量增长了100倍,每一次消耗都对应一次AI推理,推理成本成为AI公司盈利的关键[1] - 根据德勤报告,到2026年,推理算力在整体AI计算中的占比将超过训练,达到66%,推理从技术配角转变为商业主力[1] - 大模型从“被训练出来”走向“被用起来”,推理需求被描述为“百花齐放”且“看不到天花板”[1][3] 曦望公司的战略定位与产品路径 - 公司选择All in推理、放弃训练,在行业普遍追求“训推一体”的背景下进行战略聚焦[1] - 公司于2025年初从商汤科技大芯片部门独立运营,一年内完成近30亿元战略融资,股东兼具产业龙头与国资背景[1] - 公司发布了新一代专注推理的GPU“启望S3”,其设计思路是做减法,放弃针对训练的冗余设计[5] 推理芯片的技术与设计逻辑 - 训推一体GPU为兼顾训练,采用昂贵的高级封装和HBM,但在推理场景下算力利用率仅5%到10%,导致高功耗和高成本[4] - 启望S3未采用HBM,而是选择成本更低、容量更大的LPDDR6内存,使得显存容量比上一代训推一体芯片提升四倍以上[5] - 芯片计算核心将算力向低精度倾斜,特别是FP4和FP8精度,通过加强FP4算力带来了数倍的性价比提升[6] - 结合架构、访存、软件栈等全方位优化,公司称S3能实现比上一代产品“十倍以上的性价比提升”[6] 行业竞争格局与国产芯片新趋势 - 行业正从集中式训练转向长期、大规模的推理场景,竞争核心转向效率、稳定性和长期成本[3] - 国产芯片创业趋势从“替代”转向“差异化”,单纯在“训推一体”通用赛道上追赶英伟达面临CUDA生态垄断、高研发投入等同质化竞争挑战[7] - 推理需求的爆发性增长(如智能体、多模态交互等)创造了新窗口,需求高度多样化且尚未收敛,没有公司能通吃所有场景[7] - 2025年底,英伟达以约200亿美元价格与AI芯片初创公司Groq达成非独家技术授权协议,以补强其在AI推理领域的技术[3] 生态构建与未来挑战 - 国产GPU生态面临巨大差距,Hugging Face上有200万个模型,而顶尖国产GPU能顺畅支持的只有几十到几百个,99%的中国AI应用仍建立在英伟达体系之上[8] - 国产芯片的突围必须是“芯片+生态+场景”的协同创新,公司正积极适配以DeepSeek为代表的国内大模型公司走出的不同技术路径(如MoE架构)[9] - 行业进入更为务实的“商业化验证”周期,最终取决于能否让更多企业用得起、用得好AI算力[10] - 公司管理层认为,AI芯片将占据未来AGI产业价值的70%甚至90%,相信未来7×24小时不停歇的推理需求将没有天花板[8]
英伟达砸1400亿,这一芯片风口来了
36氪· 2026-02-02 12:05
AI推理市场趋势与份额预测 - 至2030年,预计AI推理在整个AI计算市场将占到80%的份额 [1][2] - 聚焦于极致推理的AI芯片,未来会有更强的爆发性 [1][2] - 业内普遍认为,2026年全球AI推理的需求将超过AI训练场景 [1] 推理算力需求增长驱动因素 - 未来推理请求量与并发数将大幅增加,推理算力需求呈指数级攀升 [2][3] - 以智能体为代表的人工智能新应用爆发,AI智能体整体算力消耗可达同参数规模大语言模型的10倍以上 [3] - 对智能算力的需求呈数量级跃迁 [3] 行业龙头动向与战略收购 - 全球AI算力龙头正处于由训练转向推理的阶段 [4] - 英伟达以200亿美元(约合1400亿元)收购AI推理芯片初创企业Groq的技术授权,是其迄今规模最大的一笔收购 [2][4] - Groq专注极致推理,其LPU架构曾宣称推理性能是英伟达H100 GPU的10倍,而成本仅为其十分之一 [4] 国内外极致推理芯片厂商布局 - 美国有Etched.ai、Groq等主打极致推理芯片路线的企业,其核心逻辑是大模型架构已经收敛,因此专注于打造最快的AI推理芯片 [4] - 国内企业曦望Sunrise推出了聚焦于大模型推理的GPGPU芯片启望 S3,在主流大模型推理场景中,单位Token推理成本较上一代降低约90% [4] - 曦望联合商汤科技、第四范式等,发起“百万Token一分钱”推理成本计划,目标是把百万Token的推理成本降低至1分钱 [4] 训练与推理芯片市场格局对比 - AI训练芯片赛道逐渐收敛,已经变成头部玩家的游戏,能做预训练大模型的公司数量有限 [6] - 推理赛道尚未收敛,AI智能体、大语言模型、具身智能模型、世界模型等都需要芯片做推理任务 [6] - 相比英伟达在训练端一家独大,推理端技术路线呈现百花齐放态势,为国产AI芯片厂商带来机遇 [6] 国产AI芯片市场前景与估值 - 英伟达市值达到4万亿美元,而中国或许将出现多家市值数千亿甚至万亿人民币的GPU公司 [6] - 中国AI产业呈现区域化发展特征,国内不同GPU企业在各自优势地域市场占据主导 [6] - 互联网巨头除自研芯片外,也在采购国产芯片,并已形成深度合作伙伴关系 [6] - 即便以4万亿人民币计算,中国GPU市场依然蕴藏着巨大的增长空间 [6] AI应用落地与市场渗透加速 - AI应用的月活用户规模已经破亿,其增长速度和行业渗透率远超当年的互联网产品 [7] - 百度、腾讯宣布旗下AI应用将在今年春节期间发放数亿元红包,阿里通义千问也计划加入 [7] - 花旗研报表示,春节活动能有效帮助互联网大厂吸引关注,预计新春推广活动后,中国AI应用的普及进程有望进一步加速 [7] - 春节后,中国的AI渗透率、使用率会进一步提升,代表整个AI产业价值的提升 [9] AI产业价值分布与未来展望 - 在现阶段的AI产业架构中,最底层的芯片占据了整个AI产业价值70%甚至90% [10] - 展望未来,AI芯片或许仍会占据整体AGI(通用人工智能)价值的大头 [11] - 一旦AGI时代到来,机器人数量超过人类,需要进行7×24小时的推理,推理需求将没有天花板 [10] - 随着AGI时代来临,需要构建一个普惠的推理算力网络,服务于机器人、终端设备、消费者和企业 [10]
东吴证券:AIAgent落地速度正逐渐加速 CPU有望在Agent时代迎来大周期
智通财经网· 2026-02-02 11:25
文章核心观点 - AI Agent的加速落地与AI推理的快速发展,正从需求侧大幅拉动高端多核CPU的消耗,同时全球算力供应链的产能紧张与成本上涨从供给侧推高CPU价格,供需两侧因素共同驱动CPU产业有望迎来大周期 [1][2][3] CPU供需与价格趋势 - 受超大规模云厂商需求驱动,英特尔与AMD计划于2026年上调服务器CPU价格10%-15% [1] - 为确保利润,英特尔将核心先进制程产能大规模从消费端转向服务器,导致全球PC交付保证率大幅下滑,低端PC市场将面临供应不足 [1] - 2026年服务器CPU产能已基本售罄,公司将部分产能从PC端调配到服务器CPU以缓解供不应求 [4] 供应链成本上升因素 - DRAM生产转向HBM消耗更多晶圆,同时NAND需求攀升、交货期延长,库存告急,挤占了CPU晶圆材料供给 [2] - CPU部件PCB应用及加工材质的转变,使得钻针使用寿命缩短,消耗量暴增 [2] - CCL采用的树脂体系、玻纤布与铜箔匹配复杂,新进入者良率提升缓慢与客户认证周期长,导致有效产能释放缓慢,相关材料纷纷涨价 [2] AI发展对CPU需求的影响 - CPU负载正从“人类节奏”转向“机器节奏”,Agentic AI是动态推理、多步决策加外部工具调用的循环,比传统大模型调用更耗资源、负载更复杂、成本更高 [3] - 资源调用增长,加上为安全防范而产生的高频沙箱隔离开销,使得CPU资源消耗呈现指数级放大 [3] - Deepseek提出的Engram模块,提升了CPU用量 [3] 主要厂商战略调整 - 在英特尔2025年第四季度电话会议上,公司财务官表示正在尽可能将产能转向数据中心以满足强劲需求,表明在供应受限情况下优先满足服务器端需求 [4] - AMD在2025–2026年的服务器CPU市场份额快速增长,表明其正在将资源与产线重心从传统消费端向服务器、数据中心倾斜 [4] 相关投资标的 - CPU相关公司包括:澜起科技、海光信息、广合科技、龙芯中科、中国长城等 [4] - 数据库相关公司包括:星环科技(基于ARM优化,与NV-GPU-GraceCPU适配) [4]
最稳定的Memory、液冷产业信息
傅里叶的猫· 2026-01-30 23:50
闪迪公司最新财务与业务表现 - 公司第三财季总营收达30亿美元,环比增长31% [1] - 公司第三财季毛利率达51.1%,环比提升21个百分点 [1] - 公司数据中心业务营收环比大增64%,占总营收的15% [1] - 管理层预计后续季度将完成更多超大规模云服务商的认证工作 [1] - 公司对FY3Q26的营收指引中点为46亿美元,每股收益指引为13美元,贴合市场高位预期 [1] NAND/SSD行业需求的底层逻辑 - 以存代算:存储成为AI推理关键使能器,通过KV Cache持久化降低算力消耗 [3] - Sandisk CEO提及token intensity在加速,并估算KV cache在2027年将带来额外75-100 EB需求,一年后翻倍 [3] - 数据生成主体改变:从人类生产转向模型自生成,不受物理边界限制 [3] - Sandisk提及数据增长因“数据温度上升”而加速,对应更多数据值得被持久化存储 [3][4] - 数据重用价值提升:LLM/RAG技术唤醒历史数据,使存储率从过去的1%大幅提升 [8] - 企业级SSD加速采用,数据中心预计在2026年成为NAND最大市场,带来高60s Exabyte增长 [8] - 相同语义密度下的数据通胀:数据从明文转为embedding、KV、多模态后,容量膨胀5-1000倍 [8] - Sandisk确认AI工作负载导致存储内容要求大幅提升,与数据通胀逻辑方向一致 [8] 行业趋势与定位演变 - 四大需求逻辑叠加,使SSD/NAND从冷存外设转变为持久化算力资产 [5] - SSD/NAND的增长与GPU/HBM解耦,正独立跑出其自身的Alpha增速 [5]
平头哥芯片卖爆了!
国芯网· 2026-01-30 21:58
平头哥“真武”PPU芯片市场表现与产品信息 - 阿里巴巴旗下芯片业务平头哥的“真武”PPU芯片总出货量已达数十万片,超越寒武纪,在中国国产GPU厂商中处于领先地位[2] - 该芯片已在阿里云实现多个“万卡集群”部署,服务中国国家电网、中国科学院、小鹏汽车、新浪微博等超过400家客户[4] - 市场呈现供不应求状态,在业内口碑良好[4] “真武”PPU芯片技术规格与性能 - 芯片采用自研平行运算架构和片间互联技术,配合全栈自研软件栈,实现软硬件全自研[4] - 存储器为96G HBM2e,片间互联带宽达到700 GB/s[4] - 可应用于AI训练、AI推理和自动驾驶领域[4] - 对比关键参数,“真武”PPU的整体性能超过了英伟达A800和主流中国国产GPU,与英伟达H20相当[4] “真武”PPU芯片的应用与生态 - 阿里巴巴已将“真武”PPU大规模用于千问大模型的训练和推理[4] - 结合阿里云完整的AI软件栈进行深度优化,为客户提供一体化产品和服务[4] 平头哥公司背景与产品线 - 平头哥成立于2018年9月,是阿里巴巴集团全资半导体芯片业务主体,用以推动阿里对云端一体化的芯片布局[4] - 除真武810E外,平头哥主要产品还包括含光800 AI推理芯片、倚天710 Arm服务器CPU、镇岳510 SSD主控芯片以及羽阵超高频RFID电子标签芯片[5]
西部数据电话会:2026年产能已售罄,长约签署到2028年,AI推理正在重塑HDD估值体系
硬AI· 2026-01-30 20:45
核心观点 - 得益于价格上涨和成本下降的“剪刀差”,公司毛利率显著提升至46.1%,且增量毛利率高达约75%,盈利能力进入黄金收割期 [2][9] - 公司产能极度紧张,2026年产能已全部售罄,并与前五大客户中的三家签署了长期协议,其中两份至2027年,一份至2028年,锁定了未来的量和价 [2][4][11][13] - AI发展正从模型训练转向推理应用,推理过程将产生海量新数据,驱动对低成本HDD存储的结构性需求,为公司HDD业务带来新的增长故事 [2][19][26] - 为应对供应紧张和满足客户需求,公司已将下一代HAMR技术的客户验证时间表提前了半年,并预计其量产初期对毛利率的影响为中性甚至增益 [17][57] 财务表现与盈利能力 - **营收与利润**:2026财年第二季度营收为30.2亿美元,同比增长25%,调整后每股收益为2.13美元,同比增长78% [3][37] - **净利润**:第二财季净利润达到18.4亿美元,较去年同期的5.94亿美元增长210% [4] - **毛利率**:第二财季毛利率为46.1%,同比提升770个基点,环比提升220个基点 [35] - **增量毛利率**:CFO确认增量毛利率在75%左右,主要得益于每TB价格上涨2-3%以及每TB制造成本同比下降10%的“剪刀差”效应 [2][7][8][42][43] - **业务构成**:云业务占总收入的89%,达27亿美元,同比增长28%;客户端业务占6%,为1.76亿美元;消费级业务占5%,为1.68亿美元 [34][36] - **现金流与资本回报**:经营现金流为7.45亿美元,自由现金流为6.53亿美元,自由现金流利润率为21.6%;本季度股票回购额为6.15亿美元,自资本回报计划启动以来已向股东返还14亿美元 [37] 市场需求、产能与长期协议 - **产能状况**:2026自然年的产能已全部售罄,前七大客户2026自然年的确定性订单已全部锁定 [4][11][45] - **长期协议**:已与前五大客户中的三家签署了长期协议,两家至2027年,一家至2028年,这些协议同时包含了价格和数量条款 [2][11][13][63] - **需求驱动**:AI推理应用的普及将生成海量新数据,超大规模数据中心正将大量推理数据回流至HDD,这被视为对HDD的结构性利好 [2][19][20][59] - **出货数据**:当季向客户交付了215 EB的数据,同比增长22%,其中包括超过350万块、总计103 EB的最新一代ePMR硬盘 [33] 技术路线与产品进展 - **HAMR技术**:已将HAMR技术的首个超大规模客户验证时间表从原计划提前了半年,已于2026年1月启动验证 [17][55] - **技术信心**:管理层预计HAMR开始量产后,其起步阶段的毛利率将与现有ePMR技术持平甚至带来增益,不会拖累整体盈利能力 [17][57] - **ePMR产品**:最新一代ePMR产品(容量高达26TB CMR和32TB UltraSMR)上季度出货量超过350万块,良率在90%出头 [27][54] - **UltraSMR占比**:在近线产品组合中,UltraSMR的占比已超过50%,预计将继续增加,这对公司利润率非常有益 [51] - **创新与投资**:公司收购了相关知识产权以发展内部激光器能力,并对量子硬件公司Colab进行了战略投资 [28][29] 未来展望与战略 - **下季度指引**:预计第三财季营收为32亿美元(±1亿美元),毛利率在47%至48%之间,稀释后每股收益为2.30美元(±0.15美元) [38] - **资本配置**:公司专注于股票回购,自2025年5月宣布20亿美元回购授权以来已使用13亿美元,并计划将持有的闪迪股票变现以进一步减少债务 [47][50] - **客户关系**:公司转向以客户为中心的模式,为大型超大规模客户设立专门团队,深化了技术路线图合作和需求可见性,从而促成了更长期的协议 [49] - **行业活动**:计划于2月3日在纽约举办创新日活动,分享HAMR和ePMR的更新路线图以及财务模型 [28]
西部数据(WDC.US)2026财年第二季度电话会:2026年的产能基本已售罄
智通财经网· 2026-01-30 14:22
公司业绩与财务表现 - 2026财年第二季度营收为30亿美元,同比增长25%,每股收益为2.13美元,同比增长78% [9] - 第二季度毛利率为46.1%,同比提升770个基点,环比提升220个基点,运营费用为3.72亿美元,营业利润率为33.8% [12] - 第二季度经营现金流为7.45亿美元,资本支出为9200万美元,自由现金流为6.53亿美元,自由现金流利润率为21.6% [13] - 公司预计第三季度营收为32亿美元(正负1亿美元),同比增长约40%,毛利率预计在47%至48%之间,稀释后每股收益预计为2.30美元(正负0.15美元) [13] - 第二季度云业务收入为27亿美元,占总收入89%,同比增长28%;客户端业务收入1.76亿美元,占6%,同比增长26%;消费级业务收入1.68亿美元,占5%,同比下降3% [10][11][12] - 公司第二季度向客户交付了215 EB的数据,同比增长22%,其中包括超过350万块、总计103 EB的最新一代ePMR硬盘 [9] - 公司自2025财年第四季度启动资本回报计划以来,已通过股票回购和股息向股东返还14亿美元,第二季度支付股息4800万美元,股票回购6.15亿美元 [13] 市场需求与客户订单 - 公司2026日历年的产能基本已售罄,已与前七大客户签订了确定采购订单 [1][6] - 公司与前五大客户中的三家签订了长期协议,其中两家合作至2027日历年底,一家至2028日历年底 [6] - 首席执行官强调AI推理应用将驱动HDD需求结构性增长,推理过程生成的海量新数据需要被低成本存储 [1] - 公司认为AI从训练转向推理将创造更多数据存储需求,这对HDD的未来非常有利 [35] - 公司上个季度最新一代ePMR产品出货量超过350万块,提供高达26TB的CMR和32TB的UltraSMR容量 [6] 产品技术与创新 - 公司正通过提高硬盘面密度、加速HAMR和ePMR路线图,推动客户采用更高容量硬盘和UltraSMR技术 [5] - 公司已分别与不同的超大规模客户启动了HAMR和下一代ePMR产品的认证工作 [6] - 公司最近收购了相关知识产权、资产和人才以发展内部激光器能力,加速HAMR技术创新 [6] - 公司发布了支持UltraSMR的平台,将UltraSMR的采用范围扩大到更广泛的客户群 [6] - 公司计划在2026年2月3日的创新日活动上分享HAMR和ePMR产品的更新路线图及财务模型 [7] - 公司对Colab进行了战略投资,旨在结合双方专长推进下一代纳米制造工艺,以提高量子比特性能 [7] 运营与成本 - 公司上个季度每TB平均售价上涨了2%到3%,每TB成本同比下降了约10% [17] - 公司预计未来几个季度将保持稳定的定价环境,并继续推动毛利率扩张 [17] - 公司ePMR产品的良率持续表现良好,在90%出头的范围内,客户反馈可靠性高 [29] - 公司预计即使在2027年初开始HAMR量产,资本支出占收入的比例仍将维持在4%至6%的范围内 [33] - 公司毛利率改善得益于产品组合持续向高容量硬盘转移,以及严格的成本控制 [12] 业务战略与客户关系 - 公司采取了以客户为中心的方法,与超大规模数据中心客户紧密合作,确保大规模交付可靠、高容量硬盘 [5] - 公司已将组织重心转向大型超大规模客户,为每个客户设立专门团队,深化了技术路线图开发和需求可见性方面的关系 [23] - 公司认为与客户签订的长期协议反映了客户对公司满足其EB级存储需求的信心 [6] - 公司认为其提供的定价反映了为客户创造的价值,特别是在总体拥有成本方面的影响 [20] 产品组合与趋势 - 上个季度,在近线产品组合中,UltraSMR的占比超过了50%,且预计这一比例还会增加 [27] - 公司的前三大客户已经全面采用UltraSMR,另有两到三家正在采纳过程中 [27] - UltraSMR相比CMR有20%的容量提升,相比行业标准SMR有10%的提升,且是一个基于软件的解决方案,对利润率非常有益 [27] - 公司认为推动客户转向更高容量的硬盘,特别是UltraSMR,是支持客户需求增长的重要方式 [27] 其他公司动态 - 公司仍持有750万股闪迪股票,并计划在分拆一周年之前通过类似“债转股”的方式将其变现,收益将用于进一步减少债务 [21] - 公司自2025年5月宣布20亿美元的股票回购授权以来,已使用该计划中的13亿美元,回购了约1300万股股票 [24] - 公司已将HAMR硬盘的认证时间提前,已于本月开始与一家超大规模客户的认证,并很快将与另一家启动认证 [30][36]
西部数据电话会:2026年产能已售罄,长约签署到2028年,AI推理正在重塑HDD估值体系
华尔街见闻· 2026-01-30 12:50
核心财务表现 - 2026财年第二季度营收30.2亿美元,调整后每股收益2.13美元,双双超市场预期 [3] - 第二财季净利润达18.4亿美元(每股4.73美元),较去年同期的5.94亿美元(每股1.27美元)增长210% [3] - 第二财季毛利率同比暴增770个基点至46.1%,第三季度指引进一步看高至47%-48% [4][18] - 当季自由现金流为6.53亿美元,自由现金流利润率为21.6% [19] - 公司预计第三季度营收为32亿美元(正负1亿美元),按中值计算同比增长约40%,稀释后每股收益指引为2.30美元(正负0.15美元) [20] 盈利能力与成本控制 - 增量毛利率(Incremental Margin)维持在75%左右的高位 [4][23] - 盈利能力提升源于每TB平均售价(ASP)上涨2-3%,以及每TB制造成本同比下降约10% [4][24] - 运营费用为3.72亿美元,作为收入的百分比环比下降120个基点 [19] - 公司预计资本支出占收入的比例将维持在4%至6%的范围内 [37] 市场需求与客户订单 - 2026年产能已全部售罄,已与前七大客户签订了覆盖整个2026日历年的确定采购订单 [3][16] - 与前五大客户中的三家签署了长期协议(LTA),其中两家合作至2027日历年底,一家至2028日历年底 [5][16] - 长期协议条款中同时包含了价格和数量条件 [5][42] - 客户看到了结构性的价值转变,协议不仅锁量,更是对未来定价的认可 [5][26] 产品与技术进展 - 上个季度最新一代ePMR产品出货量超过350万块,提供高达26TB的CMR和32TB的UltraSMR容量 [14][18] - 在近线产品组合中,UltraSMR的占比超过了50%,且预计这一比例还会增加 [32] - 已将HAMR(热辅助磁记录)技术的客户验证时间表从原计划提前了半年,已于2026年1月启动了首个超大规模客户的验证 [7][35] - 公司有信心HAMR开始量产后,其毛利率起步阶段就能做到与现有ePMR技术“中性甚至增益” [7][37] AI驱动与行业趋势 - AI价值链正从“模型训练”向“推理应用”转移,推理过程生成的海量新数据需要被低成本地存储,这对HDD是结构性利好 [8][9] - 超大规模数据中心正在将大量推理数据回流至HDD [9] - 过去几个季度,公司数据交付量(EB)实现了20%出头的增长,AI推理预计将推动更多的数据存储需求 [39] - AI和云业务共同推动了对更高密度存储解决方案的探索和需求 [13] 资本回报与资产负债表 - 第二财季支付了4800万美元的股息,并将股票回购额增加至6.15亿美元,回购了380万股普通股 [19] - 自2025财年第四季度启动资本回报计划以来,已通过股票回购和股息支付向股东返还了14亿美元 [19] - 董事会已批准每股0.125美元的季度现金股息 [20] - 截至第二财季末,现金及现金等价物为20亿美元,总流动性为32亿美元,净负债为27亿美元,净杠杆与EBITDA之比远低于1倍 [19]
从拼模型到算成本,曦望用S3 GPU给出最佳答案
半导体芯闻· 2026-01-29 18:10
AI产业重心从训练转向推理 - AI产业重心正从模型训练转向推理,推理请求正成为持续消耗算力的主要负载[1] - 根据德勤报告,到2026年推理算力占比将达到66%,超过训练算力[2] - 大模型产业已迈入下半场,2025年推理Token消耗量实现百倍增长,推理算力正式超越训练算力,成为算力产业发展的核心驱动力[3] 曦望科技的战略定位与行业洞察 - 公司是国内第一家All in推理的GPU芯片公司,使命是把大模型推理做到极致[2] - 行业正发生三大根本性改变:需求端结构性转变(推理成为主力)、应用场景质变(高频实时交互)、成本结构倒逼(推理成本占AI应用成本高达70%)[2] - 公司选择反向创新道路,将单位Token的成本、能耗及SLA服务稳定性作为芯片设计的核心出发点,目标是实现推理成本90%的降幅[2] - 推理GPU的竞争关键在于能否将硬件能力稳定转化为可交付、可计价的推理算力[7] 启望S3芯片的核心技术创新 - 芯片支持FP16、FP8、FP6、FP4等全系列低精度算力,单芯片推理性能较行业同类产品提升五倍[6] - 芯片是国内首款搭载LPDDR6的GPGPU推理专用芯片,采用大容量DDR替代HBM[4][6] - 芯片采用先进工艺节点并搭载最新高速接口IP[6] - 公司较早提出以大容量DDR替代HBM、以高性价比推理专用芯片替代训推一体芯片的战略[4] 寰望SC3超节点解决方案 - 方案对标千亿、万亿参数多模态MoE模型的实际部署需求,支持单域256卡一级互联[6] - 方案可高效适配PD分离架构与大EP规模化部署,提升系统利用率与运行稳定性,匹配长上下文、高并发等复杂场景[6] - 方案采用全液冷设计,可实现极致PUE,支持模块化交付与快速部署[6] - 在同等推理算力水平下,该方案可将整体系统交付成本从行业普遍的亿元级降至千万元级,实现成本一个数量级的下降[6] 软件与生态兼容性 - 公司打造全栈自研软件平台,全面对齐并兼容CUDA生态,支持用户代码无缝迁移[7] - 通过对CUDA底层驱动、Runtime、编译器、工具链的全面兼容,结合极致优化的算子库与通信库,提供GPU应用的快速迁移服务[7] - 启望S3已完成对ModelScope平台90%以上大模型的适配,涵盖商汤日日新、DeepSeek、通义千问、GLM等主流模型,累计适配国内外百余种大模型[7] AI原生智算平台与商业模式 - 公司推出新一代AI原生智算平台,核心优势为软硬件深度协同、资源极致弹性、开箱即用及稳定可靠的运维保障[11] - 平台采用先进的量化压缩技术,在几乎不损失精度的前提下将推理性能提升250%[12] - 平台通过GPU池化技术、动态扩缩容技术、智能负载预测技术实现算力高效利用[12][13] - 公司打造MaaS平台,支持模型一键调用和定制化优化,解决模型适配难题[13] - 平台实现全链路智能化管理,千卡集群可用性达99.95%,可连续运行60天无计划外中断,故障处理实现“1分钟发现、3分钟定位、5分钟恢复”[13] - 公司构建绿色算力优势,涵盖高能效比芯片设计、锁定长期廉价核电资源、精细化运营三个维度[14] - 商业模式是芯片硬实力加云基建软实力的Token as a Service模式,可提供公共、定制化、混合Token服务[14] 产业合作与生态建设 - 商汤科技董事长徐立指出,推理成本过去两年下降280倍,是推动AI产业爆发的关键转折点,芯片与模型的深度协同是降本核心[15] - 徐立认为曦望通过架构优化和推理任务专注,已实现视频实时生成,性价比优势持续凸显[15] - 第四范式创始人戴文渊透露,在中交蓝翼大模型适配项目中,曦望算力成本低至每百万Token 0.57元[15] - 公司与商汤科技、第四范式深度合作,共同向“百万Token一分钱”的算力成本目标迈进[16] - 公司与杭钢数字科技、浙江算力科技等本土算力平台合作,完善全国算力网络布局[16] - 公司与三一、协鑫、游族等十余家跨领域生态伙伴签约,推动推理算力嵌入智能制造、能源服务、C端消费、机器人等多元产业场景[16] - 公司与浙江大学签约成立“浙江大学曦望智能计算联合研发中心”,聚焦光互联GPU超节点架构、半导体虚拟制造等领域开展联合攻关[17] 未来展望与产业影响 - 在推理时代,算力竞争核心已从“拼峰值”转向“算单位成本”[18] - 公司正通过芯片架构重构、系统级优化和生态协同,将“百万Token一分钱”从愿景变为现实[18] - 随着S3芯片在2026年底量产,S4、S5陆续推进,中国AI产业的成本曲线正在被重写[18] - 当推理算力变得便宜、稳定、到处可用,AI才能真正成为普惠的基础设施,推动千行百业的智能化转型[18]