元脑HC1000超扩展AI服务器
搜索文档
推理成本打到1元/每百万token,浪潮信息撬动Agent规模化的“最后一公里”
量子位· 2025-12-26 12:24
行业核心趋势 - 全球AI产业已从模型性能竞赛进入智能体规模化落地的“生死竞速”阶段,“降本”成为决定AI企业能否盈利、行业能否突破的核心命脉 [1] - 当前AI时代处于临界点,token成本下降是推动应用生态爆发的关键,类似互联网“提速降费”的历史进程 [7] - 技术进步促使token单价下滑,但单任务对token的需求呈指数级增长,若成本下降速度跟不上消耗增长,将面临更高费用投入,经济学中的“杰文斯悖论”正在token经济中重演 [8] - 要让AI真正成为“水电煤”般的基础资源并进入规模化普惠阶段,token成本必须在现有基础上实现数量级的跨越,成本能力将从“核心竞争力”升级为“生存入场券” [4][5][11] 成本挑战与瓶颈 - 现阶段token成本80%以上来自算力支出,阻碍成本下降的核心矛盾在于推理负载与训练负载不同,沿用旧架构导致“高配低效” [12] - 核心瓶颈之一是算力利用率(MFU)严重倒挂:训练阶段MFU可达50%以上,而推理阶段由于自回归解码特性,实际MFU往往仅为5%-10%,造成巨大算力闲置 [14] - 核心瓶颈之二是“存储墙”问题:随着上下文长度增加,KV Cache呈指数级增长,占用大量显存并导致高功耗,存算分离成为阻碍成本下降的重要瓶颈 [15][16] - 核心瓶颈之三是网络通信代价高昂:当模型规模突破单机承载能力时,跨节点通信可能占据总推理时间的30%以上,推高了总拥有成本(TCO) [17] 市场需求与规模 - 字节跳动旗下豆包大模型截至今年12月日均token使用量突破50万亿,较去年同期增长超过10倍,相比2024年5月刚推出时增长达417倍 [13] - 谷歌在10月披露其各平台每月处理的token用量已达1300万亿(相当于日均43.3万亿),而一年前月均仅为9.7万亿 [13] - 当使用量达到“百万亿token/月”量级时,每百万token成本仅下降1美元,就可能带来每月1亿美元的成本差异 [10] - 当前主流大模型的token成本依然高昂,以输出百万token为例,Claude、Grok等模型价格普遍在10-15美元,国内大模型也多在10元以上,高昂成本让大规模商业化应用面临严峻ROI挑战 [19][20] 解决方案与技术创新 - 降低token成本的核心不是“把一台机器做得更全”,而是围绕目标重构系统,将推理流程拆细,支持P/D分离、A/F分离、KV并行、细粒度专家拆分等计算策略,让不同计算模块在不同卡上按需配置并发,提升每张卡的负载和产出 [18] - 浪潮信息推出元脑HC1000超扩展AI服务器,基于全新设计的全对称DirectCom极速架构,采用无损超扩展设计,可高效聚合海量本土AI芯片,支持极大推理吞吐量,将推理成本首次击穿至1元/每百万token [2][23] - 元脑HC1000的DirectCom极速架构每计算模组配置16颗AIPU,采用直达通信设计,解决传统架构的协议转换和带宽争抢问题,实现超低延迟,计算通信1:1均衡配比,实现全局无阻塞通信 [25] - 该架构支持超大规模无损扩展,通过算网深度协同、全域无损技术实现推理性能1.75倍提升,通过对大模型计算流程细分和模型结构解耦,实现计算负载灵活按需配比,单卡MFU最高可提升5.7倍 [27] - 通过自适应路由和智能拥塞控制算法,提供数据包级动态负载均衡,将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍 [29] 未来发展方向 - 当前1元/每百万token的成本突破仅是阶段性胜利,面对未来token消耗量指数级增长、复杂任务token需求激增数十倍的趋势,现有成本水平仍难支撑AI的普惠落地 [4] - 若要实现单token成本的持续、数量级下降,需要推动计算架构的根本性革新,要求整个AI产业的产品技术创新从当前的规模导向转为效率导向 [29] - 未来需从根本上重新思考和设计AI计算系统,发展AI专用计算架构,探索开发大模型芯片,推动算法硬件化的专用计算架构创新,实现软硬件深度优化 [29]
浪潮信息刘军:AI产业不降本难盈利,1元钱/每百万Token的成本还远远不够!
环球网资讯· 2025-12-25 14:30
行业背景与核心挑战 - 全球AI产业已从模型性能竞赛进入智能体规模化落地的关键阶段,“降本”成为决定企业盈利与行业突破的核心命脉[1] - 当前AI推理成本依然高昂,主流大模型如Claude、Grok输出百万token价格在10-15美元,国内模型也多在10元以上,高昂成本使大规模商业化面临严峻ROI挑战[10] - 未来token消耗量将呈指数级增长,复杂任务需求可能激增数十倍,若成本下降速度跟不上消耗增长,企业将面临更高费用投入,经济学中的“杰文斯悖论”正在token经济中重演[1][3] - 来自行业的数据佐证了token消耗的激增趋势:字节跳动豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍,较2024年5月推出时增长达417倍;谷歌各平台每月处理token用量达1300万亿(日均43.3万亿),而一年前月均仅为9.7万亿[4] - 当使用量达到“百万亿token/月”量级时,每百万token成本仅下降1美元,就可能带来每月1亿美元的成本差异,token成本直接决定了智能体的盈利能力[7] 成本高企的结构性瓶颈 - 现阶段token成本80%以上来自算力支出,阻碍成本下降的核心矛盾在于推理负载与训练负载不同,沿用旧架构导致“高配低效”[7] - 瓶颈一:算力利用率严重倒挂,训练阶段MFU可达50%以上,而推理阶段因自回归解码特性,GPU大部分时间在等待数据搬运,实际MFU仅为5%-10%,造成巨大算力闲置[8] - 瓶颈二:“存储墙”瓶颈在推理场景下被放大,随着上下文长度增加,KV Cache呈指数级增长,占用大量显存并导致高功耗,存算分离及对昂贵HBM的依赖成为成本下降障碍[8] - 瓶颈三:网络通信与横向扩展代价高昂,当模型规模突破单机承载能力时,跨节点通信可能占据总推理时间的30%以上,企业被迫堆砌更多资源以维持响应速度,推高总拥有成本[8] 解决方案与架构革新方向 - 降低token成本的核心不是“把一台机器做得更全”,而是围绕目标重构系统,将推理流程拆细,支持P/D分离、A/F分离、KV并行、细粒度专家拆分等策略,让不同计算模块在不同卡上按需配置并发,打满每张卡负载,降低“卡时成本”,提高“卡时产出”[9] - 需要推动计算架构的根本性革新,将AI产业的产品技术创新从规模导向转为效率导向,从根本上重新思考和设计AI计算系统,发展AI专用计算架构,探索开发大模型芯片,推动算法硬件化的专用计算架构创新,实现软硬件深度优化[16] 浪潮信息元脑HC1000产品突破 - 浪潮信息推出元脑HC1000超扩展AI服务器,基于全新设计的全对称DirectCom极速架构,采用无损超扩展设计,可高效聚合海量本土AI芯片,支持极大推理吞吐量,将推理成本首次击穿至1元/每百万token[1][12] - 该产品创新设计DirectCom极速架构,每计算模组配置16颗AIPU,采用直达通信设计,解决传统架构的协议转换和带宽争抢问题,实现超低延迟;计算通信1:1均衡配比,实现全局无阻塞通信;全对称系统拓扑支持灵活的PD分离、AF分离方案,按需配置计算实例,最大化资源利用率[14] - 产品支持超大规模无损扩展,通过算网深度协同、全域无损技术实现推理性能1.75倍提升,并通过计算流程细分和模型结构解耦实现计算负载灵活按需配比,单卡MFU最高可提升5.7倍[16] - 产品通过自适应路由和智能拥塞控制算法,提供数据包级动态负载均衡,实现KV Cache传输和All to All通信流量的智能调度,将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍[16] 未来展望与行业意义 - 当前1元/每百万token的成本突破仅是阶段性胜利,面对未来token消耗的指数级增长,现有成本水平仍难支撑AI的普惠落地[1] - 要让AI真正成为如同“水电煤”般的基础资源并进入规模化普惠阶段,token成本必须在现有基础上实现数量级的跨越[1][7] - 成本能力将从“核心竞争力”进一步升级为“生存入场券”,直接决定AI企业在智能体时代的生死存亡[1] - 此次成本突破有望打通智能体产业化落地“最后一公里”的成本障碍,并将重塑AI产业竞争的底层逻辑[1]
浪潮信息(000977):高基数下业绩韧性十足,前瞻指标显示需求景气
民生证券· 2025-11-02 20:48
投资评级 - 报告对浪潮信息维持“推荐”评级 [3][4] 核心观点 - 公司在2024年三季度创下历史新高的业绩基数下,2025年三季度业绩基本保持持平,显示出韧性 [1] - 存货和合同负债等前瞻指标保持高速增长,印证算力行业需求景气度仍保持高位 [2] - 公司发布新一代AI服务器产品,全面拥抱AI时代,巩固服务器领域龙头地位 [3] - 预计AI算力投资保持高景气,公司当前估值仍有提升空间 [3] 2025年三季度业绩表现 - 2025年前三季度实现营收1206.69亿元,同比增长44.85%;实现归母净利润14.82亿元,同比增长15.35% [1] - 2025年第三季度单季实现营收404.77亿元,同比下滑1.43%;实现归母净利润6.83亿元,同比下滑1.99% [1] - 2025年第三季度单季毛利率为5.6%,前三季度整体毛利率为4.9%,同比下滑1.8个百分点 [2] 财务与运营指标 - 2025年前三季度存货达576.54亿元,同比增长50% [2] - 2025年前三季度合同负债达315.45亿元,同比增长约1083% [2] - 2025年前三季度销售、管理、研发费用分别为9.38亿元、5.91亿元、24.70亿元,同比变动分别为-8.5%、+10.9%、+8.0% [2] 产品与战略发展 - 公司在2025人工智能计算大会(AICC)上发布了元脑SD200超节点AI服务器和元脑HC1000超扩展AI服务器两大创新系统 [3] - 新产品旨在引领国内服务器AI推理进入“10毫秒、1块钱”时代 [3] - 公司围绕人工智能+落地,与生态伙伴创立多个创新生态联合体,展示全栈智算产品与解决方案 [3] 盈利预测与估值 - 预计公司2025-2027年归母净利润分别为28.79亿元、35.57亿元、42.61亿元 [3][6] - 当前市值对应2025/2026/2027年的PE估值分别为33倍、27倍、23倍 [3][6] - 预计2025-2027年每股收益分别为1.96元、2.42元、2.89元 [6] - 预计2025-2027年营业收入增长率分别为23.70%、16.20%、16.41% [6][7]
浪潮信息:公司在2025人工智能计算大会上,亮相了元脑SD200超节点AI服务器等创新系统
每日经济新闻· 2025-10-27 12:04
公司产品发布 - 公司在2025人工智能计算大会上亮相了元脑SD200超节点AI服务器和元脑HC1000超扩展AI服务器两大创新系统 [1] 行业技术影响 - 公司的创新系统引领国内服务器的AI推理性能进入“10毫秒、1块钱”时代 [1]
1元/百万token,8.9ms生成速度,Aengt落地“成本账”与“速度账”都要算丨ToB产业观察
钛媒体APP· 2025-09-29 16:12
文章核心观点 - AI智能体商业化落地的核心要素是交互速度、token成本和模型能力,其中速度和成本是当前制约规模化应用的关键瓶颈 [3][7] - 浪潮信息通过其元脑系列AI服务器产品,在降低延迟和成本方面取得显著进展,旨在为智能体从AGI向ASI演进提供算力基础设施支持 [2][5][10] 速度对智能体商业化的影响 - 交互速度是智能体商业化应用落地的第一要义,直接决定其商业价值和用户体验,在高频的“智能体-智能体”协作中,延迟会导致决策失效或机会错失 [3] - 行业面临显著延迟挑战:IDC报告显示37%已部署GenAI的企业中,超60%反馈实时交互应用响应延迟超预期 [4] - 具体场景对延迟有严苛要求:金融场景如股票交易、风险监测需小于10ms,而当前多数AI Agent服务延迟在15ms以上;电商场景中2-3秒延迟可使转化率下降40% [4][5] - 智能体数量指数级增长后,模型叠加会造成延迟累积,最终可能导致应用延迟不可接受,低延迟是智能体商业化的前提 [5] - 浪潮信息元脑SD200超节点AI服务器将国内大模型token生成延迟从最低15ms降至8.9ms,创国内最快记录 [2][5] 成本对智能体规模化的制约 - Token成本是影响Agentic AI能否实现规模化落地的关键经济因素,高昂成本使企业无力承担智能体应用支出 [7] - Token消耗量急剧增长:AI辅助编程应用月消耗token数相比1年前平均增长约50倍,达1000万到5亿token;企业部署一个智能体平均token成本约1000-5000美元 [7] - 主流模型token成本差异显著:OpenAI GPT-5输出token成本为每百万10.00美元,而DeepSeek-V3输出每百万token成本仅为12元人民币,经济性更优 [8] - 浪潮信息元脑HC1000超扩展AI服务器通过技术创新,将每百万token成本从超过10元人民币降至仅1元人民币 [2] 算力基础设施的技术创新 - 降低延迟的技术路径在于优化底层算力系统架构和互联协议,避免通信过程中的瓶颈,如同拓宽高速公路的入口和出口至16车道以实现全程高速 [6] - 通过PD分离技术将Prefill和Decode阶段解耦,避免资源竞争,并进一步对Decode阶段进行模块化精细拆解,实现算效成倍提升和成本节省 [9] - 采用软硬结合的“解耦+适配”策略,元脑HC1000通过16卡计算模组等设计,实现推理性能相比传统RoCE提升1.75倍,单卡模型算力利用率最高提升5.7倍 [10] - 计算架构的持续革新是推动AI从AGI向ASI演进的核心引擎 [10]
8.9ms,推理速度新记录!1块钱百万token,浪潮信息AI服务器加速智能体产业化
量子位· 2025-09-29 12:57
产品发布与技术创新 - 浪潮信息发布超扩展AI服务器元脑HC1000 显著降低AI推理成本[2] - 推出元脑SD200超节点AI服务器 将DeepSeek-R1的Token生成时间缩短至毫秒级[3] - 元脑SD200采用多主机3D Mesh系统架构 显存统一地址空间扩增8倍 支持单机64路纵向扩展[19] - 元脑SD200通过极简三层协议栈实现百纳秒级通信延迟 并支持硬件级链路层重传[21][22] - 元脑HC1000通过计算流程解耦设计 将推理Prefill和Decode阶段分离 提升资源利用效率[38][39] - 元脑HC1000采用16卡计算模组设计 实现单卡成本降低60% 系统均摊成本降低50%[27][40] 性能突破与效率提升 - 元脑SD200将大模型端到端推理延迟控制在10ms以内 DeepSeek-R1的TPOT仅8.9ms[10] - 元脑SD200实现DeepSeek-R1 671B推理最高16.3倍超线性扩展率[10][25] - 元脑HC1000推理性能相比传统RoCE提升1.75倍 单卡算力利用率最高提升5.7倍[41] - 元脑HC1000将每百万Token输出成本降至1元人民币[27] 行业趋势与应用场景 - AI竞赛进入智能体产业化阶段 能力/速度/成本成为核心竞争要素[5] - 智能体时代Token消耗量暴增 辅助编程场景月消耗量同比增长50倍[30] - 企业部署单个智能体月均Token成本达5000美元 未来5年将呈指数级增长[31][32] - 金融交易等场景对响应时效要求苛刻 反欺诈算法需在10毫秒内完成风险识别[16] 架构演进与未来方向 - 通用GPGPU架构面临系统规模/电力压力/算效不平衡三大挑战[46][47] - 行业需从规模导向转向效率导向 发展AI专用计算系统[48] - 专用架构效率高但应用面窄 通用架构易推广但效率低 需协同发展[49] - 公司将针对核心算法算子进行硬件化设计 实现性能数量级提升[52]