大模型推理
搜索文档
SemiAnalysis GTC深度解读:三款新系统背后,英伟达正在重新定义AI基础设施的边界
华尔街见闻· 2026-03-24 21:01
英伟达战略转型与新产品发布 - 在GTC 2026大会上,英伟达推出三款全新系统——Groq LPX推理机架、Vera ETL256 CPU机架与STX存储参考架构,标志着公司正从GPU供应商向全栈AI基础设施平台商演进,其产品版图向低延迟推理、CPU编排与存储层全面延伸[1][2] Groq LPX推理系统 - Groq LPX是英伟达以**200亿美元**完成对Groq知识产权授权与核心团队引进后,不到四个月内推出的首款产品化成果[1] - 该系统将Groq的LP30芯片与英伟达GPU深度整合,并引入“注意力与前馈网络解耦”(AFD)技术,旨在高交互推理场景中压缩解码延迟[1] - LPX机架由32个2U计算托盘与2台Spectrum-X交换机构成,每个计算托盘搭载**16块LP30芯片**、**2块Altera FPGA**、**1颗Intel Granite Rapids CPU**及**1块BlueField-4前端模块**,整个机架的规模扩展带宽总计约**640TB/s**[9] - 机架采用液冷设计,包含**2个1U 90kW电源架**,计算托盘以“腹对腹”方式安装于PCB板两侧以实现全互联[9][10] LP30芯片技术细节 - LP30芯片采用三星SF4工艺,配备**500MB片上SRAM**,在FP8精度下算力为**1.2 PFLOPS**,相较于Groq第一代LPU(**230MB SRAM**,**750 TFLOPS INT8**)实现大幅提升[3] - 该芯片以单一整体裸片形式存在,无需先进封装,且SF4工艺不挤占英伟达在台积电N3上的稀缺产能,也不消耗HBM资源,代表增量产能与收入[3] LPU架构价值与AFD技术 - LPU架构的核心优势在于高带宽SRAM与确定性流水线执行机制,在单用户低延迟场景下具备GPU难以企及的首token生成速度,但在大规模token服务上吞吐量弱于GPU[4] - AFD技术将大模型推理中的注意力计算与前馈网络计算拆分至不同硬件:GPU处理涉及动态KV Cache的注意力计算,LPU则承担无状态、可静态调度的FFN计算[7] - 在此框架下,GPU的HBM容量得以充分释放用于KV Cache,提升系统可并发处理的token总量,而LPU发挥其低延迟优势,两者通过All-to-All集合通信与乒乓流水线方式协作[7] - LPU还可在投机解码框架中部署草稿模型,通常可将每次解码步骤的输出token数提升至**1.5至2倍**[7] Vera ETL256 CPU系统 - 随着AI工作负载对数据预处理、调度编排和强化学习验证的需求攀升,CPU正成为制约GPU利用率的新瓶颈[11] - Vera ETL256系统将**256颗Vera CPU**集成于单一液冷机架,通过铜缆拓扑实现机架内全互联,旨在消除对光收发器的需求以节约成本[12] - 机架由32个计算托盘构成,以4个1U MGX ETL交换托盘为中轴对称排列,每个计算托盘承载**8颗Vera CPU**,机架内网络采用Spectrum-X多平面拓扑实现全互联[12] STX存储参考架构 - STX是英伟达发布的存储参考机架架构,与此前推出的CMX上下文存储平台配套,共同构成公司向存储基础设施层渗透的完整布局[14] - 该架构精确规定了一个集群中需要配置的磁盘驱动器、Vera CPU、BF-4 DPU、CX-9网卡和Spectrum-X交换机的数量[14] - 每个STX机箱内含**2个BF-4单元**,合计**2颗Vera CPU**、**4块CX-9网卡**和**4个SOCAMM模块**;整个STX机架共**16个机箱**,对应**32颗Vera CPU**、**64块CX-9网卡**和**64个SOCAMM**[14] - 英伟达点名包括DDN、Dell、HPE、IBM、NetApp、Supermicro及VAST Data在内的一批主要存储厂商将支持STX标准[14] 行业影响与竞争格局 - 三款新系统共同表明英伟达的战略触角已覆盖推理优化、CPU密度、存储编排等此前由其他厂商主导的领域,这将深刻影响整个AI硬件供应链的竞争格局[2] - BlueField-4、CMX与STX的组合,代表英伟达在完成算力层与网络层的主导地位后,正系统性地向存储层、软件层和基础设施运营层推进[16] - 三款系统合力拓宽了英伟达的产品护城河,意味着AI基础设施供应链中更大比例的市场份额将持续向英伟达集中[16]
LPU专题报告一:架构创新突破大模型推理延迟瓶颈,广阔市场空间有望快速放量
财通证券· 2026-03-16 14:45
报告行业投资评级 - 行业投资评级为“看好”,并予以“维持” [2] 报告核心观点 - LPU是专为大模型推理阶段设计的新型芯片架构,其核心在于TSP架构,该架构将经典的处理器五级流水线拆散在整个芯片内,消除了硬件复杂性,使指令执行顺序和时间具有确定性,实现了软件定义硬件 [3] - LPU具备更快的内存带宽,可缩短大模型推理过程中的延迟,提高用户体验感,同时还能提供更具性价比的价格 [7] - Tokens消耗量大幅增长,带动推理芯片市场规模高增长,LPU具备广阔的潜在发展空间,目前已步入量产初期 [7] - 投资建议看好LPU的高成长性及LPU以机柜出货形式带来的PCB机会,建议关注智微智能、星宸科技、沪电股份、胜宏科技、深南电路等公司 [7] 根据目录总结 1 LPU面向大模型推理阶段,TSP架构为核心 - LPU是一款专用于大模型推理阶段的定制芯片,由Groq公司推出,旨在通过架构创新优化语言模型的推理效率 [11] - LPU采用14nm制程工艺,集成了230MB容量的SRAM,片上内存带宽高达80TB/s,其整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs [14] - LPU的核心是TSP架构,该架构包含五大功能切片:MXM(矩阵运算)、SXM(矢量移位/旋转)、MEM(内存读写)、VXM(向量算术运算)和ICU(指令控制单元) [17] - TSP架构将经典的处理器五级流水线拆散在整个芯片内,指令垂直下发,数据水平流动,消除了硬件复杂性,使指令执行顺序和时间具有确定性 [22][26] - TSP架构实现了软件定义硬件,编译器可以直接访问并精确控制芯片的底层硬件状态,从指令调度、数据流控制、存储管理三个维度定义芯片行为 [30][32] - Groq的系统架构由GroqChip、GroqCard、GroqNode、GroqRack构成,单节点内采用Fullmesh拓扑,单机柜内采用Dragonfly拓扑 [32][36] 2 LPU可缩短大模型推理过程中的延迟,提高用户体验感 - 大模型推理过程分为Prefill(预填充)和Decode(解码)两个阶段,Decode阶段是逐个生成Token的顺序过程 [42] - 衡量大模型推理性能的关键指标包括延迟、吞吐量和利用率,其中延迟与用户体验感紧密挂钩,决定了用户感知模型生成输出的速度 [51][54] - 大模型推理过程中90%以上的时间耗费在Decode阶段,其核心瓶颈在于内存带宽,而非计算峰值 [61] - LPU采用SRAM作为存储介质,解决了大模型推理阶段面临的内存带宽受限问题,其理论带宽约80TB/s,远高于采用HBM3e(8TB/s带宽)的NVIDIA B200芯片 [62][63] - 基于LPU的大模型具有更快的推理速度,例如Groq推出的Mixtral 8×7B Instruct API每秒可处理约430个Token,且每百万Token的价格仅为0.27美元,性价比突出 [64] 3 LPU具备广阔潜在发展空间,已步入量产初期 - Tokens消耗量大幅增长,带动推理芯片市场规模高增长:2024年初中国日均Token消耗量为1000亿,2025年中突破30万亿,2026年2月主流大模型合计日均Token消耗已达180万亿级别 [69] - 据QYResearch数据,2024年全球推理AI芯片市场规模约为142.1亿美元,预计2031年将达到690.1亿美元,2025-2031年CAGR为25.7% [69] - 据星宸科技,2026年全球AI芯片市场规模预计达2800亿美元,其中推理芯片占比52%,规模约1450亿美元,年复合增速超50% [70] - 海外方面,Groq已进入量产初期,其第一代LPU(14nm)已量产,第二代LPU(三星4nm)计划于2025年全面量产,并与英伟达签订了非独家推理技术许可协议 [71][73][74] - 国内方面,元川微为LPU架构先行者,已推出面向大模型、多模态和端侧应用场景的Mountain、River两大系列LPU+产品 [74] 4 投资建议 - 报告认为LPU受益于低推理延时的优异表现,有望在推理芯片市场实现快速渗透 [7] - 看好LPU的高成长性以及LPU以系统架构(机柜)出货形式所带来的PCB相关投资机会 [75] - 建议关注的公司包括:智微智能(参股元川微)、星宸科技(多轮增资元川微)、沪电股份(英伟达PCB供应商)、胜宏科技(英伟达PCB供应商)、深南电路(英伟达PCB供应商) [4][7][75]
独家丨直指2000 Tokens/s,北大系「流式推理芯片」公司完成数千万元融资
雷峰网· 2026-03-09 08:35
公司融资与背景 - 国内AI推理芯片创业公司寒序科技完成数千万元融资,投资方为启高资本、赛意产业基金,源合资本担任独家财务顾问 [2] - 公司成立于2023年8月,源于北京大学磁学中心,核心团队是国内首个能跑通从物理、材料、器件到异质集成、芯片设计、算法的交叉团队 [3] 产品技术与性能 - 公司专注于超快流式推理芯片,产品定义聚焦于推理速度,核心理念为“唯快不破”,不做GPU,不卷通用训练 [2][3] - 首颗AI推理芯片(SpinPU-E Series)样片测试结果“非常理想”,其关键指标“单位面积带宽”与Groq LPU披露一致,达到100 GB/s/mm²,这是实现2000Tokens/s速度的底气 [2] - 下一代芯片已在流片中,采用“片上MRAM+SRAM”和“确定性流式乘加单元”技术,目标性能指向2000Tokens/s以上,而目前主流对话模型推理速度仅约30-50Tokens/s [2] - 公司的方案被业界认为是最贴近Groq方案的超大带宽流式处理芯片 [3] 行业定位与竞争 - 公司的单位面积带宽指标是当前AI推理芯片竞争中最具辨识度的硬指标之一,被评价为国内少有的、真正沿着Groq方向发展的团队 [2][3] - 业内传闻NVIDIA已以约200亿美元估值级别锁定Groq的推理技术合作,并计划在NVIDIA GTC 2026发布的新一代AI推理系统中采用Groq芯片设计 [3] 公司发展现状 - 公司此前较为低调,过去两年未对外系统披露产品进展,近期开始对外释放信息的重要背景是其关键技术与样片验证已度过最危险阶段 [2][3] - 目前,公司的新一轮融资已在推进中 [3]
网易游戏 Tmax 平台实践:基于 Fluid 的云原生 AI 大模型推理加速架构
AI前线· 2026-03-03 12:05
文章核心观点 网易游戏为应对大模型推理业务带来的资源弹性、数据访问效率与多地域协同挑战,选择并落地了基于云原生数据编排平台Fluid的解决方案,成功构建了“计算-缓存-存储”三层解耦架构,实现了显著的性能加速、成本节约与运维简化,为游戏行业AI基础设施现代化提供了实践范例 [3][6][20][34] 行业背景与公司挑战 - 大模型正深刻改变游戏行业,在NPC智能化、自动化剧情生成等场景成为核心竞争力 [3] - 网易游戏业务数据与场景日益复杂,为支持生成式AI业务,公司打造了Tmax AI机器学习平台 [3] - 随着大模型推理业务规模爆发,平台在资源弹性、数据访问效率与多地域协同方面面临严峻挑战 [6] - 挑战具体表现为:GPU资源稀缺且异构、业务峰值差异导致资源浪费率高达60%以上、Serverless冷启动因模型加载耗时10-15分钟而失效、以及多地域存储管理与计算资源碎片化 [8][9][10][11] 技术方案选型 - 针对大模型推理的多地域缓存加速需求,评估了直接使用Alluxio与基于Fluid构建解决方案两种路径 [12][13] - Alluxio本质是分布式缓存引擎,提供内存级数据访问能力 [14] - Fluid是基于Kubernetes的云原生数据编排平台,以“数据集”为中心进行抽象,深度集成于Kubernetes生态 [15] - 选择Fluid的核心判断包括:其“数据集”抽象更贴近AI应用模式、能封装Alluxio的运维复杂性、针对AI/ML场景进行了专门优化、与云原生生态集成更好、以及多Runtime架构避免技术依赖 [19] 落地实践与架构设计 - 基于Fluid构建了“计算 - 缓存 - 存储”三层解耦架构:底层为CubeFS/OSS存储,中间为Fluid+AlluxioRuntime构建的分布式缓存加速层,上层为Kubernetes集群计算层 [20] - 实施了自动预热机制,针对DeepSeek-R1等超大模型启用预取功能以缩短冷启动时间 [22] - 结合CronHorizontalPodAutoscaler与Fluid DataLoad实现智能弹性,根据游戏业务早晚高峰特征进行“潮汐式”全自动化管理 [23] - 利用Fluid的跨Namespace共享能力,解决了公共模型仓库与多业务项目组并存场景下的资源冗余与管理混乱问题 [24][25] 实施收益与效果 - **性能加速**:大模型加载耗时从基线(跨地域直连存储)的36分钟,经传统Alluxio优化后缩短至14分钟,最终通过Fluid智能预读降至3分钟,实现12倍的性能提升,使Serverless算力具备生产可用性 [28][33] - **成本节约**:通过跨Namespace数据共享机制,缓存层内存占用降低60%-80%;通过“潮汐式”自动伸缩,整体GPU资源闲置率降低了约20% [27][29][33] - **稳定性提升**:Fluid缓存层充当流量“挡板”,消除了数百个Pod并发启动时对底层存储的“惊群效应”冲击,保障了高并发下的服务稳定性和P99延迟 [30][33] - **效率提升**:为算法团队提供了统一的数据访问接口和环境一致性体验,基础设施复杂度被透明化 [31][33]
Open AI获超千亿美元投资;涨价太快存储商调整付款方式 | 科技风向标
21世纪经济报道· 2026-02-28 11:07
巨头动向与融资 - OpenAI宣布获得1100亿美元新投资 投前估值达7300亿美元 投资方包括软银300亿美元 英伟达300亿美元 亚马逊500亿美元 [2] - OpenAI与亚马逊达成战略合作 与英伟达达成下一代推理计算技术合作协议 [2] - 新一轮融资使OpenAI基金会持有的OpenAI集团股份价值超过1800亿美元 [2] 人工智能与硬件 - DeepSeek团队联合清华 北大发表论文 提出DualPath推理系统 将离线推理吞吐量最高提升1.87倍 在线服务每秒智能体运行数平均提升1.96倍 [5] - 阿里巴巴旗下“千问”将进军AI硬件 计划在2026年MWC发布首款AI眼镜 并将在年内发布AI指环 AI耳机等产品 [6] - 魅族否认手机业务停摆 但将暂停国内手机新产品自研硬件项目 转向以AI驱动软件产品为主导的战略转型 [10] 半导体与芯片 - 群联电子称因AI基建带动NAND需求 主要供应商已调整付款条件 要求预付款或缩短付款期限 [12] - 晶科电子拟出资2.68亿元参与设立总规模6.68亿元的基金 占出资额40.12% 该基金将重点布局第三代半导体产业 [13] - 精智达拟定增募资不超29.59亿元 用于半导体存储测试设备产业化 技术研发及补充流动资金等项目 [14] 公司业绩表现 - 寒武纪2025年实现营收64.97亿元 同比增长453.21% 净利润20.59亿元 实现上市后首次全年盈利 [15] - 摩尔线程2025年实现营收15.05亿元 同比增长243.37% 归母净利润-10.24亿元 亏损同比收窄36.70% [16] - 沐曦股份2025年实现营业总收入16.44亿元 同比增长121.26% 归母净利润为-7.81亿元 [17] 行业动态与监管 - 影石创新在美国“337调查”中赢得最终裁决 仅部分产品涉及一项外观专利 但新设计方案被认定未侵权 公司称调查未造成实质性影响 [4] - 淘宝闪购回应网络餐饮新规 称将积极执行并建设“3+1+AI”食品安全共治体系 [9] - 中国载人航天工程办公室计划2026年实施2次载人飞行任务 1次货运飞船补给任务 港澳地区航天员有望最早于今年执行任务 [11] 市场传闻与资本动态 - 市场传闻字节跳动旗下懂车帝正考虑在香港IPO 筹资10亿至15亿美元 公司方面称“暂时不回应” [7][8]
未知机构:从训练走向极致推理LPU架构重塑算力底座东北计算机范式转移-20260228
未知机构· 2026-02-28 10:55
**涉及的行业与公司** * **行业**: 人工智能算力硬件、半导体、印刷电路板(PCB)及上游材料行业[1][2] * **公司**: 提及的硬件架构与设计公司包括**英伟达**、**Groq**、**Google**[1][2];提及的A股产业链公司包括**菲利华**、**东材科技**、**呈和科技**、**宏和科技**、**德福科技**、**华正新材**、**延江股份**[2] **核心观点与论据** * **算力需求范式转移**: 随着大模型进入大规模应用期,算力需求正从训练端的“暴力计算”向推理端的“极致交互”演进,催生了对低延迟的极致追求[1] * **LPU架构应运而生**: 为应对传统GPU在处理LLM推理Decode阶段时的高延迟瓶颈,专为语言处理设计的LPU架构出现[1] * **LPU技术核心**: 采用大规模片上SRAM直接存储模型参数以消除内存访问延迟,并利用静态时序调度实现精确计算,是一种追求高吞吐与低延迟的ASIC化设计[1] * **未来硬件架构趋势 (PD分离)**: 英伟达布局LPU预示着未来机柜将实现Prefill(填充)与Decode(解码)分离,算力密集的Prefill由高性能GPU负责,延迟敏感的Decode由LPU集群接管[1] * **硬件定制化与升级需求**: LPU对信号传输的确定性要求极高,驱动单机柜硬件从“通用品”向“定制化极品”跃迁[2] * **PCB价值量显著提升**: 由于LPU高集成度与无缆化趋势,所需PCB层数大幅增加至30-50层,单芯片对应的PCB价值量较传统通用服务器提升3-5倍[2] * **上游材料代际升级**: 为满足LPU超低延迟需求,基板材料需从M7/M8级升级至M9级以上,核心在于采用极低损耗的特种树脂和介电性能更优的石英纤维布[2] **其他重要内容** * **具体增量环节与标的梳理**: 报告明确列出了LPU架构落地带来的核心硬件增量环节及对应的A股上市公司,包括石英布、高阶树脂与添加剂、高阶电子布、铜箔、CCL等[2] * **风险提示**: 提及下游需求不及预期、相关政策监管与法律风险[3]
DeepSeek新论文剧透V4新框架,用闲置网卡加速智能体推理性能,打破PD分离瓶颈
36氪· 2026-02-27 10:29
核心观点 - 北京大学、清华大学等机构的研究人员发布了一种名为DualPath的全新智能体推理框架,旨在解决大模型长文本推理中的I/O瓶颈问题,通过创新的双路径加载和全局资源池化技术,显著提升了推理性能[1][3] 技术原理与架构创新 - DualPath的核心洞见是打破传统的单一路径模式,即KV-Cache的加载不必以预填充引擎为中心,可以绕道解码引擎[6][7] - 该框架改变了传统的“存储至预填充”单路径加载模式,引入了“存储至解码”的第二条路径,通过利用解码引擎闲置的存储网卡带宽,并配合高速计算网络传输至预填充引擎,实现了集群存储带宽的全局池化与动态负载均衡[3][13] - 在架构组成上,系统包含预填充引擎、解码引擎、流量管理器和中央调度器,中央调度器实时决策每条请求的路径以实现全局带宽最大化利用[18] 性能提升与实验结果 - 在660B规模的生产级模型实测中,DualPath表现惊人:离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍[3][14] - 在高负载下,首字延迟大幅优化,而Token间的生成速度几乎不受任何干扰[5] - 在DeepSeek-V3、Qwen等模型上的测试表明,该框架显著降低了首字延迟,并保持了极其稳定的Token间延迟[14] 解决的问题与行业背景 - 该框架旨在解决当前智能体应用中,因对话轮数多、上下文长导致KV-Cache命中率高达95%以上时,推理性能瓶颈从“计算”转移到数据“搬运”的问题[7] - 在现有的预填充-解码分离架构中,所有加载任务拥挤在预填充引擎的存储网卡上导致带宽饱和,而解码引擎的存储网卡闲置,造成资源错配[9] - 当前GPU算力的增长远快于网络带宽和HBM容量的增长,加剧了I/O限制,印证了“计算是免费的,但数据移动是昂贵的”行业观点[11] 关键优化方案 - 采用以计算网卡为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径,并利用虚拟层技术为推理通信预留99%带宽,确保缓存搬运与计算通信互不干扰[13] - 设计了自适应请求调度器,监控每个节点的磁盘队列长度和Token数,优先将任务分配给I/O压力小且计算负载轻的节点,从根本上避免单点拥塞[14] - 通过层级流式处理,在预填充引擎和解码引擎上分配少量DRAM缓冲区,并设计了精细的数据流,以降低GPU显存占用并优化延迟[13][19] 研究团队与行业联系 - 论文第一作者吴永彤是北京大学博士生,师从金鑫教授,研究方向聚焦于系统软件与大模型基础设施,尤其是推理系统的工程优化与规模化部署[15][16] - 该研究者目前任职于DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化[21] - 其过往经历包括在腾讯WXG参与为DeepSeek-R1等SOTA大语言模型构建推理系统,该系统服务于十亿级用户,并与VLLM等开源社区紧密合作贡献工业级优化[22]
4卡96GB显存暴力输出!英特尔锐炫Pro B60和长城世恒X-AIGC工作站评测
新浪财经· 2026-02-10 20:41
行业竞争格局 - 凭借CUDA生态护城河,NVIDIA在AI领域一度拥有定价权,但其绝对垄断地位正被打破 [1] - 硬件巨头Intel正快速向“全栈AI公司”转型,旨在打破NVIDIA的垄断 [1] 英特尔软件生态与战略 - 英特尔于2019年发布了oneAPI跨架构编程模型,旨在让一套代码可在CPU、GPU、NPU间通用,降低开发者迁移成本 [1][53] - oneAPI允许开发者通过其迁移工具(SYCLomatic)将原本仅能在NVIDIA CUDA环境下运行的代码快速转换到英特尔硬件上,为Arc系列显卡运行主流大模型打下软件基础 [4][55] 英特尔Arc Pro B60产品规格 - 该产品基于第二代Xe2架构(Battlemage),采用完整的BMG-G21 GPU核心,拥有20个Xe2核心、2560个FP32单元、20个光追单元和160个XXM AI引擎 [6][57] - 每颗BMG-G21 GPU可提供12.28 TFLOPS的FP32浮点性能以及197 TOPS的INT8 AI性能 [8][59] - 显卡配备192bit位宽、19Gbps GDDR6显存,显存带宽高达456GB/s,显存容量为24GB [9][59] - 与更贵的NVIDIA RTX Pro 2000相比,英特尔Arc Pro B60的显存容量和显存带宽均高出50% [9][59] - NVIDIA同等显存规格的AI加速卡,售价往往是Arc Pro B60的3至4倍 [9][51][59] 高性价比AI推理解决方案 - 随着DeepSeek等大规模MoE模型爆发,英特尔Arc Pro B60成为目前市面上构建96GB(4卡)到192GB(8卡)超大显存池最具性价比的方案 [9][59] - 对于想要组建高性能本地LLM推理站的企业而言,售价约5000元的Arc Pro B60 24GB是更具性价比的选择 [50][98] - 该产品能让用户以入门级NVIDIA显卡的价钱,获得接近旗舰级NVIDIA显卡的显存容量和推理性能 [52][100] 大模型推理性能测试 (GPT-OSS-120B) - 测试平台为长城世恒X-AIGC工作站,搭载4张英特尔Arc Pro B60 24GB显卡,共计96GB显存 [11][61] - 测试模型为OpenAI开源的千亿级参数模型GPT-OSS-120B(总参数1170亿),使用MXFP4量化压缩 [27][76] - 在并发数为1的测试中,请求成功率为100%,系统运行非常稳定 [30][79] - 并发数为1时,首字延迟(TTFT)均值仅为91.37毫秒,显示预填充阶段爆发力极强 [31][80] - 并发数为1时,平均逐词延迟(ITL)为32.01毫秒,输出吞吐量为184 tokens/秒 [32][81] - 当并发数从1增至10时,系统吞吐量呈指数级增长,从184 tokens/秒飙升至613 tokens/秒 [36][85] - 并发数达到60后,吞吐量达701 tokens/秒,基本达到系统极限,请求数增至100后总吞吐量仅增加约1% [36][85] - 高负载下,计算核心填充更满,单步推理效率因批处理效应略微提升,ITL在并发数超过30后随并发增加轻微下降 [38][87] - 根据工作站约700 tokens/秒的极限性能计算,可承受约70个用户同时请求,按1:15活跃比估算,可支持约1000人同时在线聊天 [40][89] 大模型推理性能测试 (Llama-3.1-8B) 及对比 - 与同价位的NVIDIA RTX Pro 2000 16GB相比,Arc Pro B60 24GB展现出碾压性优势 [46][95] - 同样是4卡并行运算(Llama-3.1-8B-Instruct FP8),4张Arc Pro B60 24GB比4张RTX Pro 2000 16GB性能强约50% [46][49][95][98] - 在并发数为100的高负载下,凭借96GB大显存,英特尔方案吞吐量达2110 tokens/秒,而同等价位的NVIDIA方案仅为1279 tokens/秒,英特尔领先幅度超过65% [49][98] - 96GB显存意味着可本地运行参数量更大的模型,如千亿参数的GPT-OSS-120B、LLaMA-3-130B,而4张RTX Pro 2000 16GB合计64GB显存相对尴尬,仅能运行700亿参数模型,面对千亿级模型需极致量化压缩且无法支持训练和微调 [46][47][95][96]
腾讯混元AI Infra核心技术开源,推理吞吐提升30%
搜狐财经· 2026-02-04 20:22
公司技术发布 - 腾讯混元AI Infra团队宣布推出开源生产级高性能LLM推理核心算子库HPC-Ops [1] - 该算子库基于CUDA和CuTe从零构建,旨在通过抽象化工程架构、微架构深度适配及指令级极致优化,降低底层算子开发门槛,并将核心算子性能逼近硬件峰值 [1] 性能表现 - 在真实场景下,基于HPC-Ops,混元模型推理QPM提升30%,DeepSeek模型QPM提升17% [3] - 单算子性能方面,HPC-Ops的Attention相比FlashInfer/FlashAttention最高提升2.22倍 [3] - GroupGEMM相比DeepGEMM最高提升1.88倍 [3] - FusedMoE相比TensorRT-LLM最高提升1.49倍 [3] 未来发展规划 - 将重点研发稀疏Attention算子,针对性解决长上下文大模型的内存与算力瓶颈 [3] - 会拓展更丰富的量化策略,覆盖4bit/8bit混合精度等更多量化方案,以进一步平衡推理速度与模型精度 [3] - 算子库还将布局计算-通信协同优化的内核,通过融合多GPU间的计算逻辑与通信流程,大幅降低分布式推理场景下的通信开销,为超大规模大模型的高效部署提供底层支撑 [3]
“中国英伟达”突发跳水!寒武纪大跌14%市值跌破5000亿,业绩指引“小作文”流传,公司称很多传闻都是假的
金融界· 2026-02-03 11:42
公司股价与市场表现 - 公司股票(寒武纪-U,代码688256)在2024年1月12日盘中交易数据为:现价1070.99元,下跌171.0元,最高价1257.78元,最低价1063.00元,换手率3.46% [1] - 公司是上一轮科技股牛市的龙头,在2023年下半年股价涨幅超过2倍,市值最高曾超过6700亿元 [1] - 自2024年1月12日以来,公司股价持续下跌,最大跌幅已接近30%,市值回落至约4500亿元 [1] 公司核心业务与投资逻辑 - 公司的核心投资逻辑围绕三大方面:国产替代加速、大模型推理需求爆发以及行业龙头地位 [2] - 在地缘政治因素影响下,国内云厂商和互联网大厂对自主可控AI芯片的需求快速增长,公司作为国内AI芯片龙头直接受益 [2] - 以DeepSeek等为代表的本土大模型快速发展,带动了对高性能AI推理芯片的旺盛需求 [2] - 公司在AI芯片架构设计和软硬件协同优化方面有技术积累,被称为“中国英伟达” [2] 公司财务业绩与展望 - 公司于2025年1月31日发布业绩预告,预计2025年全年营业收入为60亿元至70亿元,同比增长410.87%至496.02% [2] - 公司预计2025年扣除非经常性损益后的净利润为16亿元至19亿元,归属于上市公司股东的净利润为18.5亿元至21.5亿元,实现扭亏为盈 [2] - 公司表示,业绩增长主要受益于人工智能行业算力需求的持续攀升 [2] - 2024年初,市场流传关于公司2026年业绩指引的传闻,公司回应称不清楚股价波动具体原因,并指出市场很多传闻是虚假的,呼吁投资者理性对待 [2] 公司资本运作与战略投入 - 公司的定增申请已获得上海证券交易所审核通过,计划募集资金39.85亿元 [2] - 募集资金将投入大模型芯片及软件平台的建设 [2]