大模型推理 - 财报，业绩电话会，研报，新闻 - Reportify

大模型推理

搜索文档

Open AI获超千亿美元投资；涨价太快存储商调整付款方式 | 科技风向标

21世纪经济报道· 2026-02-28 11:07

巨头动向与融资 - OpenAI宣布获得1100亿美元新投资投前估值达7300亿美元投资方包括软银300亿美元英伟达300亿美元亚马逊500亿美元 [2] - OpenAI与亚马逊达成战略合作与英伟达达成下一代推理计算技术合作协议 [2] - 新一轮融资使OpenAI基金会持有的OpenAI集团股份价值超过1800亿美元 [2] 人工智能与硬件 - DeepSeek团队联合清华北大发表论文提出DualPath推理系统将离线推理吞吐量最高提升1.87倍在线服务每秒智能体运行数平均提升1.96倍 [5] - 阿里巴巴旗下“千问”将进军AI硬件计划在2026年MWC发布首款AI眼镜并将在年内发布AI指环 AI耳机等产品 [6] - 魅族否认手机业务停摆但将暂停国内手机新产品自研硬件项目转向以AI驱动软件产品为主导的战略转型 [10] 半导体与芯片 - 群联电子称因AI基建带动NAND需求主要供应商已调整付款条件要求预付款或缩短付款期限 [12] - 晶科电子拟出资2.68亿元参与设立总规模6.68亿元的基金占出资额40.12% 该基金将重点布局第三代半导体产业 [13] - 精智达拟定增募资不超29.59亿元用于半导体存储测试设备产业化技术研发及补充流动资金等项目 [14] 公司业绩表现 - 寒武纪2025年实现营收64.97亿元同比增长453.21% 净利润20.59亿元实现上市后首次全年盈利 [15] - 摩尔线程2025年实现营收15.05亿元同比增长243.37% 归母净利润-10.24亿元亏损同比收窄36.70% [16] - 沐曦股份2025年实现营业总收入16.44亿元同比增长121.26% 归母净利润为-7.81亿元 [17] 行业动态与监管 - 影石创新在美国“337调查”中赢得最终裁决仅部分产品涉及一项外观专利但新设计方案被认定未侵权公司称调查未造成实质性影响 [4] - 淘宝闪购回应网络餐饮新规称将积极执行并建设“3+1+AI”食品安全共治体系 [9] - 中国载人航天工程办公室计划2026年实施2次载人飞行任务 1次货运飞船补给任务港澳地区航天员有望最早于今年执行任务 [11] 市场传闻与资本动态 - 市场传闻字节跳动旗下懂车帝正考虑在香港IPO 筹资10亿至15亿美元公司方面称“暂时不回应” [7][8]

大模型推理

DualPath推理系统

大模型推理

DualPath推理系统

未知机构：从训练走向极致推理LPU架构重塑算力底座东北计算机范式转移-20260228

未知机构· 2026-02-28 10:55

**涉及的行业与公司** * **行业**: 人工智能算力硬件、半导体、印刷电路板(PCB)及上游材料行业[1][2] * **公司**: 提及的硬件架构与设计公司包括**英伟达**、**Groq**、**Google**[1][2]；提及的A股产业链公司包括**菲利华**、**东材科技**、**呈和科技**、**宏和科技**、**德福科技**、**华正新材**、**延江股份**[2] **核心观点与论据** * **算力需求范式转移**: 随着大模型进入大规模应用期，算力需求正从训练端的“暴力计算”向推理端的“极致交互”演进，催生了对低延迟的极致追求[1] * **LPU架构应运而生**: 为应对传统GPU在处理LLM推理Decode阶段时的高延迟瓶颈，专为语言处理设计的LPU架构出现[1] * **LPU技术核心**: 采用大规模片上SRAM直接存储模型参数以消除内存访问延迟，并利用静态时序调度实现精确计算，是一种追求高吞吐与低延迟的ASIC化设计[1] * **未来硬件架构趋势 (PD分离)**: 英伟达布局LPU预示着未来机柜将实现Prefill（填充）与Decode（解码）分离，算力密集的Prefill由高性能GPU负责，延迟敏感的Decode由LPU集群接管[1] * **硬件定制化与升级需求**: LPU对信号传输的确定性要求极高，驱动单机柜硬件从“通用品”向“定制化极品”跃迁[2] * **PCB价值量显著提升**: 由于LPU高集成度与无缆化趋势，所需PCB层数大幅增加至30-50层，单芯片对应的PCB价值量较传统通用服务器提升3-5倍[2] * **上游材料代际升级**: 为满足LPU超低延迟需求，基板材料需从M7/M8级升级至M9级以上，核心在于采用极低损耗的特种树脂和介电性能更优的石英纤维布[2] **其他重要内容** * **具体增量环节与标的梳理**: 报告明确列出了LPU架构落地带来的核心硬件增量环节及对应的A股上市公司，包括石英布、高阶树脂与添加剂、高阶电子布、铜箔、CCL等[2] * **风险提示**: 提及下游需求不及预期、相关政策监管与法律风险[3]

大模型推理

算力范式转移

大模型推理

算力范式转移

DeepSeek新论文剧透V4新框架，用闲置网卡加速智能体推理性能，打破PD分离瓶颈

36氪· 2026-02-27 10:29

核心观点 - 北京大学、清华大学等机构的研究人员发布了一种名为DualPath的全新智能体推理框架，旨在解决大模型长文本推理中的I/O瓶颈问题，通过创新的双路径加载和全局资源池化技术，显著提升了推理性能[1][3] 技术原理与架构创新 - DualPath的核心洞见是打破传统的单一路径模式，即KV-Cache的加载不必以预填充引擎为中心，可以绕道解码引擎[6][7] - 该框架改变了传统的“存储至预填充”单路径加载模式，引入了“存储至解码”的第二条路径，通过利用解码引擎闲置的存储网卡带宽，并配合高速计算网络传输至预填充引擎，实现了集群存储带宽的全局池化与动态负载均衡[3][13] - 在架构组成上，系统包含预填充引擎、解码引擎、流量管理器和中央调度器，中央调度器实时决策每条请求的路径以实现全局带宽最大化利用[18] 性能提升与实验结果 - 在660B规模的生产级模型实测中，DualPath表现惊人：离线推理吞吐量提高了1.87倍，在线服务吞吐量平均提升1.96倍[3][14] - 在高负载下，首字延迟大幅优化，而Token间的生成速度几乎不受任何干扰[5] - 在DeepSeek-V3、Qwen等模型上的测试表明，该框架显著降低了首字延迟，并保持了极其稳定的Token间延迟[14] 解决的问题与行业背景 - 该框架旨在解决当前智能体应用中，因对话轮数多、上下文长导致KV-Cache命中率高达95%以上时，推理性能瓶颈从“计算”转移到数据“搬运”的问题[7] - 在现有的预填充-解码分离架构中，所有加载任务拥挤在预填充引擎的存储网卡上导致带宽饱和，而解码引擎的存储网卡闲置，造成资源错配[9] - 当前GPU算力的增长远快于网络带宽和HBM容量的增长，加剧了I/O限制，印证了“计算是免费的，但数据移动是昂贵的”行业观点[11] 关键优化方案 - 采用以计算网卡为中心的流量管理，强制所有流量通过配对的CNIC走GPUDirect RDMA路径，并利用虚拟层技术为推理通信预留99%带宽，确保缓存搬运与计算通信互不干扰[13] - 设计了自适应请求调度器，监控每个节点的磁盘队列长度和Token数，优先将任务分配给I/O压力小且计算负载轻的节点，从根本上避免单点拥塞[14] - 通过层级流式处理，在预填充引擎和解码引擎上分配少量DRAM缓冲区，并设计了精细的数据流，以降低GPU显存占用并优化延迟[13][19] 研究团队与行业联系 - 论文第一作者吴永彤是北京大学博士生，师从金鑫教授，研究方向聚焦于系统软件与大模型基础设施，尤其是推理系统的工程优化与规模化部署[15][16] - 该研究者目前任职于DeepSeek系统组，参与下一代模型的推理基础设施建设，负责大规模软件系统在多硬件平台上的性能优化[21] - 其过往经历包括在腾讯WXG参与为DeepSeek-R1等SOTA大语言模型构建推理系统，该系统服务于十亿级用户，并与VLLM等开源社区紧密合作贡献工业级优化[22]

Seek .(US:SKLTY)

大模型推理

Artificial Intelligence

大模型推理

Artificial Intelligence

4卡96GB显存暴力输出！英特尔锐炫Pro B60和长城世恒X-AIGC工作站评测

新浪财经· 2026-02-10 20:41

行业竞争格局 - 凭借CUDA生态护城河，NVIDIA在AI领域一度拥有定价权，但其绝对垄断地位正被打破 [1] - 硬件巨头Intel正快速向“全栈AI公司”转型，旨在打破NVIDIA的垄断 [1] 英特尔软件生态与战略 - 英特尔于2019年发布了oneAPI跨架构编程模型，旨在让一套代码可在CPU、GPU、NPU间通用，降低开发者迁移成本 [1][53] - oneAPI允许开发者通过其迁移工具（SYCLomatic）将原本仅能在NVIDIA CUDA环境下运行的代码快速转换到英特尔硬件上，为Arc系列显卡运行主流大模型打下软件基础 [4][55] 英特尔Arc Pro B60产品规格 - 该产品基于第二代Xe2架构（Battlemage），采用完整的BMG-G21 GPU核心，拥有20个Xe2核心、2560个FP32单元、20个光追单元和160个XXM AI引擎 [6][57] - 每颗BMG-G21 GPU可提供12.28 TFLOPS的FP32浮点性能以及197 TOPS的INT8 AI性能 [8][59] - 显卡配备192bit位宽、19Gbps GDDR6显存，显存带宽高达456GB/s，显存容量为24GB [9][59] - 与更贵的NVIDIA RTX Pro 2000相比，英特尔Arc Pro B60的显存容量和显存带宽均高出50% [9][59] - NVIDIA同等显存规格的AI加速卡，售价往往是Arc Pro B60的3至4倍 [9][51][59] 高性价比AI推理解决方案 - 随着DeepSeek等大规模MoE模型爆发，英特尔Arc Pro B60成为目前市面上构建96GB（4卡）到192GB（8卡）超大显存池最具性价比的方案 [9][59] - 对于想要组建高性能本地LLM推理站的企业而言，售价约5000元的Arc Pro B60 24GB是更具性价比的选择 [50][98] - 该产品能让用户以入门级NVIDIA显卡的价钱，获得接近旗舰级NVIDIA显卡的显存容量和推理性能 [52][100] 大模型推理性能测试 (GPT-OSS-120B) - 测试平台为长城世恒X-AIGC工作站，搭载4张英特尔Arc Pro B60 24GB显卡，共计96GB显存 [11][61] - 测试模型为OpenAI开源的千亿级参数模型GPT-OSS-120B（总参数1170亿），使用MXFP4量化压缩 [27][76] - 在并发数为1的测试中，请求成功率为100%，系统运行非常稳定 [30][79] - 并发数为1时，首字延迟（TTFT）均值仅为91.37毫秒，显示预填充阶段爆发力极强 [31][80] - 并发数为1时，平均逐词延迟（ITL）为32.01毫秒，输出吞吐量为184 tokens/秒 [32][81] - 当并发数从1增至10时，系统吞吐量呈指数级增长，从184 tokens/秒飙升至613 tokens/秒 [36][85] - 并发数达到60后，吞吐量达701 tokens/秒，基本达到系统极限，请求数增至100后总吞吐量仅增加约1% [36][85] - 高负载下，计算核心填充更满，单步推理效率因批处理效应略微提升，ITL在并发数超过30后随并发增加轻微下降 [38][87] - 根据工作站约700 tokens/秒的极限性能计算，可承受约70个用户同时请求，按1:15活跃比估算，可支持约1000人同时在线聊天 [40][89] 大模型推理性能测试 (Llama-3.1-8B) 及对比 - 与同价位的NVIDIA RTX Pro 2000 16GB相比，Arc Pro B60 24GB展现出碾压性优势 [46][95] - 同样是4卡并行运算（Llama-3.1-8B-Instruct FP8），4张Arc Pro B60 24GB比4张RTX Pro 2000 16GB性能强约50% [46][49][95][98] - 在并发数为100的高负载下，凭借96GB大显存，英特尔方案吞吐量达2110 tokens/秒，而同等价位的NVIDIA方案仅为1279 tokens/秒，英特尔领先幅度超过65% [49][98] - 96GB显存意味着可本地运行参数量更大的模型，如千亿参数的GPT-OSS-120B、LLaMA-3-130B，而4张RTX Pro 2000 16GB合计64GB显存相对尴尬，仅能运行700亿参数模型，面对千亿级模型需极致量化压缩且无法支持训练和微调 [46][47][95][96]

大模型推理

英特尔锐炫Pro B60显卡

长城世恒X - AIGC工作站

NVIDIA RTX Pro 2000

大模型推理

英特尔锐炫Pro B60显卡

长城世恒X - AIGC工作站

NVIDIA RTX Pro 2000

腾讯混元AI Infra核心技术开源，推理吞吐提升30%

搜狐财经· 2026-02-04 20:22

公司技术发布 - 腾讯混元AI Infra团队宣布推出开源生产级高性能LLM推理核心算子库HPC-Ops [1] - 该算子库基于CUDA和CuTe从零构建，旨在通过抽象化工程架构、微架构深度适配及指令级极致优化，降低底层算子开发门槛，并将核心算子性能逼近硬件峰值 [1] 性能表现 - 在真实场景下，基于HPC-Ops，混元模型推理QPM提升30%，DeepSeek模型QPM提升17% [3] - 单算子性能方面，HPC-Ops的Attention相比FlashInfer/FlashAttention最高提升2.22倍 [3] - GroupGEMM相比DeepGEMM最高提升1.88倍 [3] - FusedMoE相比TensorRT-LLM最高提升1.49倍 [3] 未来发展规划 - 将重点研发稀疏Attention算子，针对性解决长上下文大模型的内存与算力瓶颈 [3] - 会拓展更丰富的量化策略，覆盖4bit/8bit混合精度等更多量化方案，以进一步平衡推理速度与模型精度 [3] - 算子库还将布局计算-通信协同优化的内核，通过融合多GPU间的计算逻辑与通信流程，大幅降低分布式推理场景下的通信开销，为超大规模大模型的高效部署提供底层支撑 [3]

腾讯控股(HK:00700)

大模型推理

Software and Internet

腾讯混元AI Infra

大模型推理

Software and Internet

腾讯混元AI Infra

“中国英伟达”突发跳水！寒武纪大跌14%市值跌破5000亿，业绩指引“小作文”流传，公司称很多传闻都是假的

金融界· 2026-02-03 11:42

公司股价与市场表现 - 公司股票（寒武纪-U，代码688256）在2024年1月12日盘中交易数据为：现价1070.99元，下跌171.0元，最高价1257.78元，最低价1063.00元，换手率3.46% [1] - 公司是上一轮科技股牛市的龙头，在2023年下半年股价涨幅超过2倍，市值最高曾超过6700亿元 [1] - 自2024年1月12日以来，公司股价持续下跌，最大跌幅已接近30%，市值回落至约4500亿元 [1] 公司核心业务与投资逻辑 - 公司的核心投资逻辑围绕三大方面：国产替代加速、大模型推理需求爆发以及行业龙头地位 [2] - 在地缘政治因素影响下，国内云厂商和互联网大厂对自主可控AI芯片的需求快速增长，公司作为国内AI芯片龙头直接受益 [2] - 以DeepSeek等为代表的本土大模型快速发展，带动了对高性能AI推理芯片的旺盛需求 [2] - 公司在AI芯片架构设计和软硬件协同优化方面有技术积累，被称为“中国英伟达” [2] 公司财务业绩与展望 - 公司于2025年1月31日发布业绩预告，预计2025年全年营业收入为60亿元至70亿元，同比增长410.87%至496.02% [2] - 公司预计2025年扣除非经常性损益后的净利润为16亿元至19亿元，归属于上市公司股东的净利润为18.5亿元至21.5亿元，实现扭亏为盈 [2] - 公司表示，业绩增长主要受益于人工智能行业算力需求的持续攀升 [2] - 2024年初，市场流传关于公司2026年业绩指引的传闻，公司回应称不清楚股价波动具体原因，并指出市场很多传闻是虚假的，呼吁投资者理性对待 [2] 公司资本运作与战略投入 - 公司的定增申请已获得上海证券交易所审核通过，计划募集资金39.85亿元 [2] - 募集资金将投入大模型芯片及软件平台的建设 [2]

寒武纪(SH:688256)

大模型推理

大模型推理

曦望董事长徐冰：把大模型推理这件事，做到极致

搜狐财经· 2026-01-29 19:35

行业趋势与战略背景 - AI产业正从“训练驱动”转向“推理驱动”，推理更强调长期交付能力、单位成本和系统稳定性 [3] - 到2026年，推理算力占比将达到66%，超过训练 [4] - 智能体、3D生成、视频生成、物理世界AI等多模态复杂场景加速落地，推理需求爆发，竞争焦点转向在真实业务中跑得稳、跑得久、跑得划算 [4] - 推理成本在AI应用中的占比已高达70%，是决定AI公司盈利和商业化的关键，行业未来需将推理成本从“元级”降至“分厘级” [4] - 掌握高效、可控、可持续的推理基础设施，将主导AI的落地速度，并决定国家和企业在AI下半场的竞争力 [3][5] 公司定位与历史沿革 - 曦望是一家更懂AI的GPU芯片公司，也是国内第一家all-in推理的GPU芯片公司 [4] - 公司使命是将大模型推理做到极致 [4] - 公司前身是商汤科技的大芯片部门，成立于2020年，完整经历了从人脸识别、自动驾驶到大模型、多模态、物理AI的整个AI发展周期 [5] - 公司从第一天开始就基于真实业务场景设计芯片，被客户需求打磨 [5] - 2025年全球大模型token消耗量增长了100倍 [5] - 公司团队已超过300人，聚拢了来自英伟达、AMD、昆仑芯、商汤等公司的芯片研发精英，核心技术骨干平均有15年行业经验 [5] 产品技术与研发进展 - 公司正式亮相新一代推理GPU芯片启望S3，并披露围绕推理场景构建的算力产品体系及共建推理云生态计划 [3] - 公司并非简单做又一个GPU，而是从底层架构就为推理场景重新设计，彻底重写 [6] - 公司专为大模型推理场景做架构设计，目标是实现极致的成本效益，设计决策的根本出发点是真实业务场景中每个token的成本、能耗和SLA稳定性 [7] - 公司计划将中国的推理成本拉到“百万token一分钱”的新级别，并将其变成行业新基准 [7] - 过去8年，公司累计投入了20亿研发资金，成功量产了S1和S2芯片，S3已发布，并规划了S4和S5的路径图 [7] - S1和S2证明了公司具备芯片设计、量产和被头部客户应用的能力 [7] - 公司致力于让推理成本下降90%，并提供稳定服务，以重写中国AI产业的损益表，助力全行业盈利增收 [7] 商业模式与生态布局 - 公司不希望只做一家卖芯片的公司，而是围绕推理场景，构建“芯片+系统+生态”的整体布局 [3][8] - 商业模式包括：为产业提供推理GPU卡、一体化服务器、整机、集群方案；与商汤、范式等AI巨头、算力厂商和芯片厂商深度合作，成为现有算力系统的推理分流及成本优化层 [8] - 公司目标是让算力更便宜、部署更简单、生态更开放 [9] - 公司致力于成为推理时代让算力便宜稳定且可用的核心底座，连接底层芯片架构、国家产业政策、云厂商、AI公司及千行百业 [9] 财务与运营里程碑 - 过去一年，公司完成近30亿元的战略融资 [6] - 2025年，公司实现了破万片的芯片交付，收入大幅增长，并拿下了多个头部客户的订单 [6]

大模型推理

大模型推理

曦望发布新一代推理GPU芯片启望S3，单位Token推理成本降低90%

新浪财经· 2026-01-27 19:36

公司产品发布与性能 - 国产GPU厂商曦望发布新一代面向大模型推理的定制化GPGPU芯片启望S3 [1] - 启望S3在典型推理场景下的整体性价比相较上一代提升超过10倍 [1] - 该芯片支持FP16至FP4精度切换，并采用LPDDR6显存方案，显存容量提升4倍 [1] - 在DeepSeek V3/R1满血版等主流大模型推理中，单位Token成本较上一代降低约90% [1] 公司经营与融资情况 - 此次发布是曦望在近一年累计完成约30亿元人民币战略融资后的首次集中公开亮相 [1] - 截至2025年，曦望芯片交付量已突破一万片 [1]

大模型推理

大模型推理

GPU创企曦望一年融资30亿：出身商汤，押注推理

观察者网· 2026-01-22 21:13

公司融资与资金用途 - 曦望（Sunrise）在一年内完成近30亿元人民币融资 [1] - 投资方包括华胥基金、范式智能、杭州数据集团等产业资本，IDG资本、高榕创投、无极资本等VC/PE机构，以及诚通混改基金、杭州金投、杭州高新金投等国资背景资本 [1] - 所筹资金将用于下一代推理GPU研发、规模化量产及生态共建 [1] 公司背景与团队构成 - 公司成立于2020年，前身为商汤科技大芯片部门，于2024年底分拆独立运营 [1] - 公司专注于高性能GPU及多模态场景推理芯片的研发与商业化 [1] - 公司正式员工超200人，技术和研发人员占比80%以上 [1] - 部分员工来自AMD、百度、华为海思、商汤等行业龙头，核心技术骨干平均拥有15年行业经验，硕士及以上学历占比超过80% [1] - 董事长徐冰曾任商汤科技联合创始人，负责集团战略与资本运作，带领商汤完成累计超66亿美元融资及港交所IPO [1] - 联席CEO王勇拥有20余年芯片行业经验，曾任AMD dGPU首席架构师、百度昆仑芯核心架构师，主导多款7nm高性能芯片从研发到流片及量产 [2] - 另一位联席CEO王湛曾任职百度十六年，为百度创始团队成员、前百度资深副总裁 [2] 技术路线与产品战略 - 公司选择“纯推理”路线，与英伟达等追求“训推一体”的传统GPU厂商不同 [4] - 公司在调度机制、缓存设计、片上SRAM、芯片互联及编译器路径等核心环节针对推理场景做原生深度优化，并融合LPDDR内存技术，以实现单位Token推理成本的显著降低 [4] - 公司目标是极致降低大模型推理的成本与门槛，让推理算力变得普惠，从而充分释放AGI的全部潜力 [4] - 公司宣称其技术能让推理成本下降90%，并提供更稳定的服务 [4] 研发投入与产品矩阵 - 公司在过去数年研发投入累计20亿元人民币 [4] - 已构建起三代芯片产品矩阵 [4] - 2020年量产的S1芯片是国内首款视觉推理芯片，适配千余种CV模型，已实现IP授权索尼、小米等头部客户 [4] - 2024年量产的S2芯片对标主流A/H系列GPU，兼容CUDA生态，已适配DeepSeek、Qwen等主流模型 [4] - 计划于2026年推出的S3芯片定位为“推理性价比之王”，目标在单位Token成本、能耗上实现数量级降低，原生支持FP8/FP4低精度推理，目标直指“百万Token一分钱”的行业新基准 [5]

商汤(HK:00020)

大模型推理

大模型推理

大模型Infra新突破！腾讯混元开源LLM推理算子库，推理吞吐提升30%

量子位· 2026-01-22 19:13

文章核心观点 - 在大模型竞赛中，计算效率是关键瓶颈，单纯堆叠算力（显卡）已不足够，提升效率成为新的竞争焦点 [1] - 针对当前主流算子库在H20等推理卡上性能不佳、开发门槛高等痛点，腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops [2][4] - HPC-Ops通过底层架构优化，显著提升了核心算子性能，并在真实场景中验证了其能大幅提升模型推理效率 [5][6][47] 行业背景与痛点 - 大模型时代，计算效率是AI应用及发展的关键瓶颈 [7] - 现有主流算子库（如FlashInfer、DeepGEMM）主要针对NVIDIA H800等高配训练卡优化，与国内主流线上推理服务采用的H20等推理卡不匹配，难以发挥硬件峰值性能 [7][8][13] - 业务侧对极致吞吐、低延迟及复杂量化策略（如Blockwise FP8）的需求日益迫切，亟需更适配的底层支持 [9] - 现有主流算子库存在两大痛点：1) 设计复杂，修改适配成本高，阻碍了量化算法等加速研究的创新落地 [11][12]；2) 目标硬件不匹配，导致在国内主流推理卡上无法发挥全部性能 [13][14] HPC-Ops解决方案概述 - 腾讯混元使用CUDA和CuTe从零构建了一套轻量、高效的LLM核心算子库HPC-Ops [4][15] - 该库包含FusedMoE、Attention、通信、Norm、Sampler及各类融合算子等核心模块 [16] - 其设计目标是通过抽象化工程架构、微架构深度适配及指令级极致优化，降低开发门槛并将核心算子性能逼近硬件峰值 [4] 核心技术细节 - **任务特性与硬件能力对齐**：针对访存瓶颈算子，通过调整指令发射顺序进行数据预取优化，确保高数据传输利用率；针对不同问题规格做细致指令对齐，去除冗余指令，使访存带宽可达硬件峰值能力的80%以上 [19][20] - **精细的任务调度和数据重排**：重新思考任务数据划分调度策略，保证任务均衡与cache连续性；采用persistent kernel隐藏开销；通过数据重排减少额外操作和显存占用，如在FP8 Attention Kernel中采用Interleave重排技术提升性能 [22][23][24] - **聚焦计算逻辑本身**：基于CuTe扩展开发vec抽象层统一负责高效数据搬运，利用Layout代数抽象隔离复杂的Tiling与计算逻辑，让开发者能聚焦于算法本身，降低维护门槛 [26] 性能提升数据 - **端到端推理性能**：在真实场景下，基于HPC-Ops，混元模型推理QPM（每秒查询数）提升30%，DeepSeek模型QPM提升17% [5][27] - **单算子性能对比**： - Attention算子相比FlashInfer/FlashAttention最高提升2.22倍 [6][44] - GroupGEMM算子相比DeepGEMM最高提升1.88倍 [6][31] - FusedMoE算子相比TensorRT-LLM最高提升1.49倍 [6][36] - **具体场景性能**： - **GroupGEMM**：在Batch<=64的低延迟场景下优势显著，较DeepGEMM最佳表现最高提升1.88倍 [31] - **FusedMoE**：在TP（张量并行）场景下相比TensorRT-LLM最大性能提升达1.49倍；在EP（专家并行）模拟均衡场景下最大提升1.09倍 [36] - **Attention**： - Prefill场景（输入长度128～64K）：batch较小时，BF16精度下相比SOTA实现提升1.3倍；大batch时与SOTA对齐 [42][43] - Decode场景：BF16精度下提升1.35倍～2.22倍；FP8精度下，当Sequence Length较大时相比SOTA提升1.09倍~2.0倍 [44] 当前能力与集成 - HPC-Ops已在腾讯大规模生产环境中完成验证 [47] - 提供简洁易用的API，可无缝对接vLLM、SGLang等主流推理框架 [48] - 原生支持BF16、FP8等多精度量化方案 [48] - 以CuTe、CUTLASS为基础，提供数百行代码即可构建SOTA算子的实践范例，降低高性能CUDA内核开发门槛 [49] 未来发展方向 - 重点研发稀疏Attention算子，以解决长上下文大模型的内存与算力瓶颈 [51] - 拓展更丰富的量化策略，覆盖4bit/8bit混合精度等更多量化方案，进一步平衡推理速度与模型精度 [51] - 布局计算-通信协同优化的内核，通过融合多GPU间的计算与通信流程，大幅降低分布式推理场景下的通信开销，支撑超大规模模型高效部署 [51] 开源与社区 - HPC-Ops已在GitHub开放源码供开发者下载使用 [52] - 腾讯混元Infra团队欢迎行业技术实践者提交高价值PR，参与算子边缘场景优化、教程案例打磨等贡献，共同推动技术发展 [52]

腾讯控股(HK:00700)

大模型推理

CUDA和CuTe开发

HPC - Ops算子库

大模型推理

CUDA和CuTe开发

HPC - Ops算子库