Workflow
大模型推理
icon
搜索文档
Open AI获超千亿美元投资;涨价太快存储商调整付款方式 | 科技风向标
21世纪经济报道· 2026-02-28 11:07
巨头动向与融资 - OpenAI宣布获得1100亿美元新投资 投前估值达7300亿美元 投资方包括软银300亿美元 英伟达300亿美元 亚马逊500亿美元 [2] - OpenAI与亚马逊达成战略合作 与英伟达达成下一代推理计算技术合作协议 [2] - 新一轮融资使OpenAI基金会持有的OpenAI集团股份价值超过1800亿美元 [2] 人工智能与硬件 - DeepSeek团队联合清华 北大发表论文 提出DualPath推理系统 将离线推理吞吐量最高提升1.87倍 在线服务每秒智能体运行数平均提升1.96倍 [5] - 阿里巴巴旗下“千问”将进军AI硬件 计划在2026年MWC发布首款AI眼镜 并将在年内发布AI指环 AI耳机等产品 [6] - 魅族否认手机业务停摆 但将暂停国内手机新产品自研硬件项目 转向以AI驱动软件产品为主导的战略转型 [10] 半导体与芯片 - 群联电子称因AI基建带动NAND需求 主要供应商已调整付款条件 要求预付款或缩短付款期限 [12] - 晶科电子拟出资2.68亿元参与设立总规模6.68亿元的基金 占出资额40.12% 该基金将重点布局第三代半导体产业 [13] - 精智达拟定增募资不超29.59亿元 用于半导体存储测试设备产业化 技术研发及补充流动资金等项目 [14] 公司业绩表现 - 寒武纪2025年实现营收64.97亿元 同比增长453.21% 净利润20.59亿元 实现上市后首次全年盈利 [15] - 摩尔线程2025年实现营收15.05亿元 同比增长243.37% 归母净利润-10.24亿元 亏损同比收窄36.70% [16] - 沐曦股份2025年实现营业总收入16.44亿元 同比增长121.26% 归母净利润为-7.81亿元 [17] 行业动态与监管 - 影石创新在美国“337调查”中赢得最终裁决 仅部分产品涉及一项外观专利 但新设计方案被认定未侵权 公司称调查未造成实质性影响 [4] - 淘宝闪购回应网络餐饮新规 称将积极执行并建设“3+1+AI”食品安全共治体系 [9] - 中国载人航天工程办公室计划2026年实施2次载人飞行任务 1次货运飞船补给任务 港澳地区航天员有望最早于今年执行任务 [11] 市场传闻与资本动态 - 市场传闻字节跳动旗下懂车帝正考虑在香港IPO 筹资10亿至15亿美元 公司方面称“暂时不回应” [7][8]
未知机构:从训练走向极致推理LPU架构重塑算力底座东北计算机范式转移-20260228
未知机构· 2026-02-28 10:55
**涉及的行业与公司** * **行业**: 人工智能算力硬件、半导体、印刷电路板(PCB)及上游材料行业[1][2] * **公司**: 提及的硬件架构与设计公司包括**英伟达**、**Groq**、**Google**[1][2];提及的A股产业链公司包括**菲利华**、**东材科技**、**呈和科技**、**宏和科技**、**德福科技**、**华正新材**、**延江股份**[2] **核心观点与论据** * **算力需求范式转移**: 随着大模型进入大规模应用期,算力需求正从训练端的“暴力计算”向推理端的“极致交互”演进,催生了对低延迟的极致追求[1] * **LPU架构应运而生**: 为应对传统GPU在处理LLM推理Decode阶段时的高延迟瓶颈,专为语言处理设计的LPU架构出现[1] * **LPU技术核心**: 采用大规模片上SRAM直接存储模型参数以消除内存访问延迟,并利用静态时序调度实现精确计算,是一种追求高吞吐与低延迟的ASIC化设计[1] * **未来硬件架构趋势 (PD分离)**: 英伟达布局LPU预示着未来机柜将实现Prefill(填充)与Decode(解码)分离,算力密集的Prefill由高性能GPU负责,延迟敏感的Decode由LPU集群接管[1] * **硬件定制化与升级需求**: LPU对信号传输的确定性要求极高,驱动单机柜硬件从“通用品”向“定制化极品”跃迁[2] * **PCB价值量显著提升**: 由于LPU高集成度与无缆化趋势,所需PCB层数大幅增加至30-50层,单芯片对应的PCB价值量较传统通用服务器提升3-5倍[2] * **上游材料代际升级**: 为满足LPU超低延迟需求,基板材料需从M7/M8级升级至M9级以上,核心在于采用极低损耗的特种树脂和介电性能更优的石英纤维布[2] **其他重要内容** * **具体增量环节与标的梳理**: 报告明确列出了LPU架构落地带来的核心硬件增量环节及对应的A股上市公司,包括石英布、高阶树脂与添加剂、高阶电子布、铜箔、CCL等[2] * **风险提示**: 提及下游需求不及预期、相关政策监管与法律风险[3]
DeepSeek新论文剧透V4新框架,用闲置网卡加速智能体推理性能,打破PD分离瓶颈
36氪· 2026-02-27 10:29
核心观点 - 北京大学、清华大学等机构的研究人员发布了一种名为DualPath的全新智能体推理框架,旨在解决大模型长文本推理中的I/O瓶颈问题,通过创新的双路径加载和全局资源池化技术,显著提升了推理性能[1][3] 技术原理与架构创新 - DualPath的核心洞见是打破传统的单一路径模式,即KV-Cache的加载不必以预填充引擎为中心,可以绕道解码引擎[6][7] - 该框架改变了传统的“存储至预填充”单路径加载模式,引入了“存储至解码”的第二条路径,通过利用解码引擎闲置的存储网卡带宽,并配合高速计算网络传输至预填充引擎,实现了集群存储带宽的全局池化与动态负载均衡[3][13] - 在架构组成上,系统包含预填充引擎、解码引擎、流量管理器和中央调度器,中央调度器实时决策每条请求的路径以实现全局带宽最大化利用[18] 性能提升与实验结果 - 在660B规模的生产级模型实测中,DualPath表现惊人:离线推理吞吐量提高了1.87倍,在线服务吞吐量平均提升1.96倍[3][14] - 在高负载下,首字延迟大幅优化,而Token间的生成速度几乎不受任何干扰[5] - 在DeepSeek-V3、Qwen等模型上的测试表明,该框架显著降低了首字延迟,并保持了极其稳定的Token间延迟[14] 解决的问题与行业背景 - 该框架旨在解决当前智能体应用中,因对话轮数多、上下文长导致KV-Cache命中率高达95%以上时,推理性能瓶颈从“计算”转移到数据“搬运”的问题[7] - 在现有的预填充-解码分离架构中,所有加载任务拥挤在预填充引擎的存储网卡上导致带宽饱和,而解码引擎的存储网卡闲置,造成资源错配[9] - 当前GPU算力的增长远快于网络带宽和HBM容量的增长,加剧了I/O限制,印证了“计算是免费的,但数据移动是昂贵的”行业观点[11] 关键优化方案 - 采用以计算网卡为中心的流量管理,强制所有流量通过配对的CNIC走GPUDirect RDMA路径,并利用虚拟层技术为推理通信预留99%带宽,确保缓存搬运与计算通信互不干扰[13] - 设计了自适应请求调度器,监控每个节点的磁盘队列长度和Token数,优先将任务分配给I/O压力小且计算负载轻的节点,从根本上避免单点拥塞[14] - 通过层级流式处理,在预填充引擎和解码引擎上分配少量DRAM缓冲区,并设计了精细的数据流,以降低GPU显存占用并优化延迟[13][19] 研究团队与行业联系 - 论文第一作者吴永彤是北京大学博士生,师从金鑫教授,研究方向聚焦于系统软件与大模型基础设施,尤其是推理系统的工程优化与规模化部署[15][16] - 该研究者目前任职于DeepSeek系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化[21] - 其过往经历包括在腾讯WXG参与为DeepSeek-R1等SOTA大语言模型构建推理系统,该系统服务于十亿级用户,并与VLLM等开源社区紧密合作贡献工业级优化[22]
4卡96GB显存暴力输出!英特尔锐炫Pro B60和长城世恒X-AIGC工作站评测
新浪财经· 2026-02-10 20:41
行业竞争格局 - 凭借CUDA生态护城河,NVIDIA在AI领域一度拥有定价权,但其绝对垄断地位正被打破 [1] - 硬件巨头Intel正快速向“全栈AI公司”转型,旨在打破NVIDIA的垄断 [1] 英特尔软件生态与战略 - 英特尔于2019年发布了oneAPI跨架构编程模型,旨在让一套代码可在CPU、GPU、NPU间通用,降低开发者迁移成本 [1][53] - oneAPI允许开发者通过其迁移工具(SYCLomatic)将原本仅能在NVIDIA CUDA环境下运行的代码快速转换到英特尔硬件上,为Arc系列显卡运行主流大模型打下软件基础 [4][55] 英特尔Arc Pro B60产品规格 - 该产品基于第二代Xe2架构(Battlemage),采用完整的BMG-G21 GPU核心,拥有20个Xe2核心、2560个FP32单元、20个光追单元和160个XXM AI引擎 [6][57] - 每颗BMG-G21 GPU可提供12.28 TFLOPS的FP32浮点性能以及197 TOPS的INT8 AI性能 [8][59] - 显卡配备192bit位宽、19Gbps GDDR6显存,显存带宽高达456GB/s,显存容量为24GB [9][59] - 与更贵的NVIDIA RTX Pro 2000相比,英特尔Arc Pro B60的显存容量和显存带宽均高出50% [9][59] - NVIDIA同等显存规格的AI加速卡,售价往往是Arc Pro B60的3至4倍 [9][51][59] 高性价比AI推理解决方案 - 随着DeepSeek等大规模MoE模型爆发,英特尔Arc Pro B60成为目前市面上构建96GB(4卡)到192GB(8卡)超大显存池最具性价比的方案 [9][59] - 对于想要组建高性能本地LLM推理站的企业而言,售价约5000元的Arc Pro B60 24GB是更具性价比的选择 [50][98] - 该产品能让用户以入门级NVIDIA显卡的价钱,获得接近旗舰级NVIDIA显卡的显存容量和推理性能 [52][100] 大模型推理性能测试 (GPT-OSS-120B) - 测试平台为长城世恒X-AIGC工作站,搭载4张英特尔Arc Pro B60 24GB显卡,共计96GB显存 [11][61] - 测试模型为OpenAI开源的千亿级参数模型GPT-OSS-120B(总参数1170亿),使用MXFP4量化压缩 [27][76] - 在并发数为1的测试中,请求成功率为100%,系统运行非常稳定 [30][79] - 并发数为1时,首字延迟(TTFT)均值仅为91.37毫秒,显示预填充阶段爆发力极强 [31][80] - 并发数为1时,平均逐词延迟(ITL)为32.01毫秒,输出吞吐量为184 tokens/秒 [32][81] - 当并发数从1增至10时,系统吞吐量呈指数级增长,从184 tokens/秒飙升至613 tokens/秒 [36][85] - 并发数达到60后,吞吐量达701 tokens/秒,基本达到系统极限,请求数增至100后总吞吐量仅增加约1% [36][85] - 高负载下,计算核心填充更满,单步推理效率因批处理效应略微提升,ITL在并发数超过30后随并发增加轻微下降 [38][87] - 根据工作站约700 tokens/秒的极限性能计算,可承受约70个用户同时请求,按1:15活跃比估算,可支持约1000人同时在线聊天 [40][89] 大模型推理性能测试 (Llama-3.1-8B) 及对比 - 与同价位的NVIDIA RTX Pro 2000 16GB相比,Arc Pro B60 24GB展现出碾压性优势 [46][95] - 同样是4卡并行运算(Llama-3.1-8B-Instruct FP8),4张Arc Pro B60 24GB比4张RTX Pro 2000 16GB性能强约50% [46][49][95][98] - 在并发数为100的高负载下,凭借96GB大显存,英特尔方案吞吐量达2110 tokens/秒,而同等价位的NVIDIA方案仅为1279 tokens/秒,英特尔领先幅度超过65% [49][98] - 96GB显存意味着可本地运行参数量更大的模型,如千亿参数的GPT-OSS-120B、LLaMA-3-130B,而4张RTX Pro 2000 16GB合计64GB显存相对尴尬,仅能运行700亿参数模型,面对千亿级模型需极致量化压缩且无法支持训练和微调 [46][47][95][96]
腾讯混元AI Infra核心技术开源,推理吞吐提升30%
搜狐财经· 2026-02-04 20:22
公司技术发布 - 腾讯混元AI Infra团队宣布推出开源生产级高性能LLM推理核心算子库HPC-Ops [1] - 该算子库基于CUDA和CuTe从零构建,旨在通过抽象化工程架构、微架构深度适配及指令级极致优化,降低底层算子开发门槛,并将核心算子性能逼近硬件峰值 [1] 性能表现 - 在真实场景下,基于HPC-Ops,混元模型推理QPM提升30%,DeepSeek模型QPM提升17% [3] - 单算子性能方面,HPC-Ops的Attention相比FlashInfer/FlashAttention最高提升2.22倍 [3] - GroupGEMM相比DeepGEMM最高提升1.88倍 [3] - FusedMoE相比TensorRT-LLM最高提升1.49倍 [3] 未来发展规划 - 将重点研发稀疏Attention算子,针对性解决长上下文大模型的内存与算力瓶颈 [3] - 会拓展更丰富的量化策略,覆盖4bit/8bit混合精度等更多量化方案,以进一步平衡推理速度与模型精度 [3] - 算子库还将布局计算-通信协同优化的内核,通过融合多GPU间的计算逻辑与通信流程,大幅降低分布式推理场景下的通信开销,为超大规模大模型的高效部署提供底层支撑 [3]
“中国英伟达”突发跳水!寒武纪大跌14%市值跌破5000亿,业绩指引“小作文”流传,公司称很多传闻都是假的
金融界· 2026-02-03 11:42
公司股价与市场表现 - 公司股票(寒武纪-U,代码688256)在2024年1月12日盘中交易数据为:现价1070.99元,下跌171.0元,最高价1257.78元,最低价1063.00元,换手率3.46% [1] - 公司是上一轮科技股牛市的龙头,在2023年下半年股价涨幅超过2倍,市值最高曾超过6700亿元 [1] - 自2024年1月12日以来,公司股价持续下跌,最大跌幅已接近30%,市值回落至约4500亿元 [1] 公司核心业务与投资逻辑 - 公司的核心投资逻辑围绕三大方面:国产替代加速、大模型推理需求爆发以及行业龙头地位 [2] - 在地缘政治因素影响下,国内云厂商和互联网大厂对自主可控AI芯片的需求快速增长,公司作为国内AI芯片龙头直接受益 [2] - 以DeepSeek等为代表的本土大模型快速发展,带动了对高性能AI推理芯片的旺盛需求 [2] - 公司在AI芯片架构设计和软硬件协同优化方面有技术积累,被称为“中国英伟达” [2] 公司财务业绩与展望 - 公司于2025年1月31日发布业绩预告,预计2025年全年营业收入为60亿元至70亿元,同比增长410.87%至496.02% [2] - 公司预计2025年扣除非经常性损益后的净利润为16亿元至19亿元,归属于上市公司股东的净利润为18.5亿元至21.5亿元,实现扭亏为盈 [2] - 公司表示,业绩增长主要受益于人工智能行业算力需求的持续攀升 [2] - 2024年初,市场流传关于公司2026年业绩指引的传闻,公司回应称不清楚股价波动具体原因,并指出市场很多传闻是虚假的,呼吁投资者理性对待 [2] 公司资本运作与战略投入 - 公司的定增申请已获得上海证券交易所审核通过,计划募集资金39.85亿元 [2] - 募集资金将投入大模型芯片及软件平台的建设 [2]
曦望董事长徐冰:把大模型推理这件事,做到极致
搜狐财经· 2026-01-29 19:35
行业趋势与战略背景 - AI产业正从“训练驱动”转向“推理驱动”,推理更强调长期交付能力、单位成本和系统稳定性 [3] - 到2026年,推理算力占比将达到66%,超过训练 [4] - 智能体、3D生成、视频生成、物理世界AI等多模态复杂场景加速落地,推理需求爆发,竞争焦点转向在真实业务中跑得稳、跑得久、跑得划算 [4] - 推理成本在AI应用中的占比已高达70%,是决定AI公司盈利和商业化的关键,行业未来需将推理成本从“元级”降至“分厘级” [4] - 掌握高效、可控、可持续的推理基础设施,将主导AI的落地速度,并决定国家和企业在AI下半场的竞争力 [3][5] 公司定位与历史沿革 - 曦望是一家更懂AI的GPU芯片公司,也是国内第一家all-in推理的GPU芯片公司 [4] - 公司使命是将大模型推理做到极致 [4] - 公司前身是商汤科技的大芯片部门,成立于2020年,完整经历了从人脸识别、自动驾驶到大模型、多模态、物理AI的整个AI发展周期 [5] - 公司从第一天开始就基于真实业务场景设计芯片,被客户需求打磨 [5] - 2025年全球大模型token消耗量增长了100倍 [5] - 公司团队已超过300人,聚拢了来自英伟达、AMD、昆仑芯、商汤等公司的芯片研发精英,核心技术骨干平均有15年行业经验 [5] 产品技术与研发进展 - 公司正式亮相新一代推理GPU芯片启望S3,并披露围绕推理场景构建的算力产品体系及共建推理云生态计划 [3] - 公司并非简单做又一个GPU,而是从底层架构就为推理场景重新设计,彻底重写 [6] - 公司专为大模型推理场景做架构设计,目标是实现极致的成本效益,设计决策的根本出发点是真实业务场景中每个token的成本、能耗和SLA稳定性 [7] - 公司计划将中国的推理成本拉到“百万token一分钱”的新级别,并将其变成行业新基准 [7] - 过去8年,公司累计投入了20亿研发资金,成功量产了S1和S2芯片,S3已发布,并规划了S4和S5的路径图 [7] - S1和S2证明了公司具备芯片设计、量产和被头部客户应用的能力 [7] - 公司致力于让推理成本下降90%,并提供稳定服务,以重写中国AI产业的损益表,助力全行业盈利增收 [7] 商业模式与生态布局 - 公司不希望只做一家卖芯片的公司,而是围绕推理场景,构建“芯片+系统+生态”的整体布局 [3][8] - 商业模式包括:为产业提供推理GPU卡、一体化服务器、整机、集群方案;与商汤、范式等AI巨头、算力厂商和芯片厂商深度合作,成为现有算力系统的推理分流及成本优化层 [8] - 公司目标是让算力更便宜、部署更简单、生态更开放 [9] - 公司致力于成为推理时代让算力便宜稳定且可用的核心底座,连接底层芯片架构、国家产业政策、云厂商、AI公司及千行百业 [9] 财务与运营里程碑 - 过去一年,公司完成近30亿元的战略融资 [6] - 2025年,公司实现了破万片的芯片交付,收入大幅增长,并拿下了多个头部客户的订单 [6]
曦望发布新一代推理GPU芯片启望S3,单位Token推理成本降低90%
新浪财经· 2026-01-27 19:36
公司产品发布与性能 - 国产GPU厂商曦望发布新一代面向大模型推理的定制化GPGPU芯片启望S3 [1] - 启望S3在典型推理场景下的整体性价比相较上一代提升超过10倍 [1] - 该芯片支持FP16至FP4精度切换,并采用LPDDR6显存方案,显存容量提升4倍 [1] - 在DeepSeek V3/R1满血版等主流大模型推理中,单位Token成本较上一代降低约90% [1] 公司经营与融资情况 - 此次发布是曦望在近一年累计完成约30亿元人民币战略融资后的首次集中公开亮相 [1] - 截至2025年,曦望芯片交付量已突破一万片 [1]
GPU创企曦望一年融资30亿:出身商汤,押注推理
观察者网· 2026-01-22 21:13
公司融资与资金用途 - 曦望(Sunrise)在一年内完成近30亿元人民币融资 [1] - 投资方包括华胥基金、范式智能、杭州数据集团等产业资本,IDG资本、高榕创投、无极资本等VC/PE机构,以及诚通混改基金、杭州金投、杭州高新金投等国资背景资本 [1] - 所筹资金将用于下一代推理GPU研发、规模化量产及生态共建 [1] 公司背景与团队构成 - 公司成立于2020年,前身为商汤科技大芯片部门,于2024年底分拆独立运营 [1] - 公司专注于高性能GPU及多模态场景推理芯片的研发与商业化 [1] - 公司正式员工超200人,技术和研发人员占比80%以上 [1] - 部分员工来自AMD、百度、华为海思、商汤等行业龙头,核心技术骨干平均拥有15年行业经验,硕士及以上学历占比超过80% [1] - 董事长徐冰曾任商汤科技联合创始人,负责集团战略与资本运作,带领商汤完成累计超66亿美元融资及港交所IPO [1] - 联席CEO王勇拥有20余年芯片行业经验,曾任AMD dGPU首席架构师、百度昆仑芯核心架构师,主导多款7nm高性能芯片从研发到流片及量产 [2] - 另一位联席CEO王湛曾任职百度十六年,为百度创始团队成员、前百度资深副总裁 [2] 技术路线与产品战略 - 公司选择“纯推理”路线,与英伟达等追求“训推一体”的传统GPU厂商不同 [4] - 公司在调度机制、缓存设计、片上SRAM、芯片互联及编译器路径等核心环节针对推理场景做原生深度优化,并融合LPDDR内存技术,以实现单位Token推理成本的显著降低 [4] - 公司目标是极致降低大模型推理的成本与门槛,让推理算力变得普惠,从而充分释放AGI的全部潜力 [4] - 公司宣称其技术能让推理成本下降90%,并提供更稳定的服务 [4] 研发投入与产品矩阵 - 公司在过去数年研发投入累计20亿元人民币 [4] - 已构建起三代芯片产品矩阵 [4] - 2020年量产的S1芯片是国内首款视觉推理芯片,适配千余种CV模型,已实现IP授权索尼、小米等头部客户 [4] - 2024年量产的S2芯片对标主流A/H系列GPU,兼容CUDA生态,已适配DeepSeek、Qwen等主流模型 [4] - 计划于2026年推出的S3芯片定位为“推理性价比之王”,目标在单位Token成本、能耗上实现数量级降低,原生支持FP8/FP4低精度推理,目标直指“百万Token一分钱”的行业新基准 [5]
大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%
量子位· 2026-01-22 19:13
文章核心观点 - 在大模型竞赛中,计算效率是关键瓶颈,单纯堆叠算力(显卡)已不足够,提升效率成为新的竞争焦点 [1] - 针对当前主流算子库在H20等推理卡上性能不佳、开发门槛高等痛点,腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops [2][4] - HPC-Ops通过底层架构优化,显著提升了核心算子性能,并在真实场景中验证了其能大幅提升模型推理效率 [5][6][47] 行业背景与痛点 - 大模型时代,计算效率是AI应用及发展的关键瓶颈 [7] - 现有主流算子库(如FlashInfer、DeepGEMM)主要针对NVIDIA H800等高配训练卡优化,与国内主流线上推理服务采用的H20等推理卡不匹配,难以发挥硬件峰值性能 [7][8][13] - 业务侧对极致吞吐、低延迟及复杂量化策略(如Blockwise FP8)的需求日益迫切,亟需更适配的底层支持 [9] - 现有主流算子库存在两大痛点:1) 设计复杂,修改适配成本高,阻碍了量化算法等加速研究的创新落地 [11][12];2) 目标硬件不匹配,导致在国内主流推理卡上无法发挥全部性能 [13][14] HPC-Ops解决方案概述 - 腾讯混元使用CUDA和CuTe从零构建了一套轻量、高效的LLM核心算子库HPC-Ops [4][15] - 该库包含FusedMoE、Attention、通信、Norm、Sampler及各类融合算子等核心模块 [16] - 其设计目标是通过抽象化工程架构、微架构深度适配及指令级极致优化,降低开发门槛并将核心算子性能逼近硬件峰值 [4] 核心技术细节 - **任务特性与硬件能力对齐**:针对访存瓶颈算子,通过调整指令发射顺序进行数据预取优化,确保高数据传输利用率;针对不同问题规格做细致指令对齐,去除冗余指令,使访存带宽可达硬件峰值能力的80%以上 [19][20] - **精细的任务调度和数据重排**:重新思考任务数据划分调度策略,保证任务均衡与cache连续性;采用persistent kernel隐藏开销;通过数据重排减少额外操作和显存占用,如在FP8 Attention Kernel中采用Interleave重排技术提升性能 [22][23][24] - **聚焦计算逻辑本身**:基于CuTe扩展开发vec抽象层统一负责高效数据搬运,利用Layout代数抽象隔离复杂的Tiling与计算逻辑,让开发者能聚焦于算法本身,降低维护门槛 [26] 性能提升数据 - **端到端推理性能**:在真实场景下,基于HPC-Ops,混元模型推理QPM(每秒查询数)提升30%,DeepSeek模型QPM提升17% [5][27] - **单算子性能对比**: - Attention算子相比FlashInfer/FlashAttention最高提升2.22倍 [6][44] - GroupGEMM算子相比DeepGEMM最高提升1.88倍 [6][31] - FusedMoE算子相比TensorRT-LLM最高提升1.49倍 [6][36] - **具体场景性能**: - **GroupGEMM**:在Batch<=64的低延迟场景下优势显著,较DeepGEMM最佳表现最高提升1.88倍 [31] - **FusedMoE**:在TP(张量并行)场景下相比TensorRT-LLM最大性能提升达1.49倍;在EP(专家并行)模拟均衡场景下最大提升1.09倍 [36] - **Attention**: - Prefill场景(输入长度128~64K):batch较小时,BF16精度下相比SOTA实现提升1.3倍;大batch时与SOTA对齐 [42][43] - Decode场景:BF16精度下提升1.35倍~2.22倍;FP8精度下,当Sequence Length较大时相比SOTA提升1.09倍~2.0倍 [44] 当前能力与集成 - HPC-Ops已在腾讯大规模生产环境中完成验证 [47] - 提供简洁易用的API,可无缝对接vLLM、SGLang等主流推理框架 [48] - 原生支持BF16、FP8等多精度量化方案 [48] - 以CuTe、CUTLASS为基础,提供数百行代码即可构建SOTA算子的实践范例,降低高性能CUDA内核开发门槛 [49] 未来发展方向 - 重点研发稀疏Attention算子,以解决长上下文大模型的内存与算力瓶颈 [51] - 拓展更丰富的量化策略,覆盖4bit/8bit混合精度等更多量化方案,进一步平衡推理速度与模型精度 [51] - 布局计算-通信协同优化的内核,通过融合多GPU间的计算与通信流程,大幅降低分布式推理场景下的通信开销,支撑超大规模模型高效部署 [51] 开源与社区 - HPC-Ops已在GitHub开放源码供开发者下载使用 [52] - 腾讯混元Infra团队欢迎行业技术实践者提交高价值PR,参与算子边缘场景优化、教程案例打磨等贡献,共同推动技术发展 [52]