DeepGEMM - 财报，业绩电话会，研报，新闻

DeepGEMM

搜索文档

中金 | AI智道（7）：DeepSeek Infra开源周总结，及算力测算一览

中金点睛· 2025-03-17 07:55

文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周，其Infra工程优化能力国内领先，通过五大Infra核心技术构建大模型 - 算力全栈协同体系，实现大模型开发成本大幅压缩；成本及算力测算显示其毛利率水平国内领先；Infra优化能力推动大模型平权，对推理算力需求有积极影响，AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周：Infra层优化能力行业领先全栈协同体系 - DeepSeek开源周深度适配GPU特性，通过五大Infra核心技术构建大模型 - 算力全栈协同体系，以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环，提升千亿参数模型训练、推理效率，压缩开发成本 [2][6] 每日成果 - **Day1**：发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA，实现MoE模型推理加速，针对变长序列处理等场景优化，核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力，实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**：发布DeepEP，为MoE模型和专家并行设计的专用通信库，支持FP8低精度通信，有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点，实现训练和推理高吞吐、低延迟 [9] - **Day3**：发布DeepGEMM，针对FP8通用矩阵乘法打造，支持密集GEMM和MoE GEMM，采用CUDA核心两级累加机制，核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等，在H800上最高可实现2.7倍加速 [10] - **Day4**：开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法，通过重叠计算与通信阶段提升训练性能；EPLB是专家并行负载均衡器，用冗余专家策略和组限制专家路由解决负载不均衡问题；Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**：开源3FS和Smallpond。3FS是高性能分布式文件系统，利用SSD和RDMA网络，在性能、可用性和多样化工作负载方面有优势；Smallpond是基于DuckDB和3FS的轻量级数据处理框架，具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算：毛利率水平领先成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本，过去24小时DeepSeek V3和R1推理服务峰值占用278个节点，平均占用226.75个节点，处理608B输入Token和168B输出Token，总体GPU hours成本8.7万美元；以模型API定价测算收入、GPU hours租赁成本为核心成本项，综合毛利率在71 - 84.5%，处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高，但实际因部分Token不收费，整体毛利率会降低；海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先；其他云厂商为保证稳定性提供冗余算力，集群负载率难达DeepSeek水平，底层优化不足，会损失部分毛利率 [25] 对产业影响 - 推理算力方面，AI infra进步提升算力利用效率，推动行业繁荣，多模态、Manus等Agent应用会激发更大推理算力需求；AI应用方面，模型推理成本降低，商业化更取决于模型能力迭代和合适场景打磨，2C看好互联网大厂产品化进展，2B关注企业服务厂商客户场景磨合，期待2025年出现更多“爆款”AI应用 [26]

Artificial Intelligence

大模型平权

Artificial Intelligence

EPLB

3FS

Smallpond

Artificial Intelligence

大模型平权

Artificial Intelligence

华泰证券· 2025-03-03 21:25

行业投资评级 - 计算机行业评级为增持（维持）[7] 核心观点 - DeepSeek在6天内连续开源Infra层核心代码涉及MLA 通信-计算矩阵乘法运算专家负载文件存取等模块优化旨在提高模型和硬件效率[1] - 开源优化使理论成本利润率达545% 考虑V3定价和夜间折扣等因素付费token占比50%时测算成本利润率有望达108%[1] - 模型层持续优化有望降低应用层成本并提升应用表现建议关注拥有用户数据和场景优势的2B和2C应用公司[1] - 海外厂商以大算力探求边界提升如xAI将GPU集群从10万卡扩至20万卡训练Grok-3 OpenAI发布GPT-4 5 国内则更注重软硬件效率优化[4] - 模型能力未来或成为基础资源应用公司优势显著[5] 开源内容总结 - Day 1开源FlashMLA 用于减少训推成本针对可变长度序列优化 H800上内存限制3000 GB/s 计算限制580 TFLOPS 并适配摩尔线程海光天数GPU[12] - Day 2开源DeepEP 提高MoE模型通信速度支持节点内NVLink和节点间RDMA通信支持FP8低精度运算[12] - Day 3开源DeepGEMM 优化FP8矩阵乘法运算在大多数矩阵大小中优于专家调优内核[12] - Day 4开源DualPipe 提高通信和计算效率实现前向和后向计算通信阶段完全重叠同时开源EPLB平衡专家负载提升算力效率以及Profiling Data揭示框架配置方法[12] - Day 5开源3FS 揭示高效文件存取方法利用SSD和RDMA网络提供共享存储[12] - Day 6开源DeepSeek V3/R1推理系统概述直接揭示推理效率细节每个H800节点每秒处理73 7k输入或14 8k输出token[12] 性能与成本数据 - DeepSeek官方数据显示输入token 608B 其中342B token（56 3%）命中缓存输出token 168B[17] - 使用278个峰值H800节点（每节点8卡）平均占用226 75个节点 H800租赁成本每小时2美元日总成本87,072美元[17] - 所有请求按R1定价计费时日总收入562,027美元成本利润率545%[17] - 考虑V3定价半价仅API收费夜间折扣等因素华泰测算付费token占比50%时收入181,115美元成本利润率108%[22] 国内外模型对比 - DeepSeek-R1在GPQA（science）达71 5% AIME 24（math）达79 8% MMLU-Pro达75 9%[23] - GPT-4 5在GPQA（science）达71 4% MMLU-Pro达85 1% MMMU（multimodal）达74 4%[23] - o3-mini（high）在GPQA（science）达79 7% AIME 24（math）达87 3%[23] 产业链标的 - 推荐公司：金山办公（目标价351 05元）同花顺（目标价425 23元）用友网络（目标价16 12元）[10] - 2C应用包括三六零合合信息 2B应用包括汉得信息新致软件能科科技数据中台包括星环科技普元信息[5] 用户数据 - DeepSeek移动端日活最高达4,179万人（2/6） PC端日活最高达1,600万人（2/5）[20] - 移动端日活占ChatGPT比例最高76 26%（2/10） PC端日活占ChatGPT比例最高23 72%（1/30）[20]

Artificial Intelligence

Artificial Intelligence

爱建证券电子行业周报：DeepSeek开源周发布五大技术

爱建证券· 2025-03-03 18:10

行业投资评级 - 电子行业评级为"强于大市" [1] 核心观点 - DeepSeek开源周发布五大技术，包括FlashMLA、DeepEP、DeepGEMM、Optimized Parallelism Strategies和3FS，显著提升AI模型训练和推理效率 [6][9][11][16][19][23][28] - OpenAI发布GPT-4.5，计算效率较GPT-4提升10倍，但API成本高达75美元/百万tokens输入、150美元/百万tokens输出 [34][35] - 三星与长江存储签署3D NAND混合键合专利许可协议，计划2025年下半年量产420-430层V10 NAND [40] - 英伟达2025财年Q4营收393亿美元，同比增长78%，数据中心业务收入356亿美元，同比增长93% [30][32] - 阿里巴巴宣布未来三年投入3800亿元建设云和AI硬件基础设施 [36] - 台积电先进封装订单激增，英伟达包下七成CoWoS-L产能，预计全年出货量突破200万颗 [37] 目录分组总结 1 DeepSeek开源周发布五大技术 - **FlashMLA**：为Hopper架构GPU设计的高效MLA解码内核，在H800平台上实现3000GB/s数据吞吐与580 TFLOPS算力，性能较FlashAttention-2提升2倍 [6][8] - **DeepEP**：优化MoE模型训练和推理，节点内通信带宽达153GB/s（NVLink），节点间稳定在43-46GB/s（RDMA） [11][12] - **DeepGEMM**：FP8矩阵运算库，计算性能达1358 TFLOPS，加速比最高2.7倍 [16][17] - **Optimized Parallelism Strategies**：包含DualPipe和EPLB技术，优化并行计算和负载均衡 [19][21] - **3FS**：分布式文件系统，聚合读取吞吐量6.6 TiB/s，GraySort基准测试吞吐量3.66 TiB/分钟 [23][26] 2 全球产业动态 - **英伟达财报**：2025财年收入1305亿美元，同比增长114%，数据中心业务收入1152亿美元，同比增长142% [30][32] - **OpenAI GPT-4.5**：SimpleQA基准测试准确率62.5%，幻觉率37.1%，API成本为GPT-4o的30倍 [34][35] - **三星与长江存储**：合作开发420-430层V10 NAND，采用W2W混合键合技术 [40] - **阿里巴巴**：未来三年投入3800亿元建设云和AI基础设施 [36] - **台积电**：英伟达包下七成CoWoS-L产能，预计全年出货量200万颗 [37] - **SiC AR眼镜**：天科合达与慕德微纳合作，利用碳化硅衬底实现80°全彩视场角 [41][42] 3 本周市场回顾 - **SW一级行业**：钢铁（+3.2%）、房地产（+2.2%）、食品饮料（+1.8%）领涨，电子行业下跌4.9%，排名28/31 [44][47] - **SW三级行业**：半导体材料（+0.4%）、数字芯片设计（-2.1%）、半导体设备（-3.4%）表现较好 [47][48] - **海外市场**：费城半导体指数下跌11.7%，恒生指数上涨1.6% [51][53]

DeepSeek开源周活动收官，将加快大模型在各行业的应用落地

平安证券· 2025-03-03 17:15

行业投资评级 - 计算机行业评级为强于大市（维持）[1] 核心观点 - DeepSeek开源周活动通过发布五个开源软件库项目（涵盖计算、通信到存储），推动全球开发者复刻其低成本、高性能大模型技术，加速大模型在各行业应用落地[2][5][6] - 全球大模型竞争持续激烈（Grok-3、Claude 3.7 Sonnet、GPT-4.5陆续发布），推动AI能力上限提升，并为AI算力需求增长提供支撑[2][8][11] - 英伟达FY25Q4业绩表现强劲，营收393亿美元（环比增12%、同比增78%），净利润220.91亿美元（同比增80%），数据中心业务为主要增长引擎（收入356亿美元，环比增16%、同比增93%）[13][14] - Blackwell架构需求强劲（第四季度销售额110亿美元），推理侧应用显著提升效率（如某公司推理吞吐量提升3倍、成本降66%）[15] 行业要闻及简评 **DeepSeek开源技术细节** - 开源项目包括：Flash MLA（优化Hopper GPU解码）、DeepEP（MoE训练推理通信库）、DeepGEMM（FP8矩阵计算库）、DualPipe与EPLB（并行负载均衡工具）、3FS（数据访问助推器）[5] - 披露理论成本与利润率：峰值占用278节点（每节点8个H800 GPU），日均成本87,072美元（按2美元/小时租赁），理论日均收入562,027美元，成本利润率545%[6] **全球大模型竞争动态** - GPT-4.5采用10倍算力训练，定价较高（输入75美元/百万token、输出150美元/百万token），较Claude 3.7（输入3美元/百万token）和DeepSeek-V3（错峰优惠输入0.25元/百万token）更昂贵[9][10] - Claude 3.7 Sonnet支持标准与扩展思维双模式，提升数学、物理及编程任务能力[11] **英伟达业绩与技术进展** - FY25全年营收1,305亿美元（同比增114%），Q4毛利率73%（略低于去年同期76%）[14] - Blackwell集群规模超10万块GPU，推理领域需求强劲；Blackwell Ultra计划2025年下半年上市[15] 重点公司业绩摘要 **增长显著企业** - 同花顺：营收41.87亿元（同比增17.47%），归母净利润18.23亿元（同比增30%）[18] - 达梦数据：营收10.44亿元（同比增31.49%），归母净利润3.62亿元（同比增22.26%）[18] - 道通科技：营收39.32亿元（同比增20.95%），归母净利润6.40亿元（同比增257.34%）[18] - 金山办公：营收51.21亿元（同比增12.40%），归母净利润16.45亿元（同比增24.84%）[18] - 麒麟信安：营收2.86亿元（同比增75.24%），归母净利润786.55万元（扭亏为盈）[20] **业绩承压企业** - 中科曙光：营收131.66亿元（同比降8.27%），归母净利润19.14亿元（同比增4.26%）[18] - 奇安信：营收43.55亿元（同比降32.41%），归母净利润-13.63亿元[20] - 航天宏图：营收15.92亿元（同比降12.49%），归母净利润-14.32亿元（同比降282.71%）[20] 市场表现 - 计算机行业指数上周下跌7.82%，跑输沪深300指数（跌2.22%）5.60个百分点[21] - 年初至上周累计上涨13.79%，跑赢沪深300指数（跌1.14%）14.93个百分点[21] - 行业市盈率51.8倍，周内360只成分股中47只上涨、1只平盘、312只下跌[24] - 涨幅前列：大位科技（涨55.67%）、天玑科技（涨37.04%）、中电兴发（涨36.82%）[25] 投资建议推荐关注五大板块： 1. **信创板块**：推荐海光信息、龙芯中科、中科曙光等7家，建议关注中国软件等5家[28] 2. **华为产业链**：推荐神州数码，建议关注拓维信息等5家[28] 3. **AI板块**：强烈推荐中科创达等3家，推荐工业富联等6家，建议关注寒武纪等4家[28] 4. **低空经济**：推荐道通科技，建议关注万丰奥威等11家[28] 5. **金融IT**：强烈推荐恒生电子，推荐同花顺等3家，建议关注新国都等3家[28]

【兴证计算机】DeepSeek跟踪：AI平权领军，加力开源及降价

兴业计算机团队· 2025-03-02 19:41

本周观点聚焦 - 坚定中长期信心，在调整中加仓核心龙头，建议围绕政策及技术两大维度，积极加仓人工智能及国产化赛道 [2] - 板块出现调整受前期上涨较快及业绩快报披露等因素影响，即将进入重要政策窗口期，2025Q1业绩改善值得期待 [2] AI产业动态 - 全球AI产业加速共振，建议持续超配AI赛道，国内DeepSeek开源包括DeepEP、DeepGEMM等解决方案，覆盖底层硬件优化到上层应用多环节 [2] - DeepSeek实施"错峰定价"策略，大幅下调夜间空闲时段API调用价格，有望加速AI应用发展 [2] - 海外OpenAI发布ChatGPT 4.5，人性化交互实现明显提升，国产大模型如豆包、DeepSeek突破推动产业趋势发酵 [2] DeepSeek业务进展 - DeepSeek作为AI平权领军企业，加力开源及降价策略，业务进展显著 [3][4]

【兴证计算机】DeepSeek跟踪：AI平权领军，加力开源及降价

兴业计算机团队· 2025-03-02 19:41

本周观点聚焦 - 坚定中长期信心，在调整中加仓核心龙头，建议围绕政策及技术两大维度，积极加仓人工智能及国产化赛道 [1] - 板块出现调整受前期上涨较快及业绩快报披露等因素影响，但即将进入重要政策窗口期，2025Q1业绩改善值得期待 [1] AI产业动态 - 全球AI产业加速共振，建议持续超配AI赛道，国内DeepSeek开源包括DeepEP、DeepGEMM等解决方案，覆盖从底层硬件优化到上层应用多环节 [1] - DeepSeek实施"错峰定价"策略，大幅下调夜间空闲时段的API调用价格，有望加速AI应用发展 [1] - 海外OpenAI发布ChatGPT 4.5，在人性化交互方面实现明显提升 [1] - 国产大模型如豆包、DeepSeek取得突破，推动全球AI产业趋势持续发酵 [1] DeepSeek业务进展 - DeepSeek作为AI平权领军企业，加力开源及降价策略，业务进展显著 [2][4]

Artificial Intelligence

Artificial Intelligence

传媒行业周报：GPT-4.5发布，DeepSeek“开源周”收官

国盛证券· 2025-03-02 10:55

报告行业投资评级 - 增持（维持） [6] 报告的核心观点 - 本周（2.24 - 2.28）中信一级传媒板块下跌 8.06%，在市场影响下有所回调 [1][10] - 2025 年传媒弹性方向看好 AI 应用及并购重组，AI 应用聚焦新应用映射投资及部分较成熟应用数据跟踪，并购重组重点关注国企方向；稳健方向聚焦出版及游戏 [1] - 《哪吒 2》带动国潮 IP 热度提升，IP 变现产业链值得关注，潮流玩具、影视内容等方向有机会 [1] 根据相关目录分别进行总结投资聚焦行情概览 - 本周传媒板块下跌 8.06%，涨跌幅前三板块为钢铁（2.96%）、建材（1.98%）、房地产（1.86%），后三为计算机（ - 8.01%）、传媒（ - 8.06%）、通信（ - 9.62%） [10] - 传媒板块本周涨幅前五为宝通科技（57.6%）、天舟文化（21.6%）等，跌幅前五为光线传媒（ - 14.5%）、浙文互联（ - 14.9%）等 [13] - 教育&人服板块本周涨幅前五为高途集团（31.5%）、同道猎聘（16.8%）等，跌幅前五为佳发教育（ - 12.7%）、国新文化（ - 12.8%）等 [14] - 重点港股&中概股上市公司一周走势：泡泡玛特（ - 3.6%）、快手（ - 13.4%）等 [14] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化等 [2][18] - AI 关注奥飞娱乐、汤姆猫等 [2][18] - 游戏建议关注神州泰岳、恺英网络等 [2][18] - 国企关注慈文传媒、皖新传媒等 [2][18] - 教育关注学大教育、行动教育等 [2][18] - 港股关注腾讯控股、泡泡玛特等 [2][18] 重点事件回顾 AIGC + 游戏 - 2 月 27 日 OpenAI 发布 GPT - 4.5，计算效率比 GPT - 4 提高 10 倍以上，对人类意图理解更深刻，在协助写作和设计方面表现出色 [3][21] - 2 月 28 日 DeepSeek“开源周”收官，期间开源 Fire - Flyer 文件系统等多样化内容 [4][21] - 2 月 26 日阿里开源视频生成模型 Wan2.1，攻克静态图像文字生成，支持在视频中合理生成文字 [5][21] 子板块数据跟踪游戏 - 近期热门重点游戏包括《问鼎三国 - 策略国战手游》、《剑灵 2》等 [23] - 部分游戏榜单排名有变化，如腾讯《英雄联盟》排名 15（↓5），《金铲铲之战》排名 5（↑3）等 [24] 院线 - 内地电影市场周总票房（2.24 - 2.28）约 4.31 亿元，票房排名前三为《哪吒之魔童闹海》（3.1 亿）、《唐探 1900》（0.42 亿）、《您的声音》（0.23 亿） [24][26] 影视视频 - 2025 年 2 月 24 日至 27 日全平台剧集收视播放量，《难哄》排名第一，全网热度 84.6；综艺《火星情报局第七季》排名第一，全网热度 72.4 [26][27][28]

DeepSeek披露，一天成本利润率为545%

华尔街见闻· 2025-03-01 19:17

成本利润率披露 - 公司首次披露成本利润率关键信息假定GPU租赁成本为2美元/小时日总成本为87072美元若所有tokens按DeepSeek-R1定价计算理论日收入达562027美元成本利润率为545% [1][3] - 实际收入低于理论值因V3定价更低且存在夜间折扣收费服务仅占部分负载 [4] 资源利用与定价策略 - 最近24小时节点占用峰值278个平均22675个定价策略为014美元/百万输入tokens（缓存命中） 055美元/百万输入tokens（缓存未命中） 219美元/百万输出tokens [3] - 采用弹性资源调度白天全节点部署推理夜间释放节点用于训练/研究优化目标为提升吞吐量与降低延迟 [4][5] - 公司强调定价原则为"不贴钱也不赚暴利" 在成本基础上保持适度利润此前员工透露API服务利润率超50% [5] 行业争议与回应 - 潞晨科技创始人尤洋曾称DeepSeek API业务月亏4亿元主要因测试速度与实际场景差距机器利用率波动及不稳定性 [2][5] - 公司通过公开资源利用数据间接回应质疑证明弹性伸缩可避免资源空置 [5] - 业内人士认为在线推理领域需持续吸引用户并保持技术领先才能盈利商务付费能力与应用场景同样关键 [6] 开源周技术成果 - 公司结束为期5天的开源周累计开源5个代码库包括FlashMLA（Hopper GPU优化解码内核） DeepEP（MoE模型训练推理通信库） DeepGEMM（支持密集与MoE布局的即时编译库） Optimized Parallelism Strategies（大规模训练效率优化）及Fire-Flyer文件系统（3FS）与Smallpond数据处理框架 [7][8][9][10][11] - 开源技术被评价为从"运营驱动"转向"价值驱动" 推动智能未来创新 [12] 用户规模与行业影响 - DeepSeek App累计下载量超11亿次周活跃用户峰值近9700万 [12] - 开源生态发展被视为中国技术创新的关键力量公司实践展示开源硬件对技术自由的促进作用 [12]

开源技术

成本利润率

Artificial Intelligence

Artificial Intelligence

21世纪经济报道· 2025-02-28 16:46

开源周活动总结 - 国内AI明星企业深度求索(DeepSeek)在2月24日至28日举办了为期五天的"开源周"活动 [1][3] - 活动期间共发布了五个开源项目，涵盖计算、通信和存储等多个技术领域 [3] - 中信证券研报指出，此次开源活动有望进一步催化AI+主题，带动行业应用发展和算力需求增长 [7] 开源项目详情 - 2月24日：开源FlashMLA代码库，针对Hopper GPU优化的高效MLA解码内核，已投入生产 [4] - 2月25日：开放DeepEP通信库，支持MoE模型训练和推理的全对全通信，兼容FP8低精度运算 [4] - 2月26日：开源DeepGEMM库，专为FP8通用矩阵乘法设计，支持普通和MoE分组的GEMM [5] - 2月27日：一次性开源DualPipe工具、EPLB负载均衡器及性能分析数据集 [5] - 2月28日：开源3FS数据访问助推器 [6] API价格调整 - 2月25日恢复API充值功能，同时进行价格结构性调整 [8][9] - deepseek-chat(V3模型)：输入tokens 2元/百万，输出tokens 8元/百万 [9] - deepseek-reasoner(R1模型)：输入tokens 4元/百万，输出tokens 16元/百万 [9] - 2月26日推出错峰优惠策略 [10] - 每日00:30-08:30优惠时段 [10] - V3模型价格降至50%，R1模型降至25% [10]

券商中国· 2025-02-27 11:35

DeepSeek开源动态 - 开源周第三天宣布Optimized Parallelity Strategies，旨在提高计算效率、减少资源浪费并最大化系统性能，通过任务分配、资源协调和通信优化实现高效并行执行 [2][3] - 开源周第四天再度发布优化并行策略，包括DualPipe、专家并行负载均衡器(EPLB)及性能分析数据，需根据任务类型、数据规模和硬件环境灵活选择 [5] - 此前开源的DeepEP在20分钟内获得超1000个GitHub Star，该库为MoE模型提供Expert Parallelism通信基础，支持FP8低精度计算并优化非对称带宽转发场景 [5] - 连续开源FlashMLA（Hopper GPU高效译码内核）、DeepGEMM（支持稠密/MoE模型的FP8计算库）等工具，强化AI模型训练与推理支持 [9] 英伟达技术突破 - 开源首个Blackwell架构优化的DeepSeek-R1-FP4模型，推理速度达21,088 token/秒（较H100提升25倍），每token成本降低20倍 [7][8] - FP4量化技术将Transformer线性算子权重压缩至4位，显存需求减少1.6倍，在MMLU基准测试中达到FP8模型99.8%性能 [7][8] - 结合TensorRT-LLM部署，需8颗B200 GPU实现张量并行，供应商可提供每百万token 0.25美元的低成本服务 [8] 商业策略调整 - 北京时间每日00:30-08:30下调API价格，DeepSeek-V3降至原价50%，DeepSeek-R1低至25%（降幅75%），鼓励夜间资源利用 [6]

英伟达(US:NVDA)

Artificial Intelligence

Parallel Computing

Artificial Intelligence

DeepSeek-R1-FP4

DeepSeek-R1

DeepEP

Artificial Intelligence

Parallel Computing

Artificial Intelligence