DeepGEMM

搜索文档
中金 | AI智道(7):DeepSeek Infra开源周总结,及算力测算一览
中金点睛· 2025-03-17 07:55
文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周,其Infra工程优化能力国内领先,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,实现大模型开发成本大幅压缩;成本及算力测算显示其毛利率水平国内领先;Infra优化能力推动大模型平权,对推理算力需求有积极影响,AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周:Infra层优化能力行业领先 全栈协同体系 - DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环,提升千亿参数模型训练、推理效率,压缩开发成本 [2][6] 每日成果 - **Day1**:发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,实现MoE模型推理加速,针对变长序列处理等场景优化,核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力,实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**:发布DeepEP,为MoE模型和专家并行设计的专用通信库,支持FP8低精度通信,有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点,实现训练和推理高吞吐、低延迟 [9] - **Day3**:发布DeepGEMM,针对FP8通用矩阵乘法打造,支持密集GEMM和MoE GEMM,采用CUDA核心两级累加机制,核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等,在H800上最高可实现2.7倍加速 [10] - **Day4**:开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法,通过重叠计算与通信阶段提升训练性能;EPLB是专家并行负载均衡器,用冗余专家策略和组限制专家路由解决负载不均衡问题;Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**:开源3FS和Smallpond。3FS是高性能分布式文件系统,利用SSD和RDMA网络,在性能、可用性和多样化工作负载方面有优势;Smallpond是基于DuckDB和3FS的轻量级数据处理框架,具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算:毛利率水平领先 成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本,过去24小时DeepSeek V3和R1推理服务峰值占用278个节点,平均占用226.75个节点,处理608B输入Token和168B输出Token,总体GPU hours成本8.7万美元;以模型API定价测算收入、GPU hours租赁成本为核心成本项,综合毛利率在71 - 84.5%,处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高,但实际因部分Token不收费,整体毛利率会降低;海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先;其他云厂商为保证稳定性提供冗余算力,集群负载率难达DeepSeek水平,底层优化不足,会损失部分毛利率 [25] 对产业影响 - 推理算力方面,AI infra进步提升算力利用效率,推动行业繁荣,多模态、Manus等Agent应用会激发更大推理算力需求;AI应用方面,模型推理成本降低,商业化更取决于模型能力迭代和合适场景打磨,2C看好互联网大厂产品化进展,2B关注企业服务厂商客户场景磨合,期待2025年出现更多“爆款”AI应用 [26]
【兴证计算机】DeepSeek跟踪:AI平权领军,加力开源及降价
兴业计算机团队· 2025-03-02 19:41
点击上方"公众号"可订阅哦! 兴业证券计算机小组 使用本研究报告的风险提示及法律声明 周观点 坚定中长期信心,在调整中加仓核心龙头 坚定中长期信心,在调整中加仓核心龙头。 本周,受前期上涨较快及业绩快报披露等因素影响,板块出现一定的 调整。展望后市,快报已披露完毕,即将进入重要的政策窗口期,同时 2025Q1 业绩改善值得期待。建议围绕政 策及技术两大维度,积极加仓核心赛道龙头,主要包括人工智能及国产化。 全球 AI 产业正加速共振,继续超配 AI 赛道。 在国内, DeepSeek 本周开源了包括 DeepEP 、 DeepGEMM 等在内的一系列解决方案,覆盖从底层硬件优化到上层应用多环节;同时,实施"错峰定价"策略,大幅下调夜间 空闲时段的 API 调用价格,有望加速 AI 应用发展。在海外, OpenAI 本周发布 ChatGPT 4.5 ,其在人性化交 互方面实现明显提升。今年以来,自从包括豆包、 DeepSeek 在内的国产大模型突破以来,全球 AI 产业的共振 正在加速,产业趋势不断发酵。建议持续超配。 本文第二章,对 AI 平权领军 DeepSeek 的业务进展进行了重点跟踪。 风险提示: 板 ...
【兴证计算机】DeepSeek跟踪:AI平权领军,加力开源及降价
兴业计算机团队· 2025-03-02 19:41
点击上方"公众号"可订阅哦! 兴业证券计算机小组 蒋佳霖/孙乾/陈鑫/杨本鸿/张旭光/杨海盟/桂杨 本周观点聚焦 1、本周 观 点: 坚定中长期信心,在调整中加仓核心龙头 2、深度跟 踪: DeepSeek 跟踪: AI 平权领军,加力开源及降价 周观点 坚定中长期信心,在调整中加仓核心龙头 坚定中长期信心,在调整中加仓核心龙头。 本周,受前期上涨较快及业绩快报披露等因素影响,板块出现一定的调整。展望后市,快报已披露完毕,即将进入重要的政 策窗口期,同时 2025Q1 业绩改善值得期待。建议围绕政策及技术两大维度,积极加仓核心赛道龙头,主要包括人工智能及国产化。 全球 AI 产业正加速共振,继续超配 AI 赛道。 在国内, DeepSeek 本周开源了包括 DeepEP 、 DeepGEMM 等在内的一系列解决方案,覆盖从底层硬件优化到上层应 用多环节;同时,实施"错峰定价"策略,大幅下调夜间空闲时段的 API 调用价格,有望加速 AI 应用发展。在海外, OpenAI 本周发布 ChatGPT 4.5 ,其在人性化交互 方面实现明显提升。今年以来,自从包括豆包、 DeepSeek 在内的国产大模型突破以来, ...
DeepSeek披露,一天成本利润率为545%
华尔街见闻· 2025-03-01 19:17
3月1日中午,DeepSeek在知乎平台发布首条文章,公布模型推理成本利润细节,并披露成本利润率关键信息。DeepSeek称,假定GPU租赁成本为2美元/小时,总 成本为87072美元/天……统计包括网页、App和API在内的所有负载,如果所有tokens全部按照DeepSeek-R1的定价计算,理论上一天的总收入为562027美元,成本 利润率为545%。 文章一经发出,不少网友纷纷在评论区@尤洋。尤洋是潞晨科技创始人。此前,尤洋公开表示,卖DeepSeek API(MaaS)每月亏本4亿元。该消息一度引起轰 动。目前,尤洋已回应称,"由于多人at我,我今天(3月1日)之内会直接地回复一下"。 理论上一天的成本利润率为545% 文章中,DeepSeek首次披露成本利润率关键信息。DeepSeek统计了在24小时统计时段内DeepSeek-V3和R1网页、App和API的所有负载,所有tokens按照DeepSeek- R1的定价,并假定GPU租赁成本为2美元/小时,总成本为87072美元一天。DeepSeek称理论上一天的成本利润率为545%。 其中,DeepSeek称,在最近的24小时里(北京时间2025 ...
DeepSeek宣布:活动正式收官
21世纪经济报道· 2025-02-28 16:46
2月2 8日,国内AI明星企业深度求索(De e pSe e k)为期五天的"开源周"活动正式收官。 "开源周"都发布了什么? 自2月2 4日启动以来,De e pSe e k "开源周"发布的五个项目涵盖了从计算、通信到存储的各个 方面。 2 月 2 4 日 : 首 个 开 源 的 代 码 库 为 F l a s h M L A , 这 是 针 对 H o p p e r G P U 优 化 的 高 效 M L A 解码内核,针对可变长度序列作了优化,目前已投入生产。 2 月 2 5 日 : 宣 布 将 D e e pEP 向 公 众 开 放 。 D e e pEP 是 用 于 M oE ( 混 合 专 家 ) 模 型 训 练 和 推 理 的 EP ( Ex p e rt P a r a l l e l ism , 专 家 并 行 ) 通 信 库 , 可 以 实 现 高 效 且 优 化 的 全 对 全 通信,支持包括F P 8在内的低精度运算,适配现代高性能计算需求。 2月2 6日:宣布开源D e e p G E M M。D e e p G E M M 是一个专为简洁高效的 F P 8 通用矩阵 乘 法 ( ...
刚刚!DeepSeek,硬核发布!
券商中国· 2025-02-27 11:35
DeepSeek又有大动作! 开源周第三天,DeepSeek宣布开源Optimized Parallelism Strategies(优化并行策略)。 Optimized Parallelism Strategies,该策略是为了提高计算效率、减少资源浪费并最大化系统性能而设计的并 行计算方案。这些策略通过合理分配任务、协调资源利用和减少通信开销,实现在多核、分布式或异构系统中 的高效并行执行。 英伟达通过在Blackwell架构上应用TensorRT DeepSeek优化,让具有FP4生产级精度的模型,在MMLU通用智 能基准测试中达到了FP8 模型性能的99.8%。目前,英伟达基于FP4优化的DeepSeek-R1检查点已经在Hugging Face上开源,并且可以通过以下链接访问模型地址:DeepSeek-R1-FP4。 在后训练量化方面,该模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT- LLM推理。这一优化使每个参数的位数从8位减少到4位,从而让磁碟空间和GPU显存的需求减少了约1.6倍。 使用TensorRT-LLM部署量化后的FP4权重文件,能够为 ...
陆家嘴财经早餐2025年2月27日星期四
Wind万得· 2025-02-27 06:44
// 热点聚焦 // 1、 DeepSeek开源周第三日,宣布开放DeepGEMM代码库。DeepGEMM是一个专为简洁高效的FP8通用矩阵乘法(GEMM)设计的库。该库采用CUDA 编写,在安装过程中无需编译,通过使用轻量级的即时编译(JIT)模块在运行时编译所有内核。 DeepSeek并宣布,推出错峰优惠活动,北京时间每日 00:30至08:30的夜间空闲时段,API调用价格大幅下调,DeepSeek-V3降至原价的50%,DeepSeek-R1更低至25%。 2、 中证金融官微不再披露融资融券数据,两融市场每日数据由中证数据公司官网披露,历史数据也同步迁移至相同板块下。根据中证数据官网显示,其 披露统计范围涵盖"融资融券余额情况、融资融券交易情况、证券公司开展业务情况以及担保品情况"四大类共计18项具体指标。 3、 中金公司、中国银河发布公告回应合并传闻,均称公司未得到任何来自政府部门、监管机构或公司股东有关合并的书面或口头信息。 周三下午,有市 场消息称,中金公司将与中国银河拟通过换股方式合并,预计将于未来几周内宣布。受此影响,中金公司、中国银河A股当日收盘双双涨停;此外,中国 银河港股上涨超17%, ...
【太平洋电子-每日观点&资讯】(2025-02-27)
远峰电子· 2025-02-26 21:03
行情速递 - 主板领涨个股包括科森科技(+10.04%)、和而泰(+10.01%)、泰晶科技(+5.86%)、露笑科技(+5.60%)、盈方微(+4.35%)[1] - 科创板领涨个股包括灿芯股份(+20.00%)、芯原股份(+13.24%)、长光华芯(+10.53%)、天岳先进(+9.98%)、安路科技(+6.72%)[1] - 活跃子行业中SW数字芯片设计上涨3.23%,SW半导体材料上涨1.41%[1] 国内新闻 - 小米15Ultra手机配备6000mAh电池,支持90W有线充和80W无线充,电池含硅量达10%,日常应用续航DOU达1.46天,1000次充电循环后容量仍>90%[1] - Xiaomi HAD端到端全场景智驾正式发布并全量推送,小米su7ultra出厂即搭载[1] - DeepSeek开源DeepGEMM库,专为FP8通用矩阵乘法设计,采用CUDA编写,无需编译[1] - Nullmax与瑞萨电子签署战略合作协议,将结合Nullmax的AI软件算法与瑞萨R-Car V4/X5系列芯片打造智能驾驶解决方案[1] 公司公告 - 复旦微电2024年营收35.90亿元(同比增长1.51%),归母净利润5.73亿元[3] - 清溢光电2024年营收11.12亿元(同比增长20.35%),归母净利润1.72亿元(同比增长28.80%)[3] - 炬光科技2024年营收6.19亿元(同比增长10.32%)[3] - 英集芯2024年营收14.29亿元(同比增长17.53%),归母净利润1.24亿元(同比增长322.73%)[3] 海外新闻 - 美光出货1γ 10纳米级DDR5内存样品,数据传输速率达9200MT/s(提升15%),功耗降低超20%[3] - 2024Q4全球AI电脑出货量1540万台(占电脑总出货量23%),苹果市场份额达54%[3] - 2024年全球智能手机面板出货量21.57亿片(同比增长11.4%),预计2025年将衰退3.2%至20.93亿片[3] - Meta讨论价值2000亿美元人工智能数据中心项目[3]