Workflow
DeepGEMM
icon
搜索文档
中金 | AI智道(7):DeepSeek Infra开源周总结,及算力测算一览
中金点睛· 2025-03-17 07:55
文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周,其Infra工程优化能力国内领先,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,实现大模型开发成本大幅压缩;成本及算力测算显示其毛利率水平国内领先;Infra优化能力推动大模型平权,对推理算力需求有积极影响,AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周:Infra层优化能力行业领先 全栈协同体系 - DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环,提升千亿参数模型训练、推理效率,压缩开发成本 [2][6] 每日成果 - **Day1**:发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,实现MoE模型推理加速,针对变长序列处理等场景优化,核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力,实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**:发布DeepEP,为MoE模型和专家并行设计的专用通信库,支持FP8低精度通信,有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点,实现训练和推理高吞吐、低延迟 [9] - **Day3**:发布DeepGEMM,针对FP8通用矩阵乘法打造,支持密集GEMM和MoE GEMM,采用CUDA核心两级累加机制,核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等,在H800上最高可实现2.7倍加速 [10] - **Day4**:开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法,通过重叠计算与通信阶段提升训练性能;EPLB是专家并行负载均衡器,用冗余专家策略和组限制专家路由解决负载不均衡问题;Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**:开源3FS和Smallpond。3FS是高性能分布式文件系统,利用SSD和RDMA网络,在性能、可用性和多样化工作负载方面有优势;Smallpond是基于DuckDB和3FS的轻量级数据处理框架,具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算:毛利率水平领先 成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本,过去24小时DeepSeek V3和R1推理服务峰值占用278个节点,平均占用226.75个节点,处理608B输入Token和168B输出Token,总体GPU hours成本8.7万美元;以模型API定价测算收入、GPU hours租赁成本为核心成本项,综合毛利率在71 - 84.5%,处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高,但实际因部分Token不收费,整体毛利率会降低;海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先;其他云厂商为保证稳定性提供冗余算力,集群负载率难达DeepSeek水平,底层优化不足,会损失部分毛利率 [25] 对产业影响 - 推理算力方面,AI infra进步提升算力利用效率,推动行业繁荣,多模态、Manus等Agent应用会激发更大推理算力需求;AI应用方面,模型推理成本降低,商业化更取决于模型能力迭代和合适场景打磨,2C看好互联网大厂产品化进展,2B关注企业服务厂商客户场景磨合,期待2025年出现更多“爆款”AI应用 [26]
爱建证券电子行业周报:DeepSeek开源周发布五大技术
爱建证券· 2025-03-03 18:10
行业投资评级 - 电子行业评级为"强于大市" [1] 核心观点 - DeepSeek开源周发布五大技术,包括FlashMLA、DeepEP、DeepGEMM、Optimized Parallelism Strategies和3FS,显著提升AI模型训练和推理效率 [6][9][11][16][19][23][28] - OpenAI发布GPT-4.5,计算效率较GPT-4提升10倍,但API成本高达75美元/百万tokens输入、150美元/百万tokens输出 [34][35] - 三星与长江存储签署3D NAND混合键合专利许可协议,计划2025年下半年量产420-430层V10 NAND [40] - 英伟达2025财年Q4营收393亿美元,同比增长78%,数据中心业务收入356亿美元,同比增长93% [30][32] - 阿里巴巴宣布未来三年投入3800亿元建设云和AI硬件基础设施 [36] - 台积电先进封装订单激增,英伟达包下七成CoWoS-L产能,预计全年出货量突破200万颗 [37] 目录分组总结 1 DeepSeek开源周发布五大技术 - **FlashMLA**:为Hopper架构GPU设计的高效MLA解码内核,在H800平台上实现3000GB/s数据吞吐与580 TFLOPS算力,性能较FlashAttention-2提升2倍 [6][8] - **DeepEP**:优化MoE模型训练和推理,节点内通信带宽达153GB/s(NVLink),节点间稳定在43-46GB/s(RDMA) [11][12] - **DeepGEMM**:FP8矩阵运算库,计算性能达1358 TFLOPS,加速比最高2.7倍 [16][17] - **Optimized Parallelism Strategies**:包含DualPipe和EPLB技术,优化并行计算和负载均衡 [19][21] - **3FS**:分布式文件系统,聚合读取吞吐量6.6 TiB/s,GraySort基准测试吞吐量3.66 TiB/分钟 [23][26] 2 全球产业动态 - **英伟达财报**:2025财年收入1305亿美元,同比增长114%,数据中心业务收入1152亿美元,同比增长142% [30][32] - **OpenAI GPT-4.5**:SimpleQA基准测试准确率62.5%,幻觉率37.1%,API成本为GPT-4o的30倍 [34][35] - **三星与长江存储**:合作开发420-430层V10 NAND,采用W2W混合键合技术 [40] - **阿里巴巴**:未来三年投入3800亿元建设云和AI基础设施 [36] - **台积电**:英伟达包下七成CoWoS-L产能,预计全年出货量200万颗 [37] - **SiC AR眼镜**:天科合达与慕德微纳合作,利用碳化硅衬底实现80°全彩视场角 [41][42] 3 本周市场回顾 - **SW一级行业**:钢铁(+3.2%)、房地产(+2.2%)、食品饮料(+1.8%)领涨,电子行业下跌4.9%,排名28/31 [44][47] - **SW三级行业**:半导体材料(+0.4%)、数字芯片设计(-2.1%)、半导体设备(-3.4%)表现较好 [47][48] - **海外市场**:费城半导体指数下跌11.7%,恒生指数上涨1.6% [51][53]
【兴证计算机】DeepSeek跟踪:AI平权领军,加力开源及降价
兴业计算机团队· 2025-03-02 19:41
本周观点聚焦 - 坚定中长期信心,在调整中加仓核心龙头,建议围绕政策及技术两大维度,积极加仓人工智能及国产化赛道 [2] - 板块出现调整受前期上涨较快及业绩快报披露等因素影响,即将进入重要政策窗口期,2025Q1业绩改善值得期待 [2] AI产业动态 - 全球AI产业加速共振,建议持续超配AI赛道,国内DeepSeek开源包括DeepEP、DeepGEMM等解决方案,覆盖底层硬件优化到上层应用多环节 [2] - DeepSeek实施"错峰定价"策略,大幅下调夜间空闲时段API调用价格,有望加速AI应用发展 [2] - 海外OpenAI发布ChatGPT 4.5,人性化交互实现明显提升,国产大模型如豆包、DeepSeek突破推动产业趋势发酵 [2] DeepSeek业务进展 - DeepSeek作为AI平权领军企业,加力开源及降价策略,业务进展显著 [3][4]
【兴证计算机】DeepSeek跟踪:AI平权领军,加力开源及降价
兴业计算机团队· 2025-03-02 19:41
本周观点聚焦 - 坚定中长期信心,在调整中加仓核心龙头,建议围绕政策及技术两大维度,积极加仓人工智能及国产化赛道 [1] - 板块出现调整受前期上涨较快及业绩快报披露等因素影响,但即将进入重要政策窗口期,2025Q1业绩改善值得期待 [1] AI产业动态 - 全球AI产业加速共振,建议持续超配AI赛道,国内DeepSeek开源包括DeepEP、DeepGEMM等解决方案,覆盖从底层硬件优化到上层应用多环节 [1] - DeepSeek实施"错峰定价"策略,大幅下调夜间空闲时段的API调用价格,有望加速AI应用发展 [1] - 海外OpenAI发布ChatGPT 4.5,在人性化交互方面实现明显提升 [1] - 国产大模型如豆包、DeepSeek取得突破,推动全球AI产业趋势持续发酵 [1] DeepSeek业务进展 - DeepSeek作为AI平权领军企业,加力开源及降价策略,业务进展显著 [2][4]
传媒行业周报:GPT-4.5发布,DeepSeek“开源周”收官
国盛证券· 2025-03-02 10:55
报告行业投资评级 - 增持(维持) [6] 报告的核心观点 - 本周(2.24 - 2.28)中信一级传媒板块下跌 8.06%,在市场影响下有所回调 [1][10] - 2025 年传媒弹性方向看好 AI 应用及并购重组,AI 应用聚焦新应用映射投资及部分较成熟应用数据跟踪,并购重组重点关注国企方向;稳健方向聚焦出版及游戏 [1] - 《哪吒 2》带动国潮 IP 热度提升,IP 变现产业链值得关注,潮流玩具、影视内容等方向有机会 [1] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周传媒板块下跌 8.06%,涨跌幅前三板块为钢铁(2.96%)、建材(1.98%)、房地产(1.86%),后三为计算机( - 8.01%)、传媒( - 8.06%)、通信( - 9.62%) [10] - 传媒板块本周涨幅前五为宝通科技(57.6%)、天舟文化(21.6%)等,跌幅前五为光线传媒( - 14.5%)、浙文互联( - 14.9%)等 [13] - 教育&人服板块本周涨幅前五为高途集团(31.5%)、同道猎聘(16.8%)等,跌幅前五为佳发教育( - 12.7%)、国新文化( - 12.8%)等 [14] - 重点港股&中概股上市公司一周走势:泡泡玛特( - 3.6%)、快手( - 13.4%)等 [14] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化等 [2][18] - AI 关注奥飞娱乐、汤姆猫等 [2][18] - 游戏建议关注神州泰岳、恺英网络等 [2][18] - 国企关注慈文传媒、皖新传媒等 [2][18] - 教育关注学大教育、行动教育等 [2][18] - 港股关注腾讯控股、泡泡玛特等 [2][18] 重点事件回顾 AIGC + 游戏 - 2 月 27 日 OpenAI 发布 GPT - 4.5,计算效率比 GPT - 4 提高 10 倍以上,对人类意图理解更深刻,在协助写作和设计方面表现出色 [3][21] - 2 月 28 日 DeepSeek“开源周”收官,期间开源 Fire - Flyer 文件系统等多样化内容 [4][21] - 2 月 26 日阿里开源视频生成模型 Wan2.1,攻克静态图像文字生成,支持在视频中合理生成文字 [5][21] 子板块数据跟踪 游戏 - 近期热门重点游戏包括《问鼎三国 - 策略国战手游》、《剑灵 2》等 [23] - 部分游戏榜单排名有变化,如腾讯《英雄联盟》排名 15(↓5),《金铲铲之战》排名 5(↑3)等 [24] 院线 - 内地电影市场周总票房(2.24 - 2.28)约 4.31 亿元,票房排名前三为《哪吒之魔童闹海》(3.1 亿)、《唐探 1900》(0.42 亿)、《您的声音》(0.23 亿) [24][26] 影视视频 - 2025 年 2 月 24 日至 27 日全平台剧集收视播放量,《难哄》排名第一,全网热度 84.6;综艺《火星情报局第七季》排名第一,全网热度 72.4 [26][27][28]
DeepSeek披露,一天成本利润率为545%
华尔街见闻· 2025-03-01 19:17
成本利润率披露 - 公司首次披露成本利润率关键信息 假定GPU租赁成本为2美元/小时 日总成本为87072美元 若所有tokens按DeepSeek-R1定价计算 理论日收入达562027美元 成本利润率为545% [1][3] - 实际收入低于理论值 因V3定价更低且存在夜间折扣 收费服务仅占部分负载 [4] 资源利用与定价策略 - 最近24小时节点占用峰值278个 平均22675个 定价策略为014美元/百万输入tokens(缓存命中) 055美元/百万输入tokens(缓存未命中) 219美元/百万输出tokens [3] - 采用弹性资源调度 白天全节点部署推理 夜间释放节点用于训练/研究 优化目标为提升吞吐量与降低延迟 [4][5] - 公司强调定价原则为"不贴钱也不赚暴利" 在成本基础上保持适度利润 此前员工透露API服务利润率超50% [5] 行业争议与回应 - 潞晨科技创始人尤洋曾称DeepSeek API业务月亏4亿元 主要因测试速度与实际场景差距 机器利用率波动及不稳定性 [2][5] - 公司通过公开资源利用数据间接回应质疑 证明弹性伸缩可避免资源空置 [5] - 业内人士认为在线推理领域需持续吸引用户并保持技术领先才能盈利 商务付费能力与应用场景同样关键 [6] 开源周技术成果 - 公司结束为期5天的开源周 累计开源5个代码库 包括FlashMLA(Hopper GPU优化解码内核) DeepEP(MoE模型训练推理通信库) DeepGEMM(支持密集与MoE布局的即时编译库) Optimized Parallelism Strategies(大规模训练效率优化)及Fire-Flyer文件系统(3FS)与Smallpond数据处理框架 [7][8][9][10][11] - 开源技术被评价为从"运营驱动"转向"价值驱动" 推动智能未来创新 [12] 用户规模与行业影响 - DeepSeek App累计下载量超11亿次 周活跃用户峰值近9700万 [12] - 开源生态发展被视为中国技术创新的关键力量 公司实践展示开源硬件对技术自由的促进作用 [12]
DeepSeek宣布:活动正式收官
21世纪经济报道· 2025-02-28 16:46
开源周活动总结 - 国内AI明星企业深度求索(DeepSeek)在2月24日至28日举办了为期五天的"开源周"活动 [1][3] - 活动期间共发布了五个开源项目,涵盖计算、通信和存储等多个技术领域 [3] - 中信证券研报指出,此次开源活动有望进一步催化AI+主题,带动行业应用发展和算力需求增长 [7] 开源项目详情 - 2月24日:开源FlashMLA代码库,针对Hopper GPU优化的高效MLA解码内核,已投入生产 [4] - 2月25日:开放DeepEP通信库,支持MoE模型训练和推理的全对全通信,兼容FP8低精度运算 [4] - 2月26日:开源DeepGEMM库,专为FP8通用矩阵乘法设计,支持普通和MoE分组的GEMM [5] - 2月27日:一次性开源DualPipe工具、EPLB负载均衡器及性能分析数据集 [5] - 2月28日:开源3FS数据访问助推器 [6] API价格调整 - 2月25日恢复API充值功能,同时进行价格结构性调整 [8][9] - deepseek-chat(V3模型):输入tokens 2元/百万,输出tokens 8元/百万 [9] - deepseek-reasoner(R1模型):输入tokens 4元/百万,输出tokens 16元/百万 [9] - 2月26日推出错峰优惠策略 [10] - 每日00:30-08:30优惠时段 [10] - V3模型价格降至50%,R1模型降至25% [10]
刚刚!DeepSeek,硬核发布!
券商中国· 2025-02-27 11:35
DeepSeek开源动态 - 开源周第三天宣布Optimized Parallelity Strategies,旨在提高计算效率、减少资源浪费并最大化系统性能,通过任务分配、资源协调和通信优化实现高效并行执行 [2][3] - 开源周第四天再度发布优化并行策略,包括DualPipe、专家并行负载均衡器(EPLB)及性能分析数据,需根据任务类型、数据规模和硬件环境灵活选择 [5] - 此前开源的DeepEP在20分钟内获得超1000个GitHub Star,该库为MoE模型提供Expert Parallelism通信基础,支持FP8低精度计算并优化非对称带宽转发场景 [5] - 连续开源FlashMLA(Hopper GPU高效译码内核)、DeepGEMM(支持稠密/MoE模型的FP8计算库)等工具,强化AI模型训练与推理支持 [9] 英伟达技术突破 - 开源首个Blackwell架构优化的DeepSeek-R1-FP4模型,推理速度达21,088 token/秒(较H100提升25倍),每token成本降低20倍 [7][8] - FP4量化技术将Transformer线性算子权重压缩至4位,显存需求减少1.6倍,在MMLU基准测试中达到FP8模型99.8%性能 [7][8] - 结合TensorRT-LLM部署,需8颗B200 GPU实现张量并行,供应商可提供每百万token 0.25美元的低成本服务 [8] 商业策略调整 - 北京时间每日00:30-08:30下调API价格,DeepSeek-V3降至原价50%,DeepSeek-R1低至25%(降幅75%),鼓励夜间资源利用 [6]
陆家嘴财经早餐2025年2月27日星期四
Wind万得· 2025-02-27 06:44
热点聚焦 - DeepSeek开源周第三日宣布开放DeepGEMM代码库,该库专为FP8通用矩阵乘法设计,采用CUDA编写并支持JIT编译,同时推出夜间API调用错峰优惠,DeepSeek-V3价格降至50%,DeepSeek-R1低至25% [2] - 中证金融官微停止披露两融数据,改由中证数据官网发布,涵盖融资融券余额、交易、券商业务及担保品等18项指标 [2] - 中金公司与中国银河回应合并传闻称未获官方信息,但市场传闻推动两者A股涨停,港股分别上涨19%和17% [3] - 美国宣布自4月2日起对墨西哥商品及加拿大非能源类商品征收25%关税,并计划对欧盟加征汽车等商品关税 [3] 环球市场 - 美股三大指数涨跌不一:道指跌0.43%,标普500微涨0.01%,纳指涨0.26%,科技股中英伟达涨超3%,中概股高途集团涨31% [5] - 欧股全线收涨,德国DAX指数涨1.71%,法国CAC40涨1.15%,英国富时100涨0.72% [5] - 亚太股指分化,韩国综指涨0.41%,日经225跌0.25%,印度休市 [5] - 贵金属上涨,COMEX黄金涨0.44%至2931.7美元/盎司,白银涨1.25%至32.225美元/盎司 [5] - 国际油价小幅下跌,美油4月合约跌0.16%至68.82美元/桶 [6] - 伦敦金属涨跌互现,LME期镍涨1.79%至15610美元/吨,期锡跌1.39% [6] 宏观 - 金融监管总局与发改委召开座谈会,强调扩大金融资产投资公司试点以支持科创和民企 [9] - 央行开展5487亿元7天逆回购操作,净投放98亿元 [9] - 香港2024年经济增长2.5%,预计2025年增长2%-3%,2024/2025财年赤字872亿港元 [9] - 券商前瞻两会:预计经济增长目标5%,关注新质生产力与消费政策,A股或迎结构性机会 [10] 国内股市 - A股三大指数收涨,上证指数涨1.02%至3380.21点,成交1.97万亿元,超4200股上涨 [12] - 港股恒生指数涨3.27%,恒生科技指数涨4.47%,中金公司港股涨19%,南向资金净买入104亿港元 [12] - 证监会支持重庆区域发展,优化科创100/200指数编制方案 [13] - 海外机构2月调研A股117家,电子行业最受关注(22家) [13] 产业 - 八部门启动第二批公共领域车辆试点,目标新增新能源车25万辆、充电桩24万个 [22] - 乘联会数据:2月1-23日新能源车零售44.5万辆,同比增77% [22] - 香港拨款10亿港元设立AI研究所,拟举办国际机器人会议 [22] - 小米发布SU7 Ultra全场景智驾系统,15 Ultra手机配备6000mAh电池 [15][16] - 蜜雪冰城港股IPO认购倍数达5125倍,创纪录融资1.77万亿港元 [16] 国际股市 - 中概股普涨,纳斯达克中国金龙指数涨3.66%,高途集团涨31%,小鹏汽车涨14% [27] - 特斯拉焕新Model Y在华交付,售价26.35万元起 [27] - 英伟达Q4营收393亿美元超预期,净利润220.91亿美元,盘后股价跌超1% [30] - Meta计划投资2000亿美元建AI数据中心 [29] 商品与资源 - 湖北发现253.8万吨铌矿,占全国储量54% [32] - 美国EIA原油库存意外减少233.2万桶,出口降至418.8万桶/日 [32] - 泰国大米出口预计下降24%至750万吨 [33] - 碳酸锂价格跌至7.57万元/吨,创1个月新低 [33] 金融与债券 - 香港未来5年拟发债1500亿-1950亿港元用于基建 [35] - 银行间利率债中短端收益率下行1-2bp,国债期货全线收涨 [35] - 中证转债指数涨0.81%,近八成转债上涨 [35] 公司公告 - 中科曙光2024年净利润19.14亿元,同比增4.26% [17] - 歌尔股份控股股东拟5亿-10亿元增持股份 [17] - 豪恩汽电获合资品牌智能驾驶摄像系统定点 [17] - 江苏吴中因信披违规被证监会立案 [17]
【太平洋电子-每日观点&资讯】(2025-02-27)
远峰电子· 2025-02-26 21:03
行情速递 - 主板领涨个股包括科森科技(+10.04%)、和而泰(+10.01%)、泰晶科技(+5.86%)、露笑科技(+5.60%)、盈方微(+4.35%)[1] - 科创板领涨个股包括灿芯股份(+20.00%)、芯原股份(+13.24%)、长光华芯(+10.53%)、天岳先进(+9.98%)、安路科技(+6.72%)[1] - 活跃子行业中SW数字芯片设计上涨3.23%,SW半导体材料上涨1.41%[1] 国内新闻 - 小米15Ultra手机配备6000mAh电池,支持90W有线充和80W无线充,电池含硅量达10%,日常应用续航DOU达1.46天,1000次充电循环后容量仍>90%[1] - Xiaomi HAD端到端全场景智驾正式发布并全量推送,小米su7ultra出厂即搭载[1] - DeepSeek开源DeepGEMM库,专为FP8通用矩阵乘法设计,采用CUDA编写,无需编译[1] - Nullmax与瑞萨电子签署战略合作协议,将结合Nullmax的AI软件算法与瑞萨R-Car V4/X5系列芯片打造智能驾驶解决方案[1] 公司公告 - 复旦微电2024年营收35.90亿元(同比增长1.51%),归母净利润5.73亿元[3] - 清溢光电2024年营收11.12亿元(同比增长20.35%),归母净利润1.72亿元(同比增长28.80%)[3] - 炬光科技2024年营收6.19亿元(同比增长10.32%)[3] - 英集芯2024年营收14.29亿元(同比增长17.53%),归母净利润1.24亿元(同比增长322.73%)[3] 海外新闻 - 美光出货1γ 10纳米级DDR5内存样品,数据传输速率达9200MT/s(提升15%),功耗降低超20%[3] - 2024Q4全球AI电脑出货量1540万台(占电脑总出货量23%),苹果市场份额达54%[3] - 2024年全球智能手机面板出货量21.57亿片(同比增长11.4%),预计2025年将衰退3.2%至20.93亿片[3] - Meta讨论价值2000亿美元人工智能数据中心项目[3]