Workflow
大模型平权
icon
搜索文档
长城基金廖瀚博:积极寻找产业变化
新浪基金· 2025-05-20 13:31
市场表现 - 2025年一季度A股市场震荡上行 科技板块和制造板块涨幅领先 其中人形机器人和国产算力为代表性板块 [1] 科技板块领涨逻辑 - 技术进步驱动产业发展 DeepSeek的出现使大模型平权成为可能 国内云厂商加大资本开支 带动国产算力景气提升 特别是AIDC相关产业 [1] - 海外某车企宣布2025年开始量产人形机器人 国内机器人厂商崭露头角 机器人产业进入发展元年 [1] 投资观点 - 热点板块股票市值隐含未来产业发展的乐观预期 但产业发展需要时间且过程可能曲折 热门公司股价将向基本面回归 下一轮上涨中会出现分化 [1] - 投资应拥抱时代 在产业变化浪潮中寻找机会 以合理价格布局优势资产 [1]
中金 | AI智道(7):DeepSeek Infra开源周总结,及算力测算一览
中金点睛· 2025-03-17 07:55
文章核心观点 - 2025年2月24 - 28日DeepSeek进行Infra开源周,其Infra工程优化能力国内领先,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,实现大模型开发成本大幅压缩;成本及算力测算显示其毛利率水平国内领先;Infra优化能力推动大模型平权,对推理算力需求有积极影响,AI应用商业化更取决于模型能力和工程优化 [2][3] DeepSeek开源周:Infra层优化能力行业领先 全栈协同体系 - DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型 - 算力全栈协同体系,以“单卡算力提升 - 核心计算加速 - 通信延迟降低 - 多卡协作优化 - 数据流高速供给”为脉络形成优化闭环,提升千亿参数模型训练、推理效率,压缩开发成本 [2][6] 每日成果 - **Day1**:发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,实现MoE模型推理加速,针对变长序列处理等场景优化,核心创新含分页KV缓存、分块调度与内存优化、原生稀疏注意力,实测在H800 SXM5平台有顶尖性能表现 [8] - **Day2**:发布DeepEP,为MoE模型和专家并行设计的专用通信库,支持FP8低精度通信,有高效优化的all - to - all通信、支持NVLink和RDMA技术等特点,实现训练和推理高吞吐、低延迟 [9] - **Day3**:发布DeepGEMM,针对FP8通用矩阵乘法打造,支持密集GEMM和MoE GEMM,采用CUDA核心两级累加机制,核心优化包括线程束优化、利用Hopper TMA特点、特殊优化等,在H800上最高可实现2.7倍加速 [10] - **Day4**:开源DualPipe、EPLB和Profile - data。DualPipe是双向流水线并行算法,通过重叠计算与通信阶段提升训练性能;EPLB是专家并行负载均衡器,用冗余专家策略和组限制专家路由解决负载不均衡问题;Profile - data展示通信计算重叠策略和低级实现细节 [13][14][16] - **Day5**:开源3FS和Smallpond。3FS是高性能分布式文件系统,利用SSD和RDMA网络,在性能、可用性和多样化工作负载方面有优势;Smallpond是基于DuckDB和3FS的轻量级数据处理框架,具备高性能、易操作、可扩展特点 [21][22] DeepSeek成本及算力测算:毛利率水平领先 成本与毛利率测算 - DeepSeek 3月1日公开模型推理效率和成本,过去24小时DeepSeek V3和R1推理服务峰值占用278个节点,平均占用226.75个节点,处理608B输入Token和168B输出Token,总体GPU hours成本8.7万美元;以模型API定价测算收入、GPU hours租赁成本为核心成本项,综合毛利率在71 - 84.5%,处于行业领先水平 [24] 利润率对比 - 理想情况计算的DeepSeek毛利率较高,但实际因部分Token不收费,整体毛利率会降低;海外OpenAI和Anthropic API服务按仅扣GPU Hours口径计算毛利率也领先;其他云厂商为保证稳定性提供冗余算力,集群负载率难达DeepSeek水平,底层优化不足,会损失部分毛利率 [25] 对产业影响 - 推理算力方面,AI infra进步提升算力利用效率,推动行业繁荣,多模态、Manus等Agent应用会激发更大推理算力需求;AI应用方面,模型推理成本降低,商业化更取决于模型能力迭代和合适场景打磨,2C看好互联网大厂产品化进展,2B关注企业服务厂商客户场景磨合,期待2025年出现更多“爆款”AI应用 [26]
中金 | AI进化论(2):模型+工程创新持续唤醒算力,DeepSeek撬动推理需求蓝海
中金点睛· 2025-02-28 07:34
模型创新 - 采用多重潜在注意力机制(MLA)优化KV缓存,将内存占用较大的KV矩阵投射到隐空间,存储低秩变量C而非完整KV矩阵,KV Cache存储元素数量仅相当于2.25组GQA,但性能优于MHA [4][8][9] - MLA在16B和250B参数的MoE模型中表现突出:BBH(EM)分别提升1.1和4.1个百分点,MMLU(Acc.)提升1.3和1.5个百分点,CMMLU(Acc.)提升1.1和1.8个百分点 [12] - 引入原生稀疏注意力(NSA)技术,通过Token压缩、Token选择、滑动窗口三条路径压缩序列长度,在64k上下文长度下实现11.6倍解码加速和9.0倍训练前向加速 [13][16][17] - NSA与MLA互补:MLA侧重全局视角建模,NSA侧重局部细节处理,两者计算复杂度分别为O(nm+m²)和O(kn),内存占用分别为中等和极低 [19] 硬件工程优化 - 采用Prefill/Decode分离策略(PD分离),Prefill阶段配置4节点32GPU(TP4+SP+DP8+EP32),Decode阶段配置40节点320GPU(TP4+SP+DP80+EP320),专家并行度达320以最小化单步延迟 [20][24] - 动态冗余策略优化负载:Prefill阶段单GPU承载9个专家,Decode阶段单GPU承载1个专家,64个GPU专用于冗余专家分配 [21] - 显存需求测算显示,25用户并发时FP8精度推理需77GB显存,671B参数模型需分布式推理 [23][24] 硬件需求启示 - 推理部署向集群化发展,测算微信接入DS模型需40万张NVIDIA Hopper GPU,单token成本降至0.1美元/万token [31][32] - 以太网在Scale-up网络中渗透率提升:51.2Tbps产品商用,102.4Tbps产品预计2025年推出,转发延迟低于400ns;在Scale-out网络中RoCE凭借性价比与InfiniBand竞争 [26][27][28] - 国产算力全链适配:24家AI芯片企业、6家GPU企业、86家服务器厂商完成DS适配,硅基流动与昇腾云合作实现推理性能比肩高端GPU [33][35]