计算机行业周报:Deepseek全解,从算法到算力
2025-02-05 10:45

报告行业投资评级 - 看好 [3] 报告的核心观点 - 幻方量化旗下深度求索连续发布多款开源大模型,DeepSeek - R1 性能比肩海外领先模型,报告剖析其底层技术亮点并分析对算力的影响 [6][7] - Deepseek 在训练算法、推理结构、算力使用多维度创新优化,使顶尖模型逻辑能力以低成本在国产大模型复现,证明大模型发展不单纯依赖算力储备 [35] 根据相关目录分别进行总结 DeepSeek 核心技术亮点剖析 - 近期发布多款开源大模型,如 2024 年 12 月的 671B 的 DeepSeek - V3,2025 年 1 月 20 日的 DeepSeek - R1,1 月 28 日的 Janus - Pro - 7B 多模态模型,DeepSeek - R1 推理能力比肩海外领先模型,还蒸馏小模型超越 OpenAI o1 - mini,且 API 价格远低于 OpenAI o1 [8][9][13] - 训练上延续 v2/3,使用 MLA + MOE 提升模型效率,MLA 降低推理内存占用,DeepSeekMoE 结合辅助负载均衡策略解决负载不平衡问题,V3 引入 MTP 增强文本生成能力 [15][17][23] - 推理上放弃 SFT 转向 RL 并创新算法,DeepSeek - R1 - Zero 通过大规模强化学习和 GRPO 算法训练推理能力 [16][24][29] - 算力使用上微调 PTX,算子层面提升效率,V3 支持 FP8 混合精度训练并优化训练框架,定制 PTX 指令调整通信块大小 [32][34] Deepseek 算力影响几何 - Reasoning Scaling Laws 崛起,推理算力需求飙升,24H2 后 post - training 和 Test - time compute 重要性提升,Deepseek r1 突显该趋势,强化推理算力需求 [37][38][43] - 工程优化使训练算力成本下降,DeepSeek V3 较 V2 提效 61%、节约成本约 1200 万人民币,杰文斯悖论可能生效,模型高效经济促使算力需求增加 [44] - 蒸馏+开源实现 AI 技术普惠,通过微调开源模型实现推理能力迁移,小模型性能提升,开源蒸馏模型可在端侧部署,加速端侧 AI 渗透 [56] 风险偏好判断以及重点标的 - 数字经济领军:海康威视、金山办公等 [59] - AIGC 应用:金山办公、新致软件等 [59] - AIGC 算力:浪潮信息、海光信息等 [59] - 数据要素:税友股份、博思软件等 [59] - 信创弹性:海光信息、太极股份等 [59] - 港股核心:中国软件国际、金蝶国际等 [59] - 智联汽车:德赛西威、虹软科技等 [59] - 新型工业化:中控技术、赛意信息等 [59] - 医疗信息化:润达医疗、嘉和美康等 [59] 计算机重点公司估值表 - 展示了如金山办公、海康威视等多家公司 2025/1/27 的总市值,以及 2023A - 2026E 的净利润和 PE 数据 [63]