报告行业投资评级 - 给予行业“强于大市”评级 [3][6] 报告的核心观点 - DeepSeek通过技术微创新,以更低硬件成本和更短时间实现与市场领先产品竞争能力,打破行业对中国AI技术发展的一贯认知 [6] - DeepSeek首创DeepSeekMoE架构,实现训练效率和吞吐量3.6X提升;引入MLA机制,节省42.5%训练成本、减少93.3% KV缓存、提升最大生成吞吐量至5.76倍 [6] - DeepSeek - V3预计实际总成本超4000万美元,虽为公开口径成本7倍左右,但相对Llama 3 - 405B降低约69%,相对GPT - 4o降低95% [6] - 短期内云服务大厂资本开支上升,因Scaling Law导致算力军备竞赛恐慌性投资仍存在;2028年后现有模型框架和数据资源供给下,单纯算力提升难推动模型性能升级 [6] - 预计接入DeepSeek API的细分领域推理服务商将涌现,终端设备可实现蒸馏小模型本地部署,服务器、智能手机和智能驾驶系统将升级 [6] - 看好先进算力芯片制造产业链、专业咨询服务、2C智能终端、2B本地部署设备等细分板块在DeepSeek推动下的未来发展 [6] 根据相关目录分别进行总结 1. DeepSeek从何而来 - DeepSeek公司于2023年7月由幻方量化创始人梁文锋主导创立,依托幻方投资资金与“萤火超算”万卡级算力资源,定位为技术驱动的开源AI公司 [9] - DeepSeek发展分五个阶段:2023年11月代码模型首秀;2024年1 - 5月实现MoE架构创新;2024年6 - 8月多领域拓展与性能跃升;2024年12月实现通用模型迭代;2025年1月20日发布第一代推理模型 [10][13] - DeepSeek - R1发布后话题在媒体网络爆火,微信指数超ChatGPT;其概念指数诞生10日后板块成交金额超全部A股成交额20%,成为市场上涨推动力量;已获云服务、网络安全等多行业多家国内外知名企业接入 [14][16] 2. 深入剖析DeepSeek - DeepSeek被西方媒体称为“DeepSeek Shock”,因其以更低硬件成本和更短时间实现与美国公司尖端产品竞争能力,主要轰动产品为通用大模型V3和推理大模型R1 [26] - DeepSeek - V3采用混合专家(MoE)架构,面向自然语言处理任务,有高效多模态处理能力和低训练成本优势;DeepSeek - R1专注复杂推理任务,实现与OpenAI O1系列相当推理能力,成本低且可蒸馏开源小模型适配不同应用环境 [27][31] - DeepSeek创新在于MoE和MLA技术突破:DeepSeekMoE降低激活参数比例,实现训练效率和吞吐量3.6X提升;MLA将KV缓存显著压缩为潜向量保证高效推理,DeepSeek - V2节省42.5%训练成本、减少93.3% KV缓存、提升最大生成吞吐量至5.76倍 [40][45] - DeepSeek采用纯粹强化学习方式训练模型取得显著效果,打破“限制中国企业获取最先进GPU将阻止中国AI技术发展”的认知,提振国内企业对AI产业发展信心 [46][56] 3. 市场对于DeepSeek最关心的问题 - DeepSeek - V3官方口径训练成本约558万美元,但预计实际总成本超4000万美元,相对Llama 3 - 405B降低约69%,相对GPT - 4o降低95% [60][64] - 短期内算力支出增长难放缓,因AI巨头“军备竞赛”持续;2027 - 2028年左右现有大模型训练将耗尽公开文本数据,数据资源将成模型进化瓶颈;未来AI模型进化除投资算力硬件,更要利用专业细分领域数据资源开发细分模型;现有算力水平足够完成细分行业模型有效训练,未来算力需求主要来自细分领域推理需求 [65][71][75] 4. DeepSeek对产业发展的影响 - DeepSeek使低成本高性能模型训练部署成为可能,推动AI应用加速落地;预计接入DeepSeek API的细分领域推理服务商将涌现,终端设备可实现蒸馏小模型本地部署,服务器、智能手机和智能驾驶系统将升级;看好先进算力芯片制造产业链、专业咨询服务、2C智能终端、2B本地部署设备等细分板块未来发展 [78]
人工智能专题报告(1):适合投资人的DeepSeek分析报告
爱建证券·2025-02-19 11:24