Workflow
大模型助力投资
icon
搜索文档
中金 | 大模型系列(1):DeepSeek-R1量化策略实测
中金点睛· 2025-03-05 07:33
文章核心观点 - 文章从量化策略角度探讨大模型如何助力投资,测试大模型在行业轮动、风格轮动和市场择时三大任务中的表现,并讨论大模型在量化策略开发中存在的局限性 [1] 大模型助力投资 结合量化投资 - 大语言模型可帮助量化分析师高效实现代码构建,缩短策略开发周期;可通过检索论文网站帮助分析师快速查找研究、提炼观点或形成专家知识库;在策略开发层面,与新闻、研报这类另类数据结合能发挥更大作用 [3] 结合主动投资 - 非量化客户用好大语言模型关键在于明确其长处与局限性,当前大模型在金融领域应用空间大,但只能作为协助者,存在对数字准确度把握不足、知识库滞后、易出现知识幻觉等局限性 [3] 671b标准版DeepSeek - R1在行业轮动任务表现 模型亮点 - DeepSeek - R1基于MoE架构,通过大规模强化学习直接训练基座模型(V3)突破推理能力,在数学、代码、自然语言推理等任务上性能比肩OpenAI o1正式版,验证了强化学习在提升推理能力方面的可能性 [4][11] 测试结果 - 测试发现671b参数版的DS - R1在多项任务中优势明显,后续量化策略任务采用该版本测试;在行业轮动任务上表现更佳,2024年以来行业多头组合相对全行业等权收益率超额22.3%,效果稳定;大小盘轮动策略胜率54.33%,相对等权超额收益超12%;市场择时方面2024年以来超额约18%,稳定性稍弱 [5] 推荐持仓 - 截至2025年2月20日,DS - R1对2025年3月最新推荐持仓为传媒、计算机、电新、汽车、消费者服务、通信;大语言模型在行业配置任务上相对于选股和市场择时任务有独特优势,能更好发挥处理宏观中观信息和逻辑推理的优势 [6] 大模型结合新闻数据在量化策略任务的优势 模型创新点技术细节 - DeepSeek - V3在仅消耗Llama3 405B模型10%计算资源的条件下,实现相当运算效能,源于三项架构革新:多头潜在注意力机制、动态路由混合专家系统及多粒度令牌预测 [10] 使用DeepSeek构造量化模型的流程 - 调用方式有调用官方API、第三方平台API和本地部署三种;不同参数版本模型表现有差异,671b版在逻辑推理、常识问题及脑筋急转弯任务中表现更好,模型处理数字相关计算分析任务能力弱于文本类数据处理能力 [12][15] - 采用数库新闻数据作为提示词信息源,筛选新闻数据以降低数量并保证完整性和有效性;打磨提示词可提升输出质量、降低幻觉概率,还可借助辅助工具生成提示词;设置API接口参数,采用单轮对话方式调用API,对输出结果进行查验 [17][18][19] 回测效果展示 - 设计行业轮动、大小盘轮动和市场择时三个量化策略测试模型表现,行业轮动任务表现亮眼,样本外超额收益超22%,信息比率超1.8,多头组合超额收益回撤小、较稳定,24年10月后明显增长;持仓换手率偏低,为38.5%,多次看好电新、计算机等行业 [21][24][26] 大模型的局限性 幻觉 - 幻觉指模型生成内容无意义或不忠实于源内容,可能源于缺乏对事实的深刻理解,影响模型可靠性;主流AI模型在文本摘要任务中幻觉产生概率在0.7% - 3%之间,DeepSeek早期发布的V2.5幻觉产生概率为2.4%,与OpenAI - o1模型水平大致相同 [32] 随机性 - 大语言模型中temperature等参数控制输出随机程度,取值接近0输出更确定,接近1输出更随机;在行业轮动任务中,temperature = 0.6时,随机性对预测值有影响,但策略均能战胜等权基准;temperature取值干扰模型预测结果构建行业轮动策略的性能,但无直接相关性 [35] 上下文长度限制 - 大语言模型在长文本处理中存在系统性瓶颈,输入序列超过阈值时,对远端信息记忆和调用能力衰减,语义整合误差率非线性上升;DeepSeek - R1上下文长度为64k,限制了可接收新闻数量,影响推理效果 [37][38] 样本内数据泄露的可能性 - 大语言模型处理学术文献存在隐私泄露风险,在量化领域构建策略时,难以保证样本内不出现数据泄露问题,如出现“偷看”问题答案的情况,因此仅测试2024年以来策略表现 [39]