根据研报内容,以下是量化模型与因子的总结: 量化模型与构建方式 1. 模型名称:DeepSeek-R1 - 模型构建思路:通过混合专家(MoE)架构与动态路由技术,结合强化学习提升推理能力,实现低成本高性能的模型训练[16][38] - 模型具体构建过程: 1. 采用MoE架构,通过门控网络动态分配任务给专家模型,实现稀疏激活[28] 2. 引入GRPO(Group Relative Policy Optimization)算法,舍弃Critic模型降低训练成本[31] 3. 使用FP8混合精度训练框架提升计算效率,减少内存占用[36] 4. 通过多令牌预测(MTP)技术增强模型预测能力[34] 5. 结合冷启动数据(高质量长思维链数据)提升训练初期稳定性[42] - 模型评价:在极低训练成本下实现与主流大模型相当的性能,推理成本仅为GPT-4 Turbo的17%[16][43] 2. 模型名称:DeepSeek-V3 - 模型构建思路:基于6710亿参数的混合专家模型,优化架构与训练方法以提升开源模型性能[33] - 模型具体构建过程: 1. 延续DeepSeek-V2的MLA(多头潜在注意力)机制,减少KV缓存数量[25] 2. 扩展MoE架构至更大参数量级,结合动态路由技术[33] 3. 引入FP8混合精度训练框架[36] 3. 模型名称:DeepSeek-V2 - 模型构建思路:设计经济高效的混合专家语言模型,平衡性能与成本[23] - 模型具体构建过程: 1. 创新提出MLA(Multi-head Latent Attention)替代传统MHA,降低KV缓存[25] 2. 采用MoE架构实现模型容量扩展[28] 3. 使用GRPO算法优化强化学习流程[31] 4. 模型名称:DeepSeek LLM - 模型构建思路:基于扩展法则(Scaling Laws)研究模型规模、数据与计算资源的优化分配[21] - 模型具体构建过程: 1. 通过小规模实验预测大规模模型性能,指导资源分配[22] 2. 验证高质量数据对模型扩展的倾斜效应[22] 量化因子与构建方式 (注:研报中未明确提及传统量化因子,主要聚焦AI模型技术) 模型的回测效果 1. DeepSeek-R1 - 推理成本:GPT-4 Turbo的17%[16] - 训练成本:显著低于传统大模型(未披露具体数值)[43] - 日活跃用户:上线10天突破2000万[15] 2. DeepSeek-V3 - 参数量:6710亿[33] - 支持FP8混合精度训练[36] 3. DeepSeek-V2 - MLA机制:KV缓存减少50%以上(对比MHA)[25] - MoE架构:激活参数量仅为全模型的1/4[28] 关键公式与技术 1. 扩展法则(Scaling Laws) 指导资源分配时需优先考虑数据质量[21][22] 2. GRPO算法 舍弃Critic模型,通过群体分数估计基线: 降低RL训练成本[31] 3. 多令牌预测(MTP) 同时预测未来多个令牌: 增强训练信号密度[34] 4. FP8混合精度框架 将部分计算精度降至8位浮点,内存占用仅为FP32的1/4[36]
Deepseek背景综述及在金融领域应用场景初探
中邮证券·2025-02-26 19:07