Workflow
DeepSeek LLM
icon
搜索文档
DeepSeek开源引领AI普惠化浪潮
Wind万得· 2025-03-03 06:40
DeepSeek开源策略影响 - DeepSeek成立于2023年,由幻方量化孵化,专注于大语言模型开发,已发布DeepSeek Coder、DeepSeek LLM、DeepSeek V3、DeepSeek R1等多款产品 [2] - DeepSeek V3训练成本仅557.6万美元,性能比肩GPT 4o和Claude-3.5-Sonnet,但成本远低于GPT 4o [2] - DeepSeek R1训练成本仅为同类模型的1/30,性能达到OpenAI o1水平,竞技场评分为1362分 [2][3] - 开源周期间发布FlashMLA、DeepEP、DeepGEMM等代码库,优化DualPipe、EPLB并行策略和3FS文件系统,提升算力效率 [5] - FlashMLA在H800 GPU上实现3000GB/s内存带宽和580TFLOPS计算性能,突破硬件极限 [6] 全球AI大模型进展 - DeepSeek R1发布后7天内用户增长1亿,周活跃用户环比增长超750%,远超Kimi的28%增速 [7] - 武汉市出台政策支持AI关键技术突破,单个项目最高资助2000万元 [7] - xAI发布Grok 3,计算能力提升10倍,支持图像分析和多模态处理,并免费开放 [8] - OpenAI发布GPT-4.5,输入/输出价格达75/150美元/百万token,为GPT-4o的30倍,在事实性问答表现优异但学术推理不及Claude 3.7 Sonnet和DeepSeek R1 [9] - GPT-4.5显示单纯扩大模型规模未必提升全面性能,OpenAI计划将GPT-5转向模型架构优化和功能融合 [10] AI大模型投融动态 - OpenAI拟融资400亿美元,头部企业仍主导资本流向 [14] - 低成本高性能模型改变估值逻辑,中小厂商可通过垂直领域创新获得机会 [14] - 投资重心转向AI应用层(金融、医疗、法律等)和Agent开发,2025年国内亿元级融资包括极睿科技(近1亿人民币B+轮)、源络科技(数亿人民币A轮)等 [15][16]
Deepseek背景综述及在金融领域应用场景初探
中邮证券· 2025-02-26 19:07
根据研报内容,以下是量化模型与因子的总结: 量化模型与构建方式 1. **模型名称:DeepSeek-R1** - **模型构建思路**:通过混合专家(MoE)架构与动态路由技术,结合强化学习提升推理能力,实现低成本高性能的模型训练[16][38] - **模型具体构建过程**: 1. 采用MoE架构,通过门控网络动态分配任务给专家模型,实现稀疏激活[28] 2. 引入GRPO(Group Relative Policy Optimization)算法,舍弃Critic模型降低训练成本[31] 3. 使用FP8混合精度训练框架提升计算效率,减少内存占用[36] 4. 通过多令牌预测(MTP)技术增强模型预测能力[34] 5. 结合冷启动数据(高质量长思维链数据)提升训练初期稳定性[42] - **模型评价**:在极低训练成本下实现与主流大模型相当的性能,推理成本仅为GPT-4 Turbo的17%[16][43] 2. **模型名称:DeepSeek-V3** - **模型构建思路**:基于6710亿参数的混合专家模型,优化架构与训练方法以提升开源模型性能[33] - **模型具体构建过程**: 1. 延续DeepSeek-V2的MLA(多头潜在注意力)机制,减少KV缓存数量[25] 2. 扩展MoE架构至更大参数量级,结合动态路由技术[33] 3. 引入FP8混合精度训练框架[36] 3. **模型名称:DeepSeek-V2** - **模型构建思路**:设计经济高效的混合专家语言模型,平衡性能与成本[23] - **模型具体构建过程**: 1. 创新提出MLA(Multi-head Latent Attention)替代传统MHA,降低KV缓存[25] 2. 采用MoE架构实现模型容量扩展[28] 3. 使用GRPO算法优化强化学习流程[31] 4. **模型名称:DeepSeek LLM** - **模型构建思路**:基于扩展法则(Scaling Laws)研究模型规模、数据与计算资源的优化分配[21] - **模型具体构建过程**: 1. 通过小规模实验预测大规模模型性能,指导资源分配[22] 2. 验证高质量数据对模型扩展的倾斜效应[22] 量化因子与构建方式 (注:研报中未明确提及传统量化因子,主要聚焦AI模型技术) 模型的回测效果 1. **DeepSeek-R1** - 推理成本:GPT-4 Turbo的17%[16] - 训练成本:显著低于传统大模型(未披露具体数值)[43] - 日活跃用户:上线10天突破2000万[15] 2. **DeepSeek-V3** - 参数量:6710亿[33] - 支持FP8混合精度训练[36] 3. **DeepSeek-V2** - MLA机制:KV缓存减少50%以上(对比MHA)[25] - MoE架构:激活参数量仅为全模型的1/4[28] 关键公式与技术 1. **扩展法则(Scaling Laws)** $$ \text{模型性能} = f(\text{模型规模}, \text{数据规模}, \text{计算资源}) $$ 指导资源分配时需优先考虑数据质量[21][22] 2. **GRPO算法** 舍弃Critic模型,通过群体分数估计基线: $$ \text{优势函数} = \text{奖励值} - \text{群体基线} $$ 降低RL训练成本[31] 3. **多令牌预测(MTP)** 同时预测未来多个令牌: $$ P(y_{t+1}, y_{t+2}, ..., y_{t+k} | x) $$ 增强训练信号密度[34] 4. **FP8混合精度框架** 将部分计算精度降至8位浮点,内存占用仅为FP32的1/4[36]
快看!这就是DeepSeek背后的公司
梧桐树下V· 2025-01-29 11:16
| © 企查查 企业主页 | | --- | | 杭州深度求索人工智能基础技术研 存续 | | 究有限公司 | | 21万+ 91330105MACPN4X08Y ¥ 发票抬头 | | 简介:DeepSeek成立于2023年,是一家通用人工智能模... 展开 | | 法定代表人 注册资本 成立日期 | | 製作 1000万元 2023-07-17 | | 企查查行业 规模 品丁 2023年 | | 信息系统集成服务 微型 XS 4人 | | & 0571-85377238 | | 9 浙江省杭州市拱墅区环城北路169号汇金国际大厦西1幢120 | | 1室 | | 宁波程图个业管理 | | 梁文章 服 咨询合伙 ... 大股东 | | 东 | | 持股比例 99.00% 持股比例 1.00% 2 | | 投资企业2家 关联企业15家 2 | | 裴活 王南军 | | 퀘 + 등 执行董事兼. 监事 | | 2 关联企业3家 关联企业2家 | 文/梧桐晓驴 DeepSeek爆火,晓驴好奇地去查了一下开发、运营DeepSeek的公司情况。 "企查查"显示:杭州深度求索人工智能基础技术研究有限公司,英文名Hangz ...