Workflow
DeepSeek-V3发布-性能比肩头部模型
SKLTYSeek .(SKLTY) -·2025-01-07 15:20

行业与公司 - 行业:人工智能与大规模语言模型 - 公司:DeepSeek(DC v3 模型的开发者) 核心观点与论据 1. DC v3 模型的基本信息与性能表现 - DC v3 是一款混合专家架构的大规模语言模型,参数量达到 671B - 在高级数学推理能力测试(如 MAX500 和 AME2024)中,DC v3 超越了 GPT-4 和 Kao3.53 等模型 - 在代码能力测试集(如 CodeBoss)上表现出色,证明其在处理复杂推理及编程任务方面具有强大能力[2] 2. DC v3 的训练成本优势 - 在 2048 块 H800 GPU 集群上仅需不到两个月完成训练,总成本约为 557.6 万美元 - 相比其他大规模语言模型具有明显的成本优势[3] 3. DC v3 的 API 服务定价 - API 服务定价为每百万 token 0.5 美元(未缓存未命中情况下),有效召回情况下为 2 美元,每百万输出 token 48 美元 - 网页端服务免费,并提供深度思索功能[5] 4. DC v3 的能力测评结果 - 在数学逻辑推理和脑筋急转弯测试中表现优异 - 在笑话理解方面表现欠佳 - 能够正确解答易错题,但思维链过程冗长,有提升空间[6] 5. DC v3 在金融文本分析方面的表现 - 在分析上市公司技术水平、行业壁垒、相关政策及竞争格局等方面具备准确分析能力 - 判断基本符合人工判断结果[7] 6. DC v3 在架构和训练层面的创新 - 采用 DCKMoE 架构和无额外损耗负载均衡策略 - 引入 Multi-token Prediction 策略,提高信息密度与数据使用效率 - 通过 SFT 和强化学习提升性能,强化学习通过生成思维链提升推理质量[8] 7. DPCV3 模型在处理没有明确答案任务时的策略 - 设计了一套奖励模型用于生成分数,用于后续增强学习 - 在专门评价这类模型的数据集上,其得分明显超过 GPT-4 或 Claude 3.5 等模型[9] 8. DPCV3 在后训练部分及整体架构上的创新 - 选择高质量的代码和推理数据作为训练数据集 - 通过卓越性能和创新技术架构,为大模型的发展树立了新的标杆[10] 9. DPCV3 在应用上的优势 - 在成本上相对其他模型具有明显优势 - 通过大模型梳理工具,帮助生成更准确的产业链图谱,并找到相关成分股,实现功能拓展[11] 其他重要内容 - DC v3 已上线网页端及 API 接口,API 服务定价为每百万 token 0.5 美元(未缓存未命中),有效召回情况下为 2 美元,每百万输出 token 48 美元;网页端服务免费,并提供深度思索功能[5] - DC v3 在数学逻辑推理和脑筋急转弯测试中表现优异,但在笑话理解方面表现欠佳;能够正确解答易错题,但思维链过程冗长,有提升空间[6] - DC v3 在金融文本分析方面,其判断基本符合人工判断结果[7] - DC v3 采用创新的 DCKMoE 架构和无额外损耗负载均衡策略,并引入 Multi-token Prediction 策略,有效降低训练成本并提升效率;通过 SFT 和强化学习提升性能,强化学习通过生成思维链提升推理质量[8] - DC v3 设计了一套奖励模型用于生成分数,用于后续增强学习,在相关数据集上的得分明显超过 GPT-4 或 Claude 3.5 等模型[9] - DC v3 在后训练部分和整体架构上进行了多项创新,例如选择高质量的代码和推理数据作为训练数据集,并通过其低成本优势,拓展了在大模型梳理工具等应用上的可能性,例如生成更准确的产业链图谱[10][11]