Seek .-DeepSeek-V3发布-性能比肩头部模型

行业与公司 - 行业：人工智能与大规模语言模型 - 公司：DeepSeek（DC v3 模型的开发者）核心观点与论据 1. DC v3 模型的基本信息与性能表现 - DC v3 是一款混合专家架构的大规模语言模型，参数量达到 671B - 在高级数学推理能力测试（如 MAX500 和 AME2024）中，DC v3 超越了 GPT-4 和 Kao3.53 等模型 - 在代码能力测试集（如 CodeBoss）上表现出色，证明其在处理复杂推理及编程任务方面具有强大能力[2] 2. DC v3 的训练成本优势 - 在 2048 块 H800 GPU 集群上仅需不到两个月完成训练，总成本约为 557.6 万美元 - 相比其他大规模语言模型具有明显的成本优势[3] 3. DC v3 的 API 服务定价 - API 服务定价为每百万 token 0.5 美元（未缓存未命中情况下），有效召回情况下为 2 美元，每百万输出 token 48 美元 - 网页端服务免费，并提供深度思索功能[5] 4. DC v3 的能力测评结果 - 在数学逻辑推理和脑筋急转弯测试中表现优异 - 在笑话理解方面表现欠佳 - 能够正确解答易错题，但思维链过程冗长，有提升空间[6] 5. DC v3 在金融文本分析方面的表现 - 在分析上市公司技术水平、行业壁垒、相关政策及竞争格局等方面具备准确分析能力 - 判断基本符合人工判断结果[7] 6. DC v3 在架构和训练层面的创新 - 采用 DCKMoE 架构和无额外损耗负载均衡策略 - 引入 Multi-token Prediction 策略，提高信息密度与数据使用效率 - 通过 SFT 和强化学习提升性能，强化学习通过生成思维链提升推理质量[8] 7. DPCV3 模型在处理没有明确答案任务时的策略 - 设计了一套奖励模型用于生成分数，用于后续增强学习 - 在专门评价这类模型的数据集上，其得分明显超过 GPT-4 或 Claude 3.5 等模型[9] 8. DPCV3 在后训练部分及整体架构上的创新 - 选择高质量的代码和推理数据作为训练数据集 - 通过卓越性能和创新技术架构，为大模型的发展树立了新的标杆[10] 9. DPCV3 在应用上的优势 - 在成本上相对其他模型具有明显优势 - 通过大模型梳理工具，帮助生成更准确的产业链图谱，并找到相关成分股，实现功能拓展[11] 其他重要内容 - DC v3 已上线网页端及 API 接口，API 服务定价为每百万 token 0.5 美元（未缓存未命中），有效召回情况下为 2 美元，每百万输出 token 48 美元；网页端服务免费，并提供深度思索功能[5] - DC v3 在数学逻辑推理和脑筋急转弯测试中表现优异，但在笑话理解方面表现欠佳；能够正确解答易错题，但思维链过程冗长，有提升空间[6] - DC v3 在金融文本分析方面，其判断基本符合人工判断结果[7] - DC v3 采用创新的 DCKMoE 架构和无额外损耗负载均衡策略，并引入 Multi-token Prediction 策略，有效降低训练成本并提升效率；通过 SFT 和强化学习提升性能，强化学习通过生成思维链提升推理质量[8] - DC v3 设计了一套奖励模型用于生成分数，用于后续增强学习，在相关数据集上的得分明显超过 GPT-4 或 Claude 3.5 等模型[9] - DC v3 在后训练部分和整体架构上进行了多项创新，例如选择高质量的代码和推理数据作为训练数据集，并通过其低成本优势，拓展了在大模型梳理工具等应用上的可能性，例如生成更准确的产业链图谱[10][11]