Workflow
计算机行业:比较试用DeepSeek看模型走向应用的新迹象
广发证券·2024-12-29 19:47

行业评级 - 计算机行业评级为买入 [137] 核心观点 - DeepSeek-V3模型性能提升较快,采用MLA+MoE架构,训练成本大幅降低 [137][144][145] - DeepSeek-V3通过数据与算法优化,大幅提升算力利用效率,实现协同效应 [137][81] - 算力依然是推动大模型发展的核心驱动力,DeepSeek-V3通过技术创新和资源优化,大幅降低成本 [137][83] - DeepSeek-V3在逻辑推理和代码生成领域具有自身特点,但在文本生成和数学计算能力方面未明显优于其他大模型 [137] 模型架构与优化 - DeepSeek-V3沿用前代MLA+MoE架构,MLA架构降低推理过程中的kv缓存开销,MoE通过动态选择并激活部分专家降低计算开销 [121][145] - DeepSeek-V3采用无辅助损失方法实现负载均衡,最小化负载均衡对模型性能的不利影响 [146] - DeepSeek-V3采用FP8混合精度训练框架,验证了在超大规模模型上进行FP8训练的可行性和有效性 [124][105] - DeepSeek-V3通过优化MoE专家调度、引入冗余专家策略、长上下文蒸馏提升推理性能 [137][81] 训练成本与性能 - DeepSeek-V3预训练阶段每训练万亿Token耗费18万H800 GPU小时,总训练成本约为557.6万美元 [149][82] - DeepSeek-V3 API服务定价为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元,具备较高性价比 [152] - DeepSeek-V3生成速度从20 TPS提升至60 TPS,用户体验大幅提升 [128] 模型测评 - DeepSeek在密文解码任务中表现突出,是唯一给出正确答案的大模型 [137][179] - DeepSeek在代码生成任务中,给出的代码注释、算法原理解释以及开发流程指引最为全面 [137][103] - DeepSeek在空间几何和数学计算能力方面与行业平均水平相当 [137][195] - 豆包大模型在空间推理能力上表现较强,能够充分理解二维平面空间 [175] 数据与算法优化 - DeepSeek-V3使用14.8T高质量和多样化的训练数据,提升数学和编程样本比例,扩大多语言覆盖范围 [55] - DeepSeek-V3通过优化数据处理流程,减少冗余并确保语料库的多样性和完整性 [55] - DeepSeek-V3采用多token预测训练目标,提升评估基准的整体性能 [122] 商业化与风险 - DeepSeek-V3为未来大模型技术的发展提供了重要启发,未来或将从依赖大规模通用模型转向发展更具特色、成本更低、更适合具体应用场景的模型 [137] - AI大模型技术追赶和竞争加剧的风险,商业化成功存在不确定性 [137][76] - AI生成内容存在知识版权纠纷的风险,可能影响AI应用的开发和推广 [96][106]