报告的核心观点 - 报告介绍DeepSeek模型架构发展、应用,与现有模型比较,探讨其对各领域AI未来潜在影响,强调其在提高推理能力、效率、透明度和决策制定方面进步,有潜力推动基于效率、透明度和实际影响的AI景观发展 [1][4][34] 相关工作 OpenAI GPT - 2023年3月发布GPT - 4,是处理文本和图像的多模态模型,基于变压器架构,参数量达1.8万亿,最初支持8192和32768个令牌上下文窗口,下半年GPT - 4 Turbo扩展至128K个令牌,但可能产生幻觉信息 [7] 克劳德3.5 - 2024年发布,强调安全、对齐和性能,有约250亿个参数,支持最多20万个标记的扩展上下文,在编码和科学推理等专业领域表现出色,但接近上下文限制时性能可能下降 [8] LLama 3.1 - 2024年发布,采用405B参数和128K token上下文窗口,通过分组查询注意力机制提高效率,在编程、逻辑问题解决以及低资源语言任务方面表现出色,开放权重且免费供研究和商业使用,但仅限于文本输入 [9] Qwen 2.5 - 2024年6月发布,扩展至1100亿个参数,利用128K令牌上下文窗口,通过创新技术增强长上下文处理能力,在数学推理、代码生成和低资源语言理解等任务中优于前代产品 [10] 双子座2.0 - 谷歌最新多模态大语言模型,提供跨文本、图像、音频和视频的强大生成式AI能力,支持代理型AI和原生工具使用,目标是为开发者和最终用户提供全面且成本效益高的AI解决方案 [11] Deepseek及其变体 架构基础 - 基于变压器档案结构,优化分组查询注意(GQA)和闪光注意2,减少内存开销并提高推理速度;位置编码通过职位嵌入(RoPE),可处理最多20万个标记的长序列 [12][13] DeepSeek 7B - 参数量为7B,用于通用任务,采用预归一化、解码器仅Transformer架构,有30层Transformer、32个注意力头以及4096的隐藏维度,上下文窗口长度可调整;DeepSeek Chat有67B参数 [14] DeepSeek MoE - 16B - 包含16亿参数的MoE模型,通过动态路由激活每token仅2.6亿参数,降低70%推理成本,基于多样化数据集预训练,支持代码生成和数学推理等任务 [15] DeepSeek V2 - 系列包括DeepSeek V2和DeepSeek V2 Lite及两个聊天机器人,集成MLA和MoE框架,基于8.1万亿个标记预训练,通过YaRN扩展上下文长度,经SFT和两阶段强化学习过程优化 [17] DeepSeek V3 - 基于14.8万亿个令牌的多语言语料库预训练,采用6710亿个参数的稀疏MoE架构,每个任务激活370亿个参数,提高计算效率,但面临计算和硬件需求高、路由和负载平衡复杂、潜在注意力压缩风险等局限性 [18] DeepSeek R1 - Zero - 无SFT通过RL训练,使用组相对策略优化(GRPO)简化训练过程,促进新兴行为提高复杂任务准确性,但存在可读性差、语言混用、基于群体的优势估计方差高导致策略更新不稳定等问题 [21][23] DeepSeek R1 - 依次生成tokens,通过生成思考tokens解决复杂问题,训练管道包括冷启动微调、以推理为中心的RL、拒绝采样和监督微调、最终RL对齐;主要改进有采用排斥抽样方法提升推理能力和与人类偏好一致性等 [24][25] 讨论 - 与通用模型相比,DeepSeek优先考虑领域特定优化、透明度和成本效益,专注精确推理和决策;DeepSeek R1整合多种资源,采用相关技术提高准确性和清晰度,是开源的,降低成本,优化计算、任务特定性能和可扩展性表现出色 [32][33] 结论与未来工作 - DeepSeek R1在多方面取得进步,为人工智能设立新标准,挑战专有模型,使高级人工智能工具更易获取;未来研究可将其应用于医疗、教育、科学研究、金融等领域,还需在效率、透明度、伦理问责等方面进一步发展 [34][35]
DeepSeek模型综述
肯特州立大学·2025-02-14 17:52