Workflow
我们该如何看待DeepSeek:what,how,why,and next?
湖南大学·2025-03-05 15:50

报告核心观点 报告围绕DeepSeek展开,介绍其从ChatGPT发展而来的历程、优势及意义,阐述使用方法、原理和发展历程,认为其使AI走入寻常百姓家,生态即将爆发,还指出产业链各环节现状、问题及未来关注重点 [5][164][177] What is it:DeepSeek是什么 从ChatGPT到DeepSeek - R1的发展 - 2022年11月30日OpenAI发布ChatGPT,两个月用户破亿,其基于生成式人工智能和大语言模型,本质是文字接龙,这导致LLM常出现“幻觉” [10][11] - 2024年9月12日OpenAI宣布OpenAI o1推理大模型,其推理能力较GPT - 4o大幅提升,强调“思维链”过程和强化学习 [29] DeepSeek R1的优势 - 首个展示思维链过程的推理模型,在数学、代码、逻辑等领域优势明显,还有算力scaling方面独特优势 [40][44] - 价格“屠夫”,网页聊天免费,相比o1模型API价格大幅降低 [45][46] - 首个开源的推理模型,可下载本地安装使用 [47][48] - 纯国产,技术创新,训练和推理高效,性能领先 [49] - 让最前沿大模型技术走入寻常百姓家,7天用户破亿,包括海量本地部署用户 [52] DeepSeek基本概念(用户角度) - 使用场景包括各种网上服务和本地自己搭建,调用流程有普通调用(网页调用、程序API调用)和文件与联网搜索(RAG),普通调用回答来自训练数据,难以及时更新;RAG回答来自训练数据和外部数据,外部数据可及时更新 [54][57][60] - 介绍了一些术语概念,如Prompt、Token、上下文长度、训练、推理(inference)、推理(reasoning) [63] How to use it:我能用DeepSeek干什么 以小见大,掌握思维方法 - 通过案例展示DeepSeek功能,如写书、信息梳理、数据分析、咨询分析、写程序、做教辅等 [70][71][72] 正确理解,打开广阔天地 - DeepSeek不是AGI,不能“一步到位”,用户需具备问题拆解、信息整合、迭代调优能力 [79] - 有能力但常出错,预载知识不全面,用户要有判断筛选能力,擅用联网搜索和知识库 [81][82] - R1/V3是语言模型,不能直接处理多模态数据,需结合其他工具完成任务 [84] - 模型有上下文长度限制,一般128K tokens是目前通常最高水平,用户要学会拆分任务、总结规律 [88][89] - 不是唯一大模型,效果非一骑绝尘且会发展变化,用户要客观辩证看待、积极开放拥抱 [90] Why it works: DeepSeek背后的原理 Transformer——大模型基础 - Transformer是特殊神经网络,是主流大模型基础,主要介绍text - to - text transformer,输入文本输出预测下一个token [109] - 整体流程包括输入token编码(Embedding)、计算token之间关系(Attention)、理解每个token自己的含义(MLP)、编码还原成token并输出(Unembedding),Attention和MLP通常重复很多次 [111][125][127] - 训练是LLM通过数据学习文字接龙的过程,数据和参数规模越大越聪明,训练完可进行后训练对齐,如SFT和RL [129][132][138] DeepSeek模型的发展历程 - 2019年幻方量化成立AI公司,自研深度学习训练平台「萤火一号」和「萤火二号」 [142] - 2023年7月DeepSeek公司成立,11月开源DeepSeekLLM 7B和67B的Base和Chat模型,初期跟随LLaMA有微创新 [143][144] - 2024年5月开源DeepSeek - V2系列模型,对Transformer结构大胆改造,首创MLA,效果提升,训练成本减少42%,推理所需缓存空间减少93% [147][148] - 2024年12月26日开源DeepSeek - V3系列模型,基座模型SOTA,进入TOP梯队 [150][152] - 2025年1月20日开源推理模型DeepSeek - R1,继续创新,探索OpenAI说不行的路 [153] Next: 下一步要关注什么 生态爆发原因 - 根据梅特卡夫定律,DeepSeek使AI走入寻常百姓家,量变可能引发质变,生态即将爆发 [162][164] 关注环节 - 产业链环节包括算力底座、模型算法、系统软件、行业应用、公共平台 [166] - 现状与问题:国产AI芯片因DeepSeek焕发新生,但大规模训练是短板;高性能互连在多机多卡互连协同方面有需求,但NV一家独大;模型算法推理效率低;行业应用技术含量相对较低且无统一标准;公共平台需求大 [173][178][180] - 发展建议:开放很重要,包括模型、算法、训练数据、推理部署开放;注重培养相关人才;知识库服务平台可能成为创业集中赛道;扎实落地行业应用,让更多普通人感受LLM帮助 [177][180][182]