计算机行业DeepSeek:智能时代的全面到来和人机协作的新常态
浙江大学·2025-03-13 11:04
表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示, 确定的数据以斜体表示。Common Crawl数据集过滤之前为45T DeepSeek 智能时代的全面到来和人机协作的新常态 孙凌云 教 授 计算机科学与技术学院 2025年2月 一、智能演变 二、人机协作 三、产业现状 四、教育成长 到 2020 年的 GPT-3, 模型预训练数据量从 4.6GB 增加到了 45TB 45TB 相当于三千万本《西游记》 主要模型数据集包括: 来源: OpenAI团队,Language Models are Few-Shot ,2022年7月22日 | | 维基 百科 | 书籍 | 杂志 期刊 | Reddit 链接 | Common Crawl | 其他 数据 | 总计 | | --- | --- | --- | --- | --- | --- | --- | --- | | GPT-1 | | 4.6 | | | | | 4.6 | | GPT-2 | | | | 40 | | | 40 | | GPT-3 | 11.4 | 21 | 101 | 50 | 570 | | 753 | | The Pile v ...