Workflow
CCI 4.0
icon
搜索文档
智源研究院发布中英文高质量数据集CCI4.0,推动全球人工智能开源创新
AI科技大本营· 2025-05-07 22:02
智源研究院发布CCI 4.0语料库 - 智源研究院在GOSIM论坛正式发布中文互联网语料库CCI 4.0 包含中英双语的三个子数据集CCI4 0-M2-Base V1 CCI4 0-M2-CoT V1和CCI4 0-M2-Extra V1 [1] - CCI4 0-M2-Base V1数据量达35000GB 其中中文数据5000GB 较CCI3 0规模增长5倍 [1] - CCI4 0-M2-CoT V1包含4 5亿条逆向合成思考轨迹数据 总token数量4250亿 规模超全球最大开源合成数据集Cosmopedia近20倍 [1] CCI系列数据集发展历程 - 智源研究院自2023年10月起牵头建设CCI系列数据集 已迭代至4 0版本 前三个版本总数据量达1 6TB [5] - CCI系列累计下载量突破14万次 支持500余家企事业单位的大模型研发 推动中文语料全球输出 [5] CCI4 0数据来源与处理 - 数据来源包括Nemotron-CC ChineseWebText2 0等开源数据集 并与百度 阿里 华为等17家单位合作确保数据可开源 [9] - 英文数据经过领域分类和流畅度过滤 中文数据额外进行安全敏感词过滤和全局去重 总处理量达6万亿token [10] - 合成数据集经过语义分段 思维链合成等处理 显著提升模型推理能力 [10] 行业趋势与未来计划 - 大规模高质量预训练语料库成为大模型成功关键 DeepSeek-V3等研究证实合成推理数据的重要性 [8] - 公司将持续扩展语料库语言覆盖度 提升质量以支持国内大模型产业发展 [12] 数据获取渠道 - CCI4 0数据集已在Huggingface平台开源 包含Base CoT Extra三个子集 [7]