Workflow
监督微调
icon
搜索文档
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
36氪· 2025-10-14 11:40
100美元成本、8000行代码纯手搓克隆ChatGPT! 特斯拉前AI总监、OpenAI创始成员、宣布全职搞教育的AI大神Andrej Karpathy(卡帕西)沉寂了好久,终于终于终于来上新课了! 新作nanochat,被其本人称作是写得最"精神错乱"放飞自我的作品之一。 它是一个极简的、从零开始构建的全栈训练/推理pipeline,用最少量依赖的单一代码库实现了简易版ChatGPT。 只要你启动一台云GPU服务器,运行一个脚本,最快只要4小时,就能在类似ChatGPT的网页界面与自己训练的大语言模型对话。 整个项目约8000行代码,可实现以下功能: 基于全新Rust语言实现,训练分词器 (tokenizer) 在FineWeb数据集上预训练Transformer架构大语言模型,并通过多项指标评估CORE得分 在SmolTalk用户-助手对话数据集、多项选择题数据集、工具使用数据集上进行中期训练 (Midtrain) 整体成本只需约100美元(在8×H100上训练4小时),就能训练复刻出一个可进行基础对话、创作故事诗歌、回答简单问题的简易版ChatGPT模型。 执行指令微调 ( S FT) ,并在世界知识多 ...
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
量子位· 2025-10-14 10:19
100美元成本、8000行代码纯手搓克隆ChatGPT! 西风 发自 凹非寺 量子位 | 公众号 QbitAI 特斯拉前AI总监、OpenAI创始成员、宣布全职搞教育的AI大神 Andrej Karpa thy (卡帕西) 沉寂了好久,终于终于终于来上新课了! 新作 nanochat ,被其本人称作是写得最"精神错乱"放飞自我的作品之一。 它是一个极简的、从零开始构建的全栈训练/推理pipeline,用最少量依赖的单一代码库实现了简易版ChatGPT。 只要你启动一台云GPU服务器,运行一个脚本, 最快只要4小时 ,就能在类似ChatGPT的网页界面与自己训练的大语言模型对话。 整个项目约8000行代码,可实现以下功能: 整体成本只需约100美元 (在8×H100上训练4小时) ,就能训练复刻出一个可进行基础对话、创作故事诗歌、回答简单问题的简易版 ChatGPT模型。 基于全新Rust语言实现,训练分词器 (tokenizer) 在FineWeb数据集上预训练Transformer架构大语言模型,并通过多项指标评估CORE得分 在SmolTalk用户-助手对话数据集、多项选择题数据集、工具使用数据集上进行中 ...