卡帕西8000行代码手搓ChatGPT，成本仅100美元，训练12小时CORE表现超越GPT-2，手把手教程来了

项目概述 - Andrej Karpathy发布名为nanochat的极简全栈项目，旨在从零开始构建简易版ChatGPT [1] - 项目核心目标是以约100美元成本在8×H100 GPU上训练4小时，复刻基础对话功能的模型 [4] - 整个代码库约8000行，基于Rust语言实现，包含训练分词器、预训练、中期训练、指令微调等完整流程 [4][5] 技术架构与流程 - 采用Transformer架构，在FineWeb-EDU数据集上预训练，使用自定义分词器（词汇量65,536）实现约4.8的文本压缩比 [5][25][26] - 训练流程分为预训练（BASE）、中期训练（MID）、监督微调（SFT）和强化学习（RL）四个阶段 [5][45][48][51] - 推理引擎支持KV缓存、预填充/解码流程及工具使用（如Python解释器），提供CLI和类ChatGPT的WebUI交互界面 [5][43] 性能表现 - 预训练模型CORE指标达0.2219，超越GPT-2 large（0.21）但略低于GPT-2 xl（0.26） [7][41] - 经过中期训练和监督微调后，模型在多项基准测试中提升：ARC-Easy从0.3561升至0.3876，GSM8K从0.0250升至0.0455 [7][56] - 强化学习阶段针对GSM8K数学题优化，性能进一步提升至0.0758，总训练耗时3小时51分钟，成本约92.4美元 [7][53][56][57] 可扩展性与社区影响 - 项目设计为可调优框架，用户可通过修改深度参数（如depth=30）探索更大模型，预期在MMLU和ARC-Easy分别达40多分和70多分 [10][61] - 代码库强调易读性和可修改性，已获GitHub 4.8k星关注，被社区评价为“可被理解的智慧” [11][13][14] - nanochat将作为Karpathy教育项目LLM101n课程的压轴内容，推动AI教育普及 [12][75]