100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火,一夜近5k star
新开源新开源(SZ:300109) 36氪·2025-10-14 10:25

项目概述 - AI领域专家Andrej Karpathy发布名为nanochat的开源项目,旨在以极低成本实现ChatGPT克隆版 [1][2] - 项目包含从零开始构建大模型的完整流程,代码约8000行,发布12小时内GitHub星标数超过4500 [2] - 目标是将一整套“强势基线”能力打包进结构统一、可读性强、易于修改的代码库中 [5] 技术功能与流程 - 实现训练分词器、在FineWeb数据集上预训练Transformer LLM、SFT微调及可选GRPO强化训练 [3] - 包含高效推理引擎,支持KV Cache、prefill/decode推理、工具调用,可通过CLI或WebUI交互 [3] - 自动生成Markdown评分报告卡,总结与游戏化展示整个训练过程 [3] 成本与性能表现 - 约100美元成本(8×H100 GPU训练4小时)即可训练出具备聊天功能的迷你模型,能写故事/诗歌、回答简单问题 [3] - 训练约12小时模型性能可超过GPT-2的CORE指标 [3] - 预算扩展至1000美元(训练41.6小时),模型在MMLU得分40+、ARC-Easy得分70+、GSM8K得分20+ [4] 项目定位与社区影响 - nanochat是LLM101n课程的压轴项目,有潜力像nanoGPT一样成长为研究平台或标准基准 [5] - 项目框架已成型,适合社区协同迭代改进每个模块 [5] 应用场景与局限性 - 专家认为该微型模型类似年幼孩子,不适合直接用于个性化数据微调,否则效果不佳 [9][10] - 实现有效的个性化模型需复杂步骤,包括大量合成数据生成和重写,目前仍偏重科研 [10]