个性化模型
搜索文档
100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火,一夜近5k star
机器之心· 2025-10-14 10:06
项目概述 - AI领域大神Andrej Karpathy发布名为nanochat的开源项目,旨在以极低成本自建ChatGPT [1][2] - 项目包含约8000行代码,覆盖大语言模型的训练和推理全流程,结构干净且依赖极少 [2][4] - 该项目是LLM101n课程的压轴项目,并有望像nanoGPT一样成长为研究平台或标准基准 [5][6] 技术实现与功能 - 使用Rust实现训练分词器,并在FineWeb数据集上预训练Transformer大语言模型 [4] - 项目实现了监督微调,并评估模型在多选问答、数学、代码等任务上的表现 [4] - 包含高效推理引擎,支持KV缓存、工具调用,并可通过CLI或ChatGPT风格WebUI交互 [9] - 项目能自动生成Markdown评分报告卡,以游戏化方式展示整个训练过程 [9] 成本与性能指标 - 仅需约100美元成本(在8×H100上训练4小时)即可训练一个具备聊天功能的迷你ChatGPT [3][5] - 训练约12小时即可在CORE指标上超过GPT-2 [5] - 将预算提升至1000美元(训练41.6小时),模型性能显著提升,例如一个30层深度的模型在MMLU得分超过40分,在ARC-Easy得分超过70分 [5] - 项目报告了模型在不同训练阶段(BASE, MID, SFT, RL)在ARC-Challenge、GSM8K、HumanEval等多个基准测试上的具体分数 [10] 应用前景与局限性 - 该项目展示了构建具备聊天功能的大语言模型是简单且低成本的 [11] - 然而,该微型模型被类比为非常年幼的孩子,其原始智能有限,不适合直接用于个性化目的 [12][13] - 要实现有效的个性化模型效果,需要在准备原始数据的基础上进行复杂的合成数据生成和重写,并微调当前较强的开源大模型,过程仍偏科研性质 [13]