Workflow
nanochat
icon
搜索文档
大佬开炮:智能体都在装样子,强化学习很糟糕,AGI 十年也出不来
自动驾驶之心· 2025-10-22 08:03
文章核心观点 - AI行业存在过度夸大和脱离实际的现状,AGI的实现仍需约十年时间,其发展将带来每年约2%的GDP增量,但并非以当前主流预期的方式实现[2][3][5][6][10][12][13] AGI发展时间与瓶颈 - AGI的实现预计需要十年时间,当前AI智能体存在认知缺陷,包括不够聪明、缺乏多模态能力、无法进行计算机操作、缺乏持续学习能力等[12][13] - 行业曾过早尝试完整解决方案,如雅达利深度强化学习和OpenAI的Universe项目,但因缺乏足够的表征能力而失败[16][17][18] - 预测未来算法将与当前有所不同,但核心仍将是通过梯度下降训练的大型神经网络,需在架构、优化器、损失函数等方面全面改进[33][34][35] LLM认知缺陷与学习机制 - 大语言模型存在认知缺陷,不擅长编写独特或智力密集型代码,容易误解代码风格并增加不必要的复杂性[40][41][42][43] - 模型记忆能力过强,但缺乏类似人类的反思、知识提炼和合成数据生成过程,导致其输出多样性不足且容易发生模型崩溃[60][61][62][63][67] - 人类学习通过内置硬件和进化编码的算法进行,而LLM通过模仿互联网文档训练,是两种不同的智能路径[19][20][22][23] 强化学习局限性 - 强化学习存在显著缺陷,其通过最终结果奖励整个过程的机制噪音过大,无法有效分配部分信用[50][51][52] - 基于过程的监督虽为替代方案,但自动化分配信用困难,且易受对抗性示例影响,导致模型找到漏洞欺骗评判系统[54][55][56][58] - 人类不使用强化学习进行智能任务,而是通过更复杂的回顾和思考过程,当前LLM缺乏相应机制[21][50][52] 自动驾驶与教育应用挑战 - 自动驾驶实现需要较长时间,因涉及复杂物理世界交互,其难度远高于纯数字知识工作[6][10] - 教育的未来可能涉及AI辅助,但需解决模型当前认知缺陷,如持续学习、知识提炼和长上下文处理等[6][10][31][32] 智能进化与经济影响 - 智能进化类似计算趋势的延伸,超级智能将是社会自动化的进步,逐步承担数字和体力工作[94][95] - AGI对经济的影响主要体现在自动化知识工作,预计可覆盖10%到20%的经济份额,但需考虑社会任务重构和工作界面变化[83][84][85] - AI当前最成熟的应用在编程领域,因代码高度结构化且具备相应基础设施,其他文本处理任务如内容重写等仍面临挑战[88][89][90][92]
Karpathy泼冷水:AGI要等10年,根本没有「智能体元年」
36氪· 2025-10-21 10:15
AGI发展时间线 - 行业普遍鼓吹的“智能体元年”存在过度预测,更准确的描述应为“智能体的十年”[3][4] - 当前智能体仍处于非常初期的阶段,需要大约十年的持续研究工作才能让其真正可用[4][5] - 基于在AI行业约15年的经验和个人直觉,预测AGI的到来还需要10年时间[5][6][7] AI技术架构演进 - 预测未来10年AI的核心架构仍可能基于Transformer,但形态会有所演化[8] - 根据“时间平移不变性”,10年后仍将使用前向后向传播和梯度下降来训练巨大的神经网络,但所有组件都会变得更大[9][10] - 算法改进仅能将误差减半,进一步提升必须依靠更大的数据、更强的计算力和更优的软件系统,算法、数据、硬件与系统的进步缺一不可[12] 智能体现状与挑战 - 当前智能体存在智能不足、多模态能力弱、无法自主操作电脑等主要问题[4] - 智能体在认知上存在缺陷,缺乏持续学习能力,这些基础性问题的解决约需十年[5] - 在编码任务中,“手写+自动补全”是目前最佳选择,智能体擅长样板代码但处理“智力密集型代码”能力不足[13][15][16][17][18][20] 强化学习与模型训练 - 强化学习虽不完美,但相比过去仅模仿人的方法,仍是目前最优解[21][22] - 强化学习过程会产生大量噪声,且大语言模型充当评委时易被对抗性样本欺骗,存在泛化能力不足的问题[23][24] - 未来可能需要引入“元学习”或合成数据机制来改进模型评估,但目前尚无实验室在大规模通用环境下成功实现[26][27] 人工智能与人类学习对比 - 当前大模型仅通过预测下一个词学习,缺乏人类通过反思、讨论整合知识的“思考”过程[28] - 人类“不擅长记忆”是进化优势,迫使其学习可泛化模式,未来AI应减少机械记忆,更多依靠思考与探索[28][30] - 真正的智能不在于记忆更多,而在于理解与泛化,需要构建大模型压缩记忆工作,重点发展认知部分[30] AI对社会与工作的影响 - 通用人工智能被定义为能够以人类或更好的表现完成任何有经济价值任务的系统,但已从最初定义中移除了物理性任务[31] - 放射科医生和呼叫中心等工作未被完全自动化,因其涉及复杂工作场景,理想状态是AI完成80%工作量,人类监督完成剩余20%[32][33][34] - 更看重AI与人类的互补关系,而非替代关系,现实中许多工作比呼叫中心员工的工作复杂得多[35][36] 超级智能与社会自动化 - 超级智能被视为社会自动化进程的自然延伸,将出现越来越多从事数字工作和体力工作的自主实体[37] - AI驱动的自动化会显得“非常陌生和奇怪”,当世界在计算机集群上运行时,人类可能逐渐失去对正在发生的事情的控制和理解[37] - 从工业革命开始,递归式自我改进和智能爆炸已持续数百年,我们处于“智能爆炸”中已有几十年[37][38]
Andrej Karpathy 开炮:智能体都在装样子,强化学习很糟糕,AGI 十年也出不来
机器之心· 2025-10-18 13:44
AGI发展时间框架与当前局限 - AGI的实现仍需约十年时间,当前AI代理存在认知缺陷,包括缺乏多模态能力、无法进行计算机操作、缺乏持续学习能力等[10][11] - AI行业存在过于乐观的预测,将当前阶段称为"智能体的十年"更为准确,而非"智能体之年"[10] - 实现真正可工作的AI代理需要解决智能程度不足、持续学习、记忆能力等关键技术瓶颈[11] LLM认知缺陷与技术挑战 - 大语言模型存在严重认知缺陷,无法胜任复杂编程任务,特别是在处理非模板化、智力密集型代码时表现不佳[35][36] - 当前编码模型在理解自定义实现和代码风格方面存在局限,经常误解开发者的编程意图[36][37] - 模型倾向于过度依赖训练数据中的常见模式,难以适应创新性的代码架构和实现方式[38] 强化学习范式的问题 - 强化学习存在根本性缺陷,其通过最终结果反向加权整个过程的机制效率低下[45][46] - 人类并不使用类似强化学习的方式解决问题,而是通过更复杂的反思和回顾过程[45][46] - 基于过程的监督比基于结果的奖励更合理,但实现自动化信用分配面临技术挑战[48][49] 人类学习与AI学习的差异 - 人类学习通过信息操纵和思考实现知识获取,而LLM仅通过预测下一个token学习,缺乏深度思考机制[56] - 人类记忆能力有限反而有利于泛化学习,而LLM过度记忆训练数据可能阻碍认知能力发展[62][63] - 模型崩溃问题源于合成数据训练的局限性,需要保持足够的熵值来维持输出多样性[57][64] AI对经济增长的影响 - AGI将逐步融入经济增长,预计每年带来约2%的GDP增量,但不会以爆发式方式实现[75][76] - AI自动化将首先应用于适合数字化的领域,如呼叫中心等结构化任务,而非复杂的知识工作[78][79] - 编程是AI应用的理想起点,因为代码本质上是结构化的文本,与LLM的技术特性高度匹配[82][83] 技术发展趋势预测 - Transformer架构可能继续演进,但梯度下降训练大型神经网络的基本范式将保持不变[29][30] - 未来技术进步需要算法、数据、硬件等多方面协同改进,而非单一领域的突破[30][74] - 认知核心参数规模可能优化至十亿级别,通过知识蒸馏去除过度记忆,保留核心推理能力[67][70] 实际应用部署路径 - AI部署将采用渐进式自动化策略,人类作为监督者管理多个AI代理,而非完全取代人工[79][80] - 当前AI在经济价值创造上主要集中在编程领域,其他知识工作的自动化进展相对缓慢[82][84] - 超级智能应被视为社会自动化的自然延伸,是计算趋势发展的结果,而非突变式突破[86]
卡帕西 8000 行代码手搓 ChatGPT,成本仅100美元,训练 12 小时 CORE 表现超越GPT-2
程序员的那些事· 2025-10-15 08:44
项目概述 - Andrej Karpathy发布名为nanochat的极简全栈训练/推理pipeline项目,旨在从零开始构建简易版ChatGPT [1][2] - 项目包含约8000行代码,采用全新Rust语言实现,依赖少量单一代码库 [4][5] - 核心目标是将完整技术栈整合为统一、极简、易读、可修改、易分发的代码库,作为LLM101n课程的压轴项目 [11][12] 成本与效率 - 在8×H100 GPU服务器上训练4小时,总成本约100美元即可复刻基础对话版ChatGPT模型 [3][4] - 总训练时间约3小时51分钟,总成本为92.4美元,若包含强化学习阶段总时间接近5小时 [7][57] - 训练深度为30的模型24小时后(算力消耗仅为GPT-3的千分之一),在MMLU数据集可达40多分,ARC-Easy达70多分,GSM8K达20多分 [10] 技术架构与流程 - 实现完整训练pipeline:预训练分词器、在FineWeb数据集预训练Transformer、中期训练、指令微调、可选强化学习 [5] - 推理引擎支持KV缓存、预填充/解码流程、工具使用(Python解释器),可通过CLI或类ChatGPT的WebUI交互 [5][49] - 训练20层Transformer模型,参数量约560M,需11.2B tokens训练,计算量达4e19 FLOPs [33][34][35] 性能表现 - 基础模型CORE指标达0.2219,超越GPT-2 large(0.21),略低于GPT-2 xl(0.26) [7][41] - 监督微调后模型在ARC-Easy达0.3876,GSM8K达0.0455,HumanEval达0.0854,MMLU达0.3151 [7][56] - 强化学习阶段针对GSM8K数学题优化,性能从0.0455提升至0.0758 [7][56] 分词器优化 - 自定义分词器词汇表大小65,536 tokens,训练集包含2B字符,训练时间仅1分钟,压缩比达4.8 [25][26] - 相比GPT-2分词器(50257 tokens),在新闻文本(+7.2%)、代码(+14.6%)、科学内容(+12.3%)压缩效率更优 [27] - 在FineWeb数据集上压缩效率以微弱优势超越GPT-4分词器(100,277 tokens) [27] 社区影响与扩展性 - 项目发布后GitHub Star数迅速飙升至4.8k,被评价为"可被理解的智慧" [14] - 支持通过调整深度参数探索模型系列,深度26时CORE指标可达0.25,接近GPT-2性能 [61] - 项目具备成为研究工具框架或基准测试工具的潜力,所有模块可在社区进一步优化 [13][59]
腾讯研究院AI速递 20251015
腾讯研究院· 2025-10-15 00:01
英伟达发布个人AI超算 - 英伟达正式发布DGX Spark个人AI超级计算机,售价3999美元,搭载Grace Blackwell GB10超级芯片,提供1 Petaflop AI计算性能和128GB统一内存 [1] - 该设备采用NVLink-C2C技术实现CPU与GPU无缝连接,带宽是PCIe 5代的5倍,可在本地运行2000亿参数大模型,两台联机可处理4000亿参数模型 [1] - 预装完整NVIDIA AI软件栈,10月15日起通过官网及全球合作伙伴正式发售 [1] AI模型与算法开源进展 - AI大神Andrej Karpathy发布开源项目nanochat,8000行代码实现从零训练ChatGPT克隆版全流程,发布12小时内获得近5000颗GitHub星标 [2] - nanochat项目覆盖分词器训练到推理引擎全部功能,仅需100美元成本(8×H100训练4小时)即可训练出能聊天的迷你模型,更适合学习研究 [2] - 腾讯优图实验室开源通用文本表示模型Youtu-Embedding,可胜任文本检索、意图理解等六大主流任务,在CMTEB中文语义评测基准上以77.46分登顶 [4] - Youtu-Embedding模型从零开始训练使用3万亿Token中英文语料,采用创新微调框架,支持集成至主流框架开箱即用,降低企业级RAG系统开发门槛 [4] 科技巨头AI产品与技术突破 - 微软推出首款完全自研文生图模型MAI-Image-1,首次亮相以1096分排在LMArena文生图榜单第9名,在光影效果、自然景观等超写实图像生成上表现突出 [3] - MAI-Image-1将集成至Copilot和Bing Image Creator等微软核心产品,是微软打造多模态自主技术矩阵的重要一步 [3] - QQ浏览器电脑端新增“较真AI”功能,基于腾讯新闻较真平台10年查证经验及百万级辟谣数据库,可快速辨别信息真伪并输出可信度评分 [7] - QQ浏览器同步上线“AI视频助理”,支持智能总结、16种语言识别翻译和一键导出带字幕视频,依托腾讯混元翻译模型解决外语视频理解难题 [7] 前沿科技与航天进展 - SpaceX完成星舰第十一次综合飞行测试,使用二手助推器B15.2和S38飞船,为第三代星舰收集着陆燃烧配置和动力数据 [8] - 助推器验证了13台发动机初始点火、5台发动机转向和3台发动机悬停的配置切换,飞船完成了动态倾斜机动、太空点火和隔热极限测试 [8] - 第三代星舰组合体高度将超124米,采用第三代猛禽发动机单台推力提升至280吨,有效载荷达100吨,预计2025年底开展地面测试 [8] AI行业趋势与战略洞察 - ARK Invest创始人Cathie Wood预测未来十年全球实际GDP增速将从3%提升至7%以上,通胀率降至0%甚至负值,AI等五大技术平台成熟将重新定义生产率 [9] - 她预计真正的颠覆式创新资产未来五年在资本市场年化回报率可能达40%-50% [9] - n8n创始人认为AI浪潮要么是巨大机遇要么是公司终结,n8n选择让用户能用其构建AI驱动应用而非只添加AI功能,成为AI编排层,公司收入在8个月内增长4倍 [12] AI交互研究与人才培养 - 宾夕法尼亚州立大学研究显示,对LLM使用粗鲁语气提问时,GPT-4o正确率达84.8%,而特别客气时正确率仅80.8%,粗鲁表达更直接能让AI精准抓住核心任务 [5][6] - 腾讯启动“青云奖学金”,面向AI前沿的硕博研究生,首届预计评选15位优秀学子,每人总支持高达50万元,包括20万元现金奖励和30万元云异构算力资源 [10]
4小时喜提专属 ChatGPT、卡帕西又整活,自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师
36氪· 2025-10-14 20:52
项目概述 - 特斯拉前AI总监Andrej Karpathy发布了一个名为nanochat的极简开源项目,用于从零构建全流程的大语言模型训练和推理工具链 [1] - 该项目在GitHub上已获得7.9k星标,整个代码库仅一个文件,依赖项极少 [1] - 项目目标是为LLM101n课程提供核心项目,并有望发展成为研究工具框架或基准测试工具 [6] 成本与性能 - 使用nanochat,仅需约100美元成本(在8卡H100节点上训练约4小时)即可训练出可对话的简易版ChatGPT复现模型 [2] - 训练约12小时后,模型性能可超过GPT-2的CORE指标 [2] - 将成本提升至约1000美元(训练约41.6小时),模型的连贯性会显著提升,能够解决简单的数学题和代码任务 [3] - 一个深度为30的模型训练24小时后,在MMLU数据集上可取得40多分,在ARC-Easy数据集上可取得70多分,在GSM8K数据集上可取得20多分 [3] 技术实现与架构 - 项目总共约8000行代码,完全由Karpathy手写完成,代码结构清晰 [7] - 模型架构整体类似Llama模型,采用稠密Transformer结构,使用旋转位置编码和QK归一化 [7][8] - 优化器采用Muon+AdamW组合,未来计划尝试移除对Muon的依赖 [9] - 实现高效推理引擎,支持KV缓存、工具使用(如Python解释器),并提供命令行和网页两种交互界面 [4] 功能与评估 - nanochat提供从预训练、中期训练到指令微调和强化学习的完整流程 [4] - 项目可自动生成Markdown格式的"报告卡",以游戏化方式总结各项指标 [4] - 评估指标涵盖CORE、ARC-Challenge、GSM8K、HumanEval、MMLU等多个数据集,并展示了模型在不同训练阶段的性能变化 [5] 社区影响与潜在应用 - 该项目被社区认为将对机器学习学习者和科研人员产生深远影响,降低了训练大语言模型的门槛 [10] - 有观点认为,此类工具可能削弱像Anthropic、OpenAI这类公司在技术上的优势,使更多工程师能够训练出强大的大语言模型 [10] - 项目为科研人员提供了现成的工具流程,使改进大语言模型的想法更容易从空想变为可实施的实验 [10]
4小时喜提专属 ChatGPT、卡帕西又整活!自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师
AI前线· 2025-10-14 17:46
项目发布与核心特点 - 特斯拉前AI总监Andrej Karpathy发布名为nanochat的极简开源项目,该项目在GitHub上已获得7.9k星标 [2] - nanochat是一个从零构建的全流程训练/推理工具链,可用于搭建简易版ChatGPT复现模型,整个代码库仅一个文件,依赖项极少 [2] - 项目被描述为“100美元能买到的最好的ChatGPT”,用户可在云GPU服务器上运行脚本,最快4小时后即可在类ChatGPT网页界面与自己训练的大语言模型对话 [4] 成本效益与性能表现 - 在8卡H100节点上训练约4小时(成本约100美元),即可获得一个能写故事、写诗、回答简单问题的可对话模型 [6] - 训练约12小时后,模型性能便可超过GPT-2的CORE指标 [6] - 将成本提升至约1000美元(训练约41.6小时),模型连贯性显著提升,能够解决简单数学题、代码任务及完成多项选择题测试 [7] - 一个深度为30、计算量与GPT-3 Small相当的模型,在MMLU数据集上可取得40多分,在ARC-Easy数据集上可取得70多分,在GSM8K数据集上可取得20多分 [7] 技术实现与架构 - 项目基于全新Rust语言实现训练分词器,并在FineWeb数据集上对Transformer架构大语言模型进行预训练 [5] - 模型架构整体类似Llama模型但更简洁,采用稠密Transformer、旋转位置编码、QK归一化、多查询注意力等技术 [13] - 优化器采用Muon+AdamW组合,代码仓库总共约8000行,为手写完成,未使用AI编程助手辅助 [11] 行业影响与潜在应用 - 该项目被视为极简的端到端训练/推理工具链,预计将对机器学习学习者和科研人员产生深远影响 [14] - 有观点认为该工具链可能削弱如Anthropic、OpenAI等公司的技术优势,因为优秀工程师可利用足够资源训练出更强大的模型 [14] - 项目最大的潜在受众是科研人员,其提供了一个现成的工具流程,可将改进大语言模型的想法快速付诸实验 [14] - 项目旨在成为LLM101n课程的核心项目,并有潜力发展成研究工具框架或基准测试工具 [9]
AI大神卡帕西开源项目爆火,仅用4小时、8000行代码克隆ChatGPT
36氪· 2025-10-14 17:28
项目概述 - AI专家安德烈·卡帕西发布名为“nanochat”的新开源项目,被形容为“最不受约束”的疯狂项目之一 [2] - nanochat是一个极简的、从零开始的全栈训练/推理流程,通过依赖项最少的单一代码库实现简易版ChatGPT的完整构建 [2] - 使用流程简单:租用云GPU服务器,运行单个脚本,最快4小时后即可在类似ChatGPT的网页界面中与自行训练的大语言模型对话 [2] 技术流程 - 项目打包了从零开始制造Chatbot的所有步骤和工具,包括数据准备、模型预训练、对齐微调、模型推理和评估 [5][6] - 数据准备阶段从原始网络文本开始,创建分词器,将海量文本转化为模型能理解的数字 [5] - 模型预训练是在大规模数据上训练基础Transformer模型,为最耗时、最核心的一步 [5] - 对齐微调包括指令微调和可选的强化学习阶段,以提升模型在特定任务上的表现 [6] - 模型推理阶段提供高效引擎,支持在命令行或网页界面中进行实时对话 [6] - 训练完成后系统会自动生成详细报告,展示模型在数学、代码、常识推理等多个标准测试上的表现 [6] 项目意义 - 首要意义在于教育和学习,是理解“如何从零构建ChatGPT”的最佳学习资料 [7] - 为研究人员提供一个轻量级、可控、可复现的实验平台,便于快速测试新模型架构、训练方法或对齐技术 [7] - 被网友发掘出新可能,认为该系统可成为硬件评估的新基准,只需报告在特定测试集上的综合性能表现、端到端训练总成本和总耗时 [7][9] 成本与性能 - 仅需约100美元(在8XH100节点上训练约4小时),即可训练出一个小型ChatGPT克隆版,可进行基本对话、创作故事诗歌、回答简单问题 [10][12] - 训练约12小时即可在CORE指标上超越GPT-2 [14] - 将预算提升到约1000美元(训练41.6小时),模型会变得更加连贯,能够解决简单的数学和编程问题,并通过多项选择题测试 [14] 模型架构 - 模型架构基本与Meta Llama模型类似,但进行了一些简化,并吸收了来自其改进版modded-nanoGPT项目的设计思路 [15] - 主要架构特征包括采用Muon + AdamW组合的优化器、旋转位置编码、对Query和Key向量进行归一化、多查询注意力机制等 [15][20] 应用局限 - 代码库不适合用于训练真正懂用户的个人聊天机器人,这些微型模型类似于幼龄儿童,不具备大型模型的原生智力 [16] - 若用个人数据微调,可能得到粗糙的模仿文风回应,要实现理想效果仍属前沿研究领域 [16] - 当前最可行的非技术方案是将资料导入NotebookLM等工具,通过RAG技术处理数据,信息通过上下文窗口传递但不改变模型权重 [17]
100美元、仅8000行代码,复现ChatGPT,Karpathy:这是我写过的最疯狂的项目
Founder Park· 2025-10-14 12:18
项目概览 - 特斯拉前AI总监、OpenAI创始成员Andrej Karpathy发布全新开源项目“nanochat”,这是一个极简但完整的“从零构建ChatGPT”训练框架 [3] - 该项目被描述为LLM101n的“压轴之作”,并可能成为未来研究基线和开源社区的实验平台 [8][16] - 项目核心理念是降低LLM研究与复现门槛,让每个人都能亲手训练自己的模型,延续了其在nanoGPT时期倡导的民主化路线 [12][22] 技术规格与成本效益 - 整个系统仅需约8000行干净代码,在一台GPU机器上运行约4小时后,即可通过网页界面与训练的“小ChatGPT”对话 [7][25][26] - 项目全程花费低至约100美元,可训练出一个能创作故事/诗歌、回答简单问题的小型ChatGPT [10][13] - 训练约12小时即可超过GPT-2的核心指标,将预算扩展到约1000美元(训练约41.6小时)后,模型能解决简单的数学/代码问题并做多项选择题 [10][11][13] 功能与性能 - nanochat涵盖从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程 [6] - 训练24小时的模型(FLOPs大致相当于GPT-3 Small 125M,约为GPT-3的1/1000)在MMLU上得分进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段 [11] - 项目实现了高效的推理引擎,带有KV缓存,支持简单的预填充/解码,工具使用(如Python解释器),并可通过CLI或类ChatGPT的网页界面交互 [12] 项目定位与影响 - nanochat被视为“LLM生态系统微缩版”,与nanoGPT构成“从神经网络基础到产品级对话系统”的两步闭环 [17][18][19][20] - 项目在放出不到12小时内,GitHub星标就突破4.2k,显示出开源社区的高度关注 [4][6] - Karpathy的目标是将完整的“强基线”技术栈整合到一个连贯、极简、可读、可修改、可最大化派生的代码仓库中 [14]
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
36氪· 2025-10-14 11:40
项目概述 - 项目nanochat是一个极简、从零开始构建的全栈训练/推理pipeline,用最少量依赖的单一代码库实现了简易版ChatGPT [1] - 项目整体约8000行代码,基于Rust语言实现,可实现训练分词器、预训练大语言模型、指令微调、强化学习及高效推理等功能 [2] - 在8×H100 GPU上训练约4小时,整体成本仅需约100美元,即可训练出一个可进行基础对话、创作故事诗歌、回答简单问题的模型 [1][2] 技术架构与流程 - 训练流程始于在FineWeb-EDU数据集上预训练Transformer架构模型,该数据集被重新打包为简单、完全打乱的分片,总计约24GB [15][16] - 项目训练了自定义分词器,词汇表大小为65,536个tokens,在训练集包含2B字符上训练约1分钟,实现了约4.8的压缩比 [16][18] - 预训练后进行了中期训练,在SmolTalk对话数据集和多项选择题数据集上微调,使模型适应对话格式并理解多选题机制,此过程约8分钟 [35][36][37] - 随后进行监督微调(SFT)以提升对话质量,并可选地进行强化学习(RL)训练,针对GSM8K数学数据集使用简化的GRPO算法优化模型答案正确率 [41][46][48] 性能表现 - 模型在预训练后CORE指标达到0.2219,略高于GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [3][32] - 经过中期训练和监督微调后,模型在多项基准测试上表现提升:ARC-Easy从0.3561提升至0.3876,GSM8K从0.0250提升至0.0455,HumanEval从0.0671提升至0.0854 [3][52] - 进行强化学习训练后,模型在GSM8K数据集上的表现进一步提升至0.0758 [3][52] - 训练深度为30的模型24小时后(算力消耗为GPT-3的千分之一),在MMLU数据集上可达40多分,在ARC-Easy上达70多分,在GSM8K上达20多分 [6] 项目特点与影响 - 项目代码完全手写,作者尝试使用AI编程助手但效果不佳,最终产出约8000行代码,旨在提供统一、极简、易读、可修改的技术栈 [9][7] - 项目作为LLM101n课程的压轴项目,有潜力发展为研究工具框架或基准测试工具,类似之前的nanoGPT项目 [7] - 项目发布后迅速获得社区关注,GitHub Star数飙升至4.8k,被评论为具有高教育价值和可理解智慧 [8] 成本与效率 - 使用云服务(如Lambda GPU Cloud)启动一台8卡H100服务器,每小时成本约24美元,总训练时间约4小时,成本约100美元 [10][53] - 若将成本提升至约1000美元(训练约41.6小时),模型表现显著提升,能解决简单的数学/代码问题及多项选择题 [4] - 到监督微调阶段为止的总用时为3小时51分钟,总成本约为92.4美元 [53]