Workflow
nanoGPT
icon
搜索文档
全球首个太空AI诞生,H100在轨炼出,马斯克爆赞
36氪· 2025-12-11 11:46
行业里程碑事件 - 首个在太空训练和运行的大型语言模型诞生,由搭载英伟达H100 GPU的Starcloud-1卫星基于Karpathy的nanoGPT项目,使用莎士比亚语料训练完成 [1][3][9] - 谷歌开源模型Gemma首次在太空成功运行,并向地球发出了问候信息 [1][11] - 该成就获得了包括马斯克、前谷歌CEO在内的科技界AI领袖们的广泛赞誉 [7] 技术实现与性能 - Starcloud-1卫星搭载的H100 GPU,其算力比以往任何进入太空的GPU强100倍 [9] - 该卫星在短短一个月内即在太空中成功训练出LLM [9] - 模型具备实时情报分析能力,例如可瞬间识别野火热点并通知应急人员,并能结合自身传感器数据(如高度、姿态、位置)进行实时交互 [16] - 太空运行的Gemma模型反馈复杂度与在地球上运行时无异 [12] 商业模式与成本优势 - 太空数据中心利用太阳能无限供电,其成本可降至地面数据中心的1/10 [20] - 公司最终目标是打造一个功率达5吉瓦(5GW)的轨道数据中心,配备宽高约4公里的太阳能板和冷却面板 [20] - 太空算力集群的功率将超过美国最大的发电厂,但占地面积和成本远低于地面同等规模的太阳能农场 [22] - Starcloud卫星的设计寿命约为五年,与英伟达芯片的使用周期一致 [22] 公司发展规划 - Starcloud计划于2026年10月进行下一次发射,将一次性搭载多枚H100 GPU,并整合Blackwell平台以提升AI性能 [22] - 下一次发射还将集成云基础设施公司Crusoe的模块,使客户能够直接从太空部署和运行AI工作负载 [22] 行业竞争格局 - 太空算力赛道竞争激烈,参与者包括Starcloud、谷歌、SpaceX和蓝色起源等 [25] - 谷歌启动了“Project Suncatcher”,计划将自研的GPU太阳卫星送入太空,目标利用近日点不间断的太阳能,计划在2027年进行早期测试 [26] - 马斯克表示Starlink V3卫星有望扩展成为轨道算力基础设施的骨干网络 [28] - SpaceX的“星舰”有望每年向轨道运送相当于300吉瓦至500吉瓦功率的太阳能AI卫星 [30] - 蓝色起源的“新格伦”(New Glenn)火箭取得重大进展,预计未来将向轨道运送大量卫星 [31][32] - OpenAI的Sam Altman也曾试图收购或合作火箭公司,希望将AI算力部署到太空 [33] 行业驱动因素 - 地面数据中心面临巨大压力:给电网带来负担、每年消耗数十亿加仑水资源并排放大量温室气体 [19] - 国际能源署预测,到2030年,全球数据中心的用电量将超过如今的两倍 [19] - 将数据中心迁至太空被视为应对地球资源约束的解决方案 [17] 核心团队背景 - 联合创始人兼CEO Philip Johnston:连续创业者,前麦肯锡顾问,负责国家航天机构卫星项目,拥有哈佛大学MPA、沃顿商学院MBA、哥伦比亚大学应用数学与理论物理硕士学位,是CFA持证人 [35][37] - 联合创始人兼CTO Ezra Feilden:拥有十年卫星设计经验,专攻可展开太阳能阵列,曾参与NASA“月球勘探者”等任务,拥有伦敦帝国理工学院材料工程博士学位 [39] - 联合创始人兼总工程师 Adi Oltean:前SpaceX首席软件工程师,负责“追踪波束”项目(用于Starlink),前微软首席软件工程师,拥有超过25项专利 [41]
4小时喜提专属 ChatGPT、卡帕西又整活,自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师
36氪· 2025-10-14 20:52
项目概述 - 特斯拉前AI总监Andrej Karpathy发布了一个名为nanochat的极简开源项目,用于从零构建全流程的大语言模型训练和推理工具链 [1] - 该项目在GitHub上已获得7.9k星标,整个代码库仅一个文件,依赖项极少 [1] - 项目目标是为LLM101n课程提供核心项目,并有望发展成为研究工具框架或基准测试工具 [6] 成本与性能 - 使用nanochat,仅需约100美元成本(在8卡H100节点上训练约4小时)即可训练出可对话的简易版ChatGPT复现模型 [2] - 训练约12小时后,模型性能可超过GPT-2的CORE指标 [2] - 将成本提升至约1000美元(训练约41.6小时),模型的连贯性会显著提升,能够解决简单的数学题和代码任务 [3] - 一个深度为30的模型训练24小时后,在MMLU数据集上可取得40多分,在ARC-Easy数据集上可取得70多分,在GSM8K数据集上可取得20多分 [3] 技术实现与架构 - 项目总共约8000行代码,完全由Karpathy手写完成,代码结构清晰 [7] - 模型架构整体类似Llama模型,采用稠密Transformer结构,使用旋转位置编码和QK归一化 [7][8] - 优化器采用Muon+AdamW组合,未来计划尝试移除对Muon的依赖 [9] - 实现高效推理引擎,支持KV缓存、工具使用(如Python解释器),并提供命令行和网页两种交互界面 [4] 功能与评估 - nanochat提供从预训练、中期训练到指令微调和强化学习的完整流程 [4] - 项目可自动生成Markdown格式的"报告卡",以游戏化方式总结各项指标 [4] - 评估指标涵盖CORE、ARC-Challenge、GSM8K、HumanEval、MMLU等多个数据集,并展示了模型在不同训练阶段的性能变化 [5] 社区影响与潜在应用 - 该项目被社区认为将对机器学习学习者和科研人员产生深远影响,降低了训练大语言模型的门槛 [10] - 有观点认为,此类工具可能削弱像Anthropic、OpenAI这类公司在技术上的优势,使更多工程师能够训练出强大的大语言模型 [10] - 项目为科研人员提供了现成的工具流程,使改进大语言模型的想法更容易从空想变为可实施的实验 [10]
AI大神卡帕西开源项目爆火,仅用4小时、8000行代码克隆ChatGPT
36氪· 2025-10-14 17:28
项目概述 - AI专家安德烈·卡帕西发布名为“nanochat”的新开源项目,被形容为“最不受约束”的疯狂项目之一 [2] - nanochat是一个极简的、从零开始的全栈训练/推理流程,通过依赖项最少的单一代码库实现简易版ChatGPT的完整构建 [2] - 使用流程简单:租用云GPU服务器,运行单个脚本,最快4小时后即可在类似ChatGPT的网页界面中与自行训练的大语言模型对话 [2] 技术流程 - 项目打包了从零开始制造Chatbot的所有步骤和工具,包括数据准备、模型预训练、对齐微调、模型推理和评估 [5][6] - 数据准备阶段从原始网络文本开始,创建分词器,将海量文本转化为模型能理解的数字 [5] - 模型预训练是在大规模数据上训练基础Transformer模型,为最耗时、最核心的一步 [5] - 对齐微调包括指令微调和可选的强化学习阶段,以提升模型在特定任务上的表现 [6] - 模型推理阶段提供高效引擎,支持在命令行或网页界面中进行实时对话 [6] - 训练完成后系统会自动生成详细报告,展示模型在数学、代码、常识推理等多个标准测试上的表现 [6] 项目意义 - 首要意义在于教育和学习,是理解“如何从零构建ChatGPT”的最佳学习资料 [7] - 为研究人员提供一个轻量级、可控、可复现的实验平台,便于快速测试新模型架构、训练方法或对齐技术 [7] - 被网友发掘出新可能,认为该系统可成为硬件评估的新基准,只需报告在特定测试集上的综合性能表现、端到端训练总成本和总耗时 [7][9] 成本与性能 - 仅需约100美元(在8XH100节点上训练约4小时),即可训练出一个小型ChatGPT克隆版,可进行基本对话、创作故事诗歌、回答简单问题 [10][12] - 训练约12小时即可在CORE指标上超越GPT-2 [14] - 将预算提升到约1000美元(训练41.6小时),模型会变得更加连贯,能够解决简单的数学和编程问题,并通过多项选择题测试 [14] 模型架构 - 模型架构基本与Meta Llama模型类似,但进行了一些简化,并吸收了来自其改进版modded-nanoGPT项目的设计思路 [15] - 主要架构特征包括采用Muon + AdamW组合的优化器、旋转位置编码、对Query和Key向量进行归一化、多查询注意力机制等 [15][20] 应用局限 - 代码库不适合用于训练真正懂用户的个人聊天机器人,这些微型模型类似于幼龄儿童,不具备大型模型的原生智力 [16] - 若用个人数据微调,可能得到粗糙的模仿文风回应,要实现理想效果仍属前沿研究领域 [16] - 当前最可行的非技术方案是将资料导入NotebookLM等工具,通过RAG技术处理数据,信息通过上下文窗口传递但不改变模型权重 [17]
100美元、仅8000行代码,复现ChatGPT,Karpathy:这是我写过的最疯狂的项目
Founder Park· 2025-10-14 12:18
项目概览 - 特斯拉前AI总监、OpenAI创始成员Andrej Karpathy发布全新开源项目“nanochat”,这是一个极简但完整的“从零构建ChatGPT”训练框架 [3] - 该项目被描述为LLM101n的“压轴之作”,并可能成为未来研究基线和开源社区的实验平台 [8][16] - 项目核心理念是降低LLM研究与复现门槛,让每个人都能亲手训练自己的模型,延续了其在nanoGPT时期倡导的民主化路线 [12][22] 技术规格与成本效益 - 整个系统仅需约8000行干净代码,在一台GPU机器上运行约4小时后,即可通过网页界面与训练的“小ChatGPT”对话 [7][25][26] - 项目全程花费低至约100美元,可训练出一个能创作故事/诗歌、回答简单问题的小型ChatGPT [10][13] - 训练约12小时即可超过GPT-2的核心指标,将预算扩展到约1000美元(训练约41.6小时)后,模型能解决简单的数学/代码问题并做多项选择题 [10][11][13] 功能与性能 - nanochat涵盖从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程 [6] - 训练24小时的模型(FLOPs大致相当于GPT-3 Small 125M,约为GPT-3的1/1000)在MMLU上得分进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段 [11] - 项目实现了高效的推理引擎,带有KV缓存,支持简单的预填充/解码,工具使用(如Python解释器),并可通过CLI或类ChatGPT的网页界面交互 [12] 项目定位与影响 - nanochat被视为“LLM生态系统微缩版”,与nanoGPT构成“从神经网络基础到产品级对话系统”的两步闭环 [17][18][19][20] - 项目在放出不到12小时内,GitHub星标就突破4.2k,显示出开源社区的高度关注 [4][6] - Karpathy的目标是将完整的“强基线”技术栈整合到一个连贯、极简、可读、可修改、可最大化派生的代码仓库中 [14]
100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火,一夜近5k star
36氪· 2025-10-14 10:25
项目概述 - AI领域专家Andrej Karpathy发布名为nanochat的开源项目,旨在以极低成本实现ChatGPT克隆版 [1][2] - 项目包含从零开始构建大模型的完整流程,代码约8000行,发布12小时内GitHub星标数超过4500 [2] - 目标是将一整套“强势基线”能力打包进结构统一、可读性强、易于修改的代码库中 [5] 技术功能与流程 - 实现训练分词器、在FineWeb数据集上预训练Transformer LLM、SFT微调及可选GRPO强化训练 [3] - 包含高效推理引擎,支持KV Cache、prefill/decode推理、工具调用,可通过CLI或WebUI交互 [3] - 自动生成Markdown评分报告卡,总结与游戏化展示整个训练过程 [3] 成本与性能表现 - 约100美元成本(8×H100 GPU训练4小时)即可训练出具备聊天功能的迷你模型,能写故事/诗歌、回答简单问题 [3] - 训练约12小时模型性能可超过GPT-2的CORE指标 [3] - 预算扩展至1000美元(训练41.6小时),模型在MMLU得分40+、ARC-Easy得分70+、GSM8K得分20+ [4] 项目定位与社区影响 - nanochat是LLM101n课程的压轴项目,有潜力像nanoGPT一样成长为研究平台或标准基准 [5] - 项目框架已成型,适合社区协同迭代改进每个模块 [5] 应用场景与局限性 - 专家认为该微型模型类似年幼孩子,不适合直接用于个性化数据微调,否则效果不佳 [9][10] - 实现有效的个性化模型需复杂步骤,包括大量合成数据生成和重写,目前仍偏重科研 [10]
100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火,一夜近5k star
机器之心· 2025-10-14 10:06
项目概述 - AI领域大神Andrej Karpathy发布名为nanochat的开源项目,旨在以极低成本自建ChatGPT [1][2] - 项目包含约8000行代码,覆盖大语言模型的训练和推理全流程,结构干净且依赖极少 [2][4] - 该项目是LLM101n课程的压轴项目,并有望像nanoGPT一样成长为研究平台或标准基准 [5][6] 技术实现与功能 - 使用Rust实现训练分词器,并在FineWeb数据集上预训练Transformer大语言模型 [4] - 项目实现了监督微调,并评估模型在多选问答、数学、代码等任务上的表现 [4] - 包含高效推理引擎,支持KV缓存、工具调用,并可通过CLI或ChatGPT风格WebUI交互 [9] - 项目能自动生成Markdown评分报告卡,以游戏化方式展示整个训练过程 [9] 成本与性能指标 - 仅需约100美元成本(在8×H100上训练4小时)即可训练一个具备聊天功能的迷你ChatGPT [3][5] - 训练约12小时即可在CORE指标上超过GPT-2 [5] - 将预算提升至1000美元(训练41.6小时),模型性能显著提升,例如一个30层深度的模型在MMLU得分超过40分,在ARC-Easy得分超过70分 [5] - 项目报告了模型在不同训练阶段(BASE, MID, SFT, RL)在ARC-Challenge、GSM8K、HumanEval等多个基准测试上的具体分数 [10] 应用前景与局限性 - 该项目展示了构建具备聊天功能的大语言模型是简单且低成本的 [11] - 然而,该微型模型被类比为非常年幼的孩子,其原始智能有限,不适合直接用于个性化目的 [12][13] - 要实现有效的个性化模型效果,需要在准备原始数据的基础上进行复杂的合成数据生成和重写,并微调当前较强的开源大模型,过程仍偏科研性质 [13]