NanoGPT
搜索文档
AI数据中心上天,与其说黑科技不如说是作秀
36氪· 2025-12-17 20:39
行业动态:太空AI数据中心成为科技巨头新方向 - 硅谷创投圈与科技巨头正积极探索在太空部署人工智能数据中心,以解决地面能源瓶颈问题 [1][5][6] - 英伟达支持的初创公司Starcloud首次在太空轨道上成功训练并运行了AI模型,验证了技术可行性 [1][3] - 谷歌CEO桑达尔·皮查伊表示,公司计划于2027年初开始建设太空AI数据中心,目标是利用太空太阳能 [5][6] - SpaceX的马斯克计划扩大星链V3卫星规模,并通过星舰在4到5年内实现每年部署100吉瓦(GW)的数据中心 [6] 核心驱动力:应对AI算力增长的能源挑战 - 美国AI发展面临的主要挑战是电力基础设施不足,而非芯片短缺 [9] - AI是巨大的“电老虎”,例如ChatGPT每天响应2亿次请求需消耗50万千瓦时电力,相当于一座美国小城一天的用电量 [9] - 根据美国能源信息署测算,到2030年全球AI数据中心的电力需求将达到347吉瓦(GW) [9] - 太空太阳能的效率远高于地面,单位面积发电量可达地面的5倍,例如一平方米砷化镓太阳能电池在太空可输出300W电力,而地面最多仅60W [11] 技术进展与验证:Starcloud的里程碑 - Starcloud公司利用基于H100的Starcloud-1卫星,在太空成功运行了谷歌的开源模型Gemma和用莎士比亚全集训练的NanoGPT [3] - 该卫星向地球发送了一段AI生成的莎士比亚风格消息,证明了在轨AI推理能力 [3] - Starcloud CEO表示,其目标是实现轨道数据中心的能源成本比地面数据中心低10倍 [3] - 此次在轨运行旨在验证构建需要大型计算集群的太空数据中心的可行性 [3] 主要技术挑战:散热与抗辐射 - 太空接近完美真空,热量主要通过辐射传递,效率低下,导致散热成为重大难题 [11][13] - 一个1吉瓦(GW)水平的太空数据中心,其散热所需的专用辐冷板面积将达20万平方米,重量超过1000吨 [13] - 以SpaceX星舰单次发射载重150吨计算,仅运送散热系统就需要10次发射 [13] - 太空高能粒子(宇宙射线)会引起电子元器件的单粒子翻转,导致数据位错误,严重影响GPU进行矩阵乘法等计算的准确性 [13] - 为应对辐射,宇航级芯片通常使用90纳米、130纳米等“落后制程”,而非最先进的2纳米制程 [13] 当前阶段评估:概念验证与商业化障碍 - 在散热与电磁防护两大技术难关被攻克前,太空AI数据中心更多是技术演示,缺乏大规模商业化的实际意义 [15] - 尽管面临挑战,硅谷科技公司仍将其视为解决长期能源问题的潜在战略方向 [5][6][9]
英伟达GPU被SpaceX送上太空,在天上训练卡帕西的NanoGPT
36氪· 2025-12-11 15:32
事件概述 - 人类首次在太空轨道上成功训练并运行人工智能大模型 此次演示由初创公司Starcloud主导 其Starcloud-1卫星搭载英伟达H100芯片 通过SpaceX火箭发射升空 [1][5] - 在轨演示运行了谷歌的开源大模型Gemma 并首次在太空直接训练了前OpenAI联合创始人Andrej Karpathy开发的大语言模型NanoGPT [1][3][7] 参与方与具体行动 - **Starcloud**:作为英伟达Inception计划成员 该公司发射了搭载英伟达H100芯片的Starcloud-1卫星 并成功完成首次太空AI训练与运行演示 [5][7] - **英伟达**:其H100 GPU被用于此次太空AI演示 公司计划在2026年10月的后续发射中携带更多H100芯片 并将下一代Blackwell平台也送入太空 [1][9] - **SpaceX**:提供了火箭发射服务 将搭载H100芯片的卫星送入轨道 [1][5] - **谷歌**:其开源AI大模型Gemma在太空H100芯片上成功运行并获取回应 [1] - **Andrej Karpathy**:其开发的大语言模型NanoGPT在太空中使用莎士比亚全集进行了训练 [3][7] 行业动机与发展目标 - 推动太空计算的核心驱动力是突破地球上的能源与基础设施瓶颈 地球数据中心面临电力、土地稀缺及高昂电费等限制 制约了AI增长曲线 [10] - 太空低轨环境理论上能提供更低成本 没有地面土地和制冷的约束 且太阳能供给持续充足 为在轨算力提供了长期运行的能源优势 [10] - Starcloud的长期目标是建造一座基于太阳能面板、功率达5GW的轨道数据中心 其造价和运营成本预计将显著低于地球上的数据中心 [8] 行业竞争与未来计划 - **谷歌**:在英伟达H100上天后 其CEO表示计划将自家的TPU也发射到太空 最早的两颗卫星预计2027年初启程 [11] - **中国参与者**:中国在太空算力领域早有布局 自2019年起 中科院计算所、武汉大学等科研机构便开始探索太空智能计算 [12][13] - 2024年 中科天算团队完成大模型在轨上注与部署 构建“太空智能链” 同年5月 国星宇航联合之江实验室成功发射全球首个太空计算星座“三体计算星座”首批12颗卫星 并于9月实现常态化商业运行 [14] - 2024年11月 中科天算发布“天算计划” 提出在近地轨道建设算力达10 EOPS的万卡超级智能体集群 并公布了应对太空辐射和散热挑战的工程方案 [15]
英伟达GPU被SpaceX送上太空!在天上训练卡帕西的NanoGPT
量子位· 2025-12-11 14:54
核心观点 - 人类首次在太空轨道上成功训练并运行了AI大模型 这标志着太空计算与AI融合的重大技术突破 其核心驱动力在于突破地球能源与基础设施的瓶颈 为AI算力发展开辟新路径 [2][7][13] 太空AI首秀事件 - 事件由初创公司Starcloud主导 通过SpaceX火箭将搭载英伟达H100芯片的Starcloud-1卫星发射升空 [6] - 在轨卫星上成功运行了谷歌的开源大模型Gemma 并获得了其回应 [4][9] - 首次在太空中直接训练了大语言模型 即前OpenAI联合创始人Andrej Karpathy打造的NanoGPT 训练数据使用了莎士比亚全集 [4][9] 太空计算的发展目标与规划 - Starcloud公司的长期目标是建造基于太阳能面板的轨道数据中心 规划算力达5GW 并预期其造价与运营成本将显著低于地球数据中心 [10] - 公司计划在2026年10月的下一次发射中携带更多英伟达H100芯片 并将Blackwell平台送入太空 [11] - 公司CEO指出 转向太空发展的核心原因是地面面临的能源限制 太空在土地、制冷方面约束更少 且有持续充足的太阳能供给 [12][13] 行业参与与竞争格局 - 谷歌CEO表示计划将TPU发射至太空 最早的两颗卫星预计2027年初启程 [15] - 中国科研机构与企业在该领域早有布局 自2019年起便开始探索太空智能计算 [16][17] - 2024年 中科天算团队完成大模型在轨部署 国星宇航联合之江实验室成功发射全球首个太空计算星座“三体计算星座”首批12颗卫星 并于9月实现常态化商业运行 [18] - 2024年11月 中科天算发布“天算计划” 提出在近地轨道建设算力达10 EOPS的万卡超级智能体集群 [19]
Nvidia-Backed Starcloud Trains First LLM In Space Amid Orbital Datacenter Buzz — CEO Calls It 'Significant' First Step - NVIDIA (NASDAQ:NVDA)
Benzinga· 2025-12-11 14:18
公司动态:Starcloud - 公司成功在轨训练AI模型 其Starcloud-1卫星使用英伟达H-100 GPU 在太空训练了谷歌的开源大语言模型Gemma [1][2] - 公司还在轨道上训练了由前特斯拉AI负责人Andrej Karpathy创建的NanoGPT模型 训练内容为莎士比亚作品 [3] - 公司愿景是建造比地球数据中心更具快速扩展性和成本竞争力的太空大型数据中心 其白皮书计划建造一个高宽均为2.4英里、功率达5吉瓦的轨道数据中心 [4] - 公司CEO将此次在轨AI训练称为“将几乎所有计算移至太空道路上的重要一步” 旨在停止消耗地球资源 [5] 行业趋势:太空数据中心与AI - 太空AI数据中心概念受到关注 太空太阳能供电的AI卫星被视为比地球数据中心更具成本效益的解决方案 [6] - SpaceX首席执行官埃隆·马斯克重申其太空AI卫星雄心 目标为每年发射百万吨级载荷 据称可在太空增加100吉瓦的AI算力 并计划在月球表面建立工厂以助力深空发射 [6] 相关公司:英伟达与SpaceX - 英伟达的H-100 GPU被用于此次太空AI训练 其计算能力据称是此前发射入轨的其他芯片的100倍 [2] - SpaceX正筹备明年进行首次公开募股 目标估值达1.5万亿美元 [7] 市场表现 - 英伟达股价在盘后交易中下跌1.92% 至180.25美元 [9]
‘Greetings, earthlings': Nvidia-backed Starcloud trains first AI model in space as orbital data center race heats up
CNBC· 2025-12-10 22:05
公司技术里程碑 - 华盛顿公司Starcloud成功发射并运行了搭载英伟达H100 GPU的Starcloud-1卫星 该芯片的算力是此前太空GPU的100倍 [2] - 卫星在轨道上成功运行并查询了谷歌的开源大语言模型Gemma 标志着历史上首次在太空训练LLM [2] - 公司还在H100芯片上训练了由OpenAI创始成员创建的NanoGPT模型 使其能够使用莎士比亚式英语进行回应 [7] 公司战略与愿景 - 公司旨在证明太空可以成为数据中心适宜的环境 以应对地球数据中心面临的能源、水资源和温室气体排放压力 [4] - 公司计划建造一个5吉瓦的轨道数据中心 其太阳能和冷却板尺寸约为4公里x4公里 据白皮书称 该规模的计算集群将比美国最大发电厂产生更多电力 且比同等容量的地面太阳能农场更小、更便宜 [8] - 公司CEO表示 轨道数据中心的能源成本将比地面数据中心低10倍 且能完成地面数据中心的所有任务 [5] 技术优势与商业应用 - 太空数据中心可捕获持续的太阳能为下一代AI模型供电 不受地球昼夜循环和天气变化影响 卫星预期寿命为5年 [9] - 轨道数据中心具有现实商业和军事用途 例如可实现实时情报 在野火点燃瞬间识别其热信号并立即警报救援人员 [10] - 公司正通过运行对观测公司Capella Space卫星图像的推理来处理客户工作负载 这有助于发现海上倾覆船只的救生艇和特定地点的森林火灾 [11] 未来发展与合作 - 公司是英伟达Inception计划成员 并毕业于Y Combinator和谷歌创业公司云AI加速器 [8] - 公司将在2026年10月的下一次卫星发射中集成多块英伟达H100芯片和英伟达Blackwell平台 以提供更强的AI性能 [11] - 明年发射的卫星将搭载运行来自基础设施初创公司Crusoe的云平台模块 允许客户从太空部署和运行AI工作负载 [11]
Muon作者仅用一篇博客,就被OpenAI看中了
机器之心· 2025-06-16 12:04
核心观点 - AI行业对学术影响力的衡量标准正在发生变化,顶级会议论文不再是唯一评价指标,OpenAI等机构更注重实际能力而非传统学术成果[1][2][3] - Hyperbolic CEO和OpenAI成员Keller Jordan的案例表明,通过高质量博客展示研究成果也能获得顶级机构认可[3][8] - Muon优化器通过创新设计显著提升神经网络训练效率,在多项基准测试中打破速度记录[6][12][22] Muon优化器技术突破 性能表现 - 在CIFAR-10数据集上,训练速度从3.3秒提升至2.6秒(准确率保持94%)[22] - FineWeb任务训练速度提升1.35倍,验证损失降至3.28[22] - 1.5B参数Transformer训练时间从13.3小时缩短至10小时(H100集群)[22] - 在774M和1.5B参数规模下持续展现加速效果[22] 核心技术 - 采用牛顿-舒尔茨迭代正交化更新矩阵,5次迭代即可收敛[36][49] - 优化后系数(3.4445,4.7750,2.0315)实现x=0处的快速收敛[47] - FLOP开销低于1%,适用于大规模训练(如Llama 405B仅增加0.5%开销)[56][59] - 与Shampoo优化器相比,避免四次方根求逆的高计算成本[63] 应用设计 - 需配合AdamW优化输入/输出层参数[66] - 对Transformer的QKV参数分别处理效果更佳[69] - 默认采用Nesterov动量加速收敛[68] - 支持bfloat16精度运行,避免float32的数值稳定性问题[36] 行业影响 - OpenAI等机构的人才选拔转向能力导向,打破传统论文发表壁垒[8] - 月之暗面团队通过引入AdamW权重衰减机制进一步优化Muon性能[78] - Essential AI的论文证实Muon能扩展帕累托边界,提升大规模训练经济性[81] - 行业需要建立更严格的优化器评估标准,避免基线调优不足的研究缺陷[72][74]