Workflow
Scaling Laws
icon
搜索文档
Amazon, Meta, Microsoft, and Google are gambling $320 billion on AI infrastructure. The payoff isn't there yet
Business Insider· 2025-10-07 16:20
When Sriram Krishnan, a senior White House policy advisor on artificial intelligence, appeared onstage at an event in Washington last month, he listed the Trump administration's priorities for advancing the AI revolution.At the top of the list? More construction."Let's make sure we build our infrastructure," Krishnan said. "'Build, baby, build' is what we tell people." That rallying cry is echoing across Silicon Valley. Executives at Meta say they expect to spend $600 billion on AI infrastructure, includin ...
CUDA内核之神、全球最强GPU程序员?OpenAI的这位幕后大神是谁
机器之心· 2025-10-01 07:49
文章核心观点 - 文章聚焦于OpenAI资深工程师Scott Gray,强调其在AI模型底层性能优化方面的关键作用,其编写的CUDA Kernel支撑了公司每日数万亿次的计算量 [1][2][3] - 文章指出,编写高性能模型训练CUDA Kernel需要同时精通并行计算、GPU硬件架构和深度学习算法,此类顶尖人才极为稀缺 [7] - Scott Gray的职业轨迹展示了通过深入硬件底层优化,个体工程师也能创造出超越行业巨头(如NVIDIA官方库)的性能,并对AI模型的规模化发展产生决定性影响 [7][21][22] Scott Gray的技术专长与成就 - 核心技术能力在于绕过标准软件抽象层,直接编写底层SASS机器码,以实现对硬件资源的绝对控制和性能突破 [15][16][17][18] - 在Nervana Systems期间,开发了针对NVIDIA Maxwell架构的汇编器maxas,并手写SGEMM内核,在GM204 GPU上实现98%的硬件理论峰值效率,性能比NVIDIA cuBLAS库快4.8% [19][20] - 开发maxDNN卷积库,在AlexNet卷积层上实现93-95%的计算效率,显著高于cuDNN库32%至57%的效率,在Overfeat模型某卷积层效率达96.3%峰值 [21] 在OpenAI的贡献与战略转变 - 加入OpenAI后工作重心从“优化者”转变为“使能者”,专注于为更高效的稀疏模型架构开发底层工具,是将Scaling Laws理论转化为工程现实的关键人物 [22] - 作为核心技术人员,其名字出现在GPT-3、GPT-4、Codex和DALL-E等里程碑式论文中,编写的高性能GPU内核支撑了这些模型万亿次级别的训练和推理 [22] - 为解决稠密模型规模化难题,共同开发了创新的块稀疏GPU内核,其运行速度比处理稠密矩阵的cuBLAS或通用稀疏矩阵的cuSPARSE快几个数量级,使参数量远超以往的模型成为可能 [24][25][26] - OpenAI开源了这些高性能块稀疏内核,旨在推动整个社区在模型和算法设计上的创新 [27][29]
撞墙的不是Scaling Laws,是AGI。
自动驾驶之心· 2025-09-29 07:33
文章核心观点 - Scaling Laws本身并未失效,其是数据结构的内在属性,当前大模型发展的瓶颈在于训练数据的质量和分布,而非计算规模本身[1][7][14] - 互联网原始数据总量虽大,但针对特定任务的有效数据分布稀疏,且不同Token的价值不均等,导致模型通用智能发展受限[4][8][15] - 行业趋势正从追求通用大模型转向专注于高价值领域的专业化模型,通过使用合成数据提升数据密度,可在减小模型尺寸的同时显著提升特定领域能力[10][11][12] 数据与Scaling Laws的关系 - Scaling Laws反映了数据结构的内在属性,基于Transformer的下一词预测复杂度随计算量和参数数量呈对数线性下降[3][4][14] - 原始互联网数据混合体并非实现AGI的最佳数据分布,模型训练为每个Token投入的计算量相同,但不同Token的价值并不相等[4][15] - 通过改变预训练数据的幂律分布,例如均衡每个Token的智能含量,可以从根本上改进Scaling Laws[15] 大模型发展现状与趋势 - GPT-4级别的模型已基本消耗完互联网可用数据,其涌现的智能主要是基础的语言智能,而非行业专业知识[9] - 从Claude Opus 3开始,通过引入合成数据,模型的专业能力(如代码能力)得到增强,同时模型行为更具可控性[10] - 模型发展呈现专业化趋势,例如Sonnet 3.5相比Sonnet 3模型尺寸更小,但因合成数据密度更高,其在代码方面的能力更强[11] - GPT-5体现了极致专业化,模型尺寸减小、专业性增强,但通用聊天能力被削弱,这引发了用户争议[12] 行业驱动因素与影响 - 模型厂商面临成本压力,将逐渐放弃通用性和超大模型路线,将智能资源集中堆叠于高价值领域[7][12] - 高价值领域如编程和搜索市场规模巨大,搜索领域可能催生两万亿美元的估值预期[12] - 高密度合成数据结合强化学习,能显著提升模型在特定行业的模式匹配能力和自动化水平,但全球上千个行业中,仅有少数像编程和搜索这样具有足够高价值来吸引AI公司投入[12] - 当前“你喂我吃”的深度学习范式下,单个语言模型通向AGI的道路天然受到成本限制,对全球的影响力可能有限[12]
深度|Sam Altman:OpenAI希望将ChatGPT塑造成一个全新的智能操作系统,打造个人AGI
Z Potentials· 2025-09-23 14:52
AI技术发展路径与未来展望 - 2035-2050年期间技术变化速度将难以用现有框架描述 人类体验层面变化可能不大 但技术栈可实现性和个人生产力将完全不同[4] - AI发展遵循规模定律 通过更好的算法 更强大的计算芯片和更优质的数据推动进步 过去几年主要是算法进步令人难以置信[17] - 未来18个月AI能力可能实现从10到100的跃升 虽然实际影响更大但人们已有所预期 而ChatGPT的推出是从0到1的意外冲击[13][14] - AI研究进程将呈现渐进式加速 无论是AI辅助人类还是人类辅助AI 净效应都是研究进展更快 整个技术供应链都将受益于AI加速[18][19] AI对商业格局的重塑 - 2030年代财富500强公司消亡速度可能加快 新公司增长加速并夺取市场份额 呈现巨大指数曲线[5][8] - 当任何软件都能被实时编写时 SaaS商业模式将面临重大颠覆 用户只需对AI聊天机器人提出需求即可获得软件成品[5][7] - AI软件工程师将是对企业最具破坏性的因素 企业在这方面投资最多 发展最快 直接对应大多数公司当前的瓶颈[38] - 可能出现10人公司年收入达10亿美元的情况 这类公司要么已经出现 要么将在未来几年内出现[44][45] 人类与AI的协作关系 - 生物学编程难以被克服 人类仍会渴望地位 竞争 关注影响者和注意力经济 关心孩子和家庭[11][12] - 许多工作人们不希望AI完成 尤其涉及深层人际互动的工作 如教师给予的激励与AI不同 将出现新的工作类型[9][10] - AI在通用情境下做心理辅导和执行辅导的能力让很多人惊讶 这已成为使用ChatGPT的一个重要场景[41] OpenAI的产品愿景与战略 - OpenAI愿景是打造一小套产品和一个平台 成为用户的默认个人AGI 系统将了解用户 连接各类资源并按用户希望的方式行动[29] - ChatGPT被设想为智能操作系统 将扩展到更多类型服务 用户能够与AI建立重要关系 帮助更高效 更优秀 更快乐[29][32] - 产品发展经验表明 即使只有5%留存率也是有利位置 默认情况几乎总是直线下滑到0[28] - 企业应用有两个方向:虚拟协作同事处理企业事务 AI投入复杂问题解决如科学发现 优化供应链等[37] 创业投资与行业影响 - 作为资本分配者 应该追逐未来而非过去成功的东西 高回报通常来自投资以前不可能的事物和未经验证的项目[21][23] - 下一个数万亿美元公司很可能不是另一个AGI研究实验室 而是因AGI作为新技术出现后被建立起来的公司[21] - 创业者应假设AI模型每年在几乎每个维度上提升约10倍 据此构建产品 不必过度算计短期细节[42] AI的全球影响与挑战 - ChatGPT目前是全球第五大网站 按现有发展轨迹可能成为世界最大网站 将有数十亿人使用免费通用AI[46][47] - AI可能导致极度通缩经济 水 食物 医疗 教育等基本需求变得廉价 过剩财富可能流向地位游戏如艺术品竞拍[49] - AI成本将逐渐向电力成本靠拢 满足全球AI需求需要许多千兆瓦 数十千兆瓦能源 最终可能需要数百千兆瓦[52][53] - 政府需要确保AI充足而非被富人垄断 制定监管护栏和全球规则 分配和访问共享问题需要政府权衡[54]
喝点VC|YC对谈Anthropic联创:MCP和Claude Code的成功有相似之处,都在于以模型为核心的研发思路
Z Potentials· 2025-09-12 13:55
文章核心观点 - Anthropic联合创始人Tom Brown分享从创业到AI研究的职业历程 重点包括在OpenAI参与GPT-3开发 以及创立Anthropic后推动Claude成为开发者首选工具的过程[4] - 规模化定律(Scaling Laws)是AI领域突破的关键 通过增加算力投入可显著提升模型智能水平 这一发现直接推动GPT-3和Claude的开发[8][23][25] - Claude在编程领域取得显著成功 特别是3.5 Sonnet版本推出后市场份额快速增长 在YC创业公司中占比达20%-30% 成为编码任务默认选择[37][38] 职业发展历程 - 早期职业经历包括加入Linked Language项目并作为第一名员工 形成"自主狩猎"的创业思维而非"等待喂食"的大厂心态[5] - 参与多个YC创业公司包括Solid Stage和Grouper 其中Grouper通过人工匹配实现社交约会 最高频用户Greg Brockman后来帮助其加入OpenAI[9][11][12] - 从Grouper离职后花费六个月自学AI 通过Coursera课程和Kaggle项目转型 最终以工程师身份加入OpenAI负责搭建StarCraft环境[17][19][20] OpenAI与GPT-3开发 - OpenAI早期办公地点在旧金山Dandelion Chocolate工厂楼上 背后有Elon Musk承诺的十亿美元资金支持[21] - 参与GPT-3基础设施开发 关键突破是从TPU转向GPU架构 同时软件生态从TensorFlow迁移至PyTorch以实现更好迭代效率[23][59] - 2018-2019年期间基于Scaling Laws开展规模化训练 发现算力投入与智能水平存在线性增长关系 跨越12个数量级仍保持稳定趋势[23][25] Anthropic创立与发展 - 离开OpenAI创立Anthropic的动机是确保AI与人类目标一致 团队认为未来人类需将控制权交给更强大的AI系统[8][28] - 初始团队包括7名联合创始人 疫情期间远程工作 前100名员工均因使命认同加入 这种文化帮助公司保持方向一致性[29][31] - 第一个内部产品是Slack机器人版Claude 1 在ChatGPT发布后9个月推出 但正式上线因基础设施准备不足而延迟[33][34] 技术突破与产品演进 - Claude 3.5 Sonnet版本在编程领域产生突破性表现 能完成反编译等复杂任务 如将二进制文件转换为带合理变量名的C语言代码仅需10分钟[39] - 开发策略强调不优化基准测试分数 而是通过内部使用体验提升模型实际效用 特别关注编码场景中的"智能化编程"能力[37][41][42] - Claude Code最初作为内部工具开发 成功关键在于"以模型为用户"的设计理念 即让Claude自身也能高效使用工具完成任务[44][45] 基础设施与行业趋势 - AI算力投入以每年3倍速度增长 2026年规模已锁定 2027年仍在规划中 预计将超过阿波罗登月和曼哈顿计划的投资规模[53][54] - 当前最大瓶颈是电力供应 尤其在美国数据中心建设受限 需要政策支持加速审批流程 同时考虑可再生能源和核能解决方案[56][57] - Anthropic采用多芯片策略 同时使用GPU/TPU/Tranium三种硬件 优点是可灵活分配训练与推理任务 缺点是需要维护多个性能工程团队[58] 市场影响与机会 - Claude在开发者社区获得广泛认可 因更理解开发者需求而非单纯技术优势 其API开放策略帮助创业公司构建产品[49][50] - 企业级机会存在于让AI成为"业务助手"或"团队教练" 当前模型仅能完成初级工程师任务 仍需大量上下文指导[51] - 硬件加速器和数据中心技术存在重大机会 现有算力供给无法满足需求 连YC内部都出现Claude额度持续短缺现象[55] 人才培养建议 - 建议年轻工程师敢于挑战让朋友惊叹的项目 不必过度追求学历或名企光环 现在这些因素的重要性已显著降低[61][62] - 进入AI领域需要实际项目经验 2015年时的学习路径包括Coursera课程/Kaggle项目/线性代数教材研读 但当前方法可能已不同[19]
DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?
机器之心· 2025-09-02 11:44
向量嵌入的技术原理与应用演进 - 向量嵌入是将文字、图片或声音等复杂信息转化为多维空间坐标点的技术,例如将“苹果”一词转化为一串几百维的数字以捕捉其语义 [2] - 该技术使相似概念在向量空间中彼此靠近,从而实现计算机对海量数据的快速搜索和比较 [2] - 嵌入技术最初主要用于检索任务,如搜索引擎中的相似文档查找和推荐系统的个性化推荐,随后其应用拓展至推理、指令遵循和编程等更复杂的任务 [4] 向量嵌入的理论局限性 - 向量嵌入的本质是将高维复杂概念强行压缩成固定长度向量,此过程不可避免地导致信息丢失 [4] - DeepMind研究结合几何代数与通信复杂度理论,证明向量嵌入能力存在数学下界:对于任意给定嵌入维度d,当文档数量超过临界点时,总存在一些相关文档组合无法通过查询同时召回 [6][7] - 该理论瓶颈表明嵌入模型存在不可逾越的限制,无法单纯依靠扩大模型规模来突破 [7] 理论局限对RAG系统的现实影响 - 检索增强生成(RAG)系统的工作机制是先用向量嵌入从知识库检索信息,再交由大模型生成答案 [9] - 当知识库规模足够大且问题需要多份文档共同回答时,即使最先进的嵌入模型也可能因维度不足而无法完整召回关键信息,导致大模型生成答案时受到错误或不完整上下文的干扰 [9] - 研究者构建的LIMIT数据集显示,即使任务简单如“谁喜欢苹果?”,SOTA嵌入模型也难以解决,在完整设置中模型recall@100难以达到20% [10][34] 实证研究与临界点分析 - 研究者采用“自由嵌入”优化方法,直接优化查询和文档向量以匹配测试集的qrel矩阵,展示可能出现的最高性能 [24] - 实验发现对于每个嵌入维度d都存在一个临界点,一旦文档数量超过该点,嵌入维度就不足以编码所有组合 [25] - 通过多项式回归曲线外推得到的临界n值显示,对于网页级搜索,即使理想测试集优化下,最大嵌入维度(如4096维对应2.5亿文档)也不足以建模所有组合 [26] SOTA模型在LIMIT数据集上的表现 - 评估的模型包括GritLM、Qwen 3 Embeddings、Promptriever、Gemini Embeddings、Snowflake的Arctic Embed Large v2.0以及E5-Mistral Instruct [34] - 在46个文档的小规模版本中,即使是recall@20,模型也无法解决该任务 [34] - 在训练集上训练模型几乎无法提升性能,表明性能较弱并非由领域迁移造成,而是任务本身难度所致 [37]
一位被开除的00后爆红
投资界· 2025-09-01 15:42
核心观点 - 前OpenAI研究员Leopold Aschenbrenner被开除后创立对冲基金 通过押注AI受益行业及做空落后行业 实现基金规模达15亿美元 上半年回报率47% 远超市场基准[5][11][12] - 其投资策略基于对AI技术发展的深刻理解 重点布局半导体 基础设施 电力公司及新兴AI企业如Anthropic[11] - 基金获得多位科技及投资界知名人士支持 包括Stripe创始人 Collison兄弟 Meta的AI团队领导Daniel Gross和Nat Friedman 以及投资者Graham Duncan[11] 基金表现与规模 - 基金上半年回报率达到47% 同期标普500指数回报率为6% 技术对冲基金指数回报率为7% 超额收益显著[12] - 资金规模迅速突破15亿美元 折合人民币约108亿元(按1:7.2汇率)[11] - 投资者愿意将资金锁定数年 显示对基金策略的强烈信心[12] 创始人背景与经历 - Leopold Aschenbrenner为00后 15岁进入哥伦比亚大学 19岁获数学 统计学和经济学三个学位[13] - 曾任职于OpenAI的"超级对齐"团队 致力于确保超级智能AI与人类价值观一致[16] - 2024年4月因向董事会提交安全漏洞备忘录后被OpenAI以泄密理由解雇[17] 投资策略与理论基础 - 基金投资策略直接源于其撰写的165页分析文章《Situational Awareness: The Decade Ahead》[10][19] - 核心论点为AI正处于指数级增长阶段 从GPT-2到GPT-4代表多个数量级(OOM)的提升[20][21] - 驱动因素包括扩展定律(Scaling Laws) 算法创新及海量数据集使用[22][26] - 预测到2027年可能实现通用人工智能(AGI) 将引发各行业革命性变化[26][28] 行业影响与技术展望 - AGI发展将显著提升生产力和效率 但同时带来失业 AI伦理及治理结构等挑战[28] - 超级智能可能出现"智能爆炸" 通过自我完善循环实现指数级智力增长[29] - 构建AGI需大规模计算基础设施 涉及算力 设备效率 能源利用及信息处理能力的全面提升[31] - 国家安全机构将在AGI技术管理中发挥更大作用 其战略意义可比曼哈顿计划[33]
23岁小哥被OpenAI开除,成立对冲基金收益爆表,165页论文传遍硅谷
机器之心· 2025-08-30 12:12
文章核心观点 - 前OpenAI员工Leopold Aschenbrenner被解雇后创立对冲基金 通过押注AI相关领域实现47%回报率 远超市场平均水平[1][14] - Aschenbrenner预测2027年将实现通用人工智能 其依据是AI能力的指数级增长和算力扩展定律[29][38] - AI发展将引发各行业变革 需关注算力基础设施 国家安全和治理结构等关键因素[31][36][38] Leopold Aschenbrenner背景 - 23岁 拥有哥伦比亚大学数学 统计学和经济学三个学位 GPA年级第一[16] - 曾任职OpenAI超级对齐团队 参与Weak-to-Strong Generalization研究 后因泄露内部信息被解雇[7][18] - 在FTX Future Fund工作期间专注于AI安全和全球风险管理[17] 对冲基金表现 - 基金规模达15亿美元 投资策略为做多半导体 基础设施 电力公司及Anthropic等AI企业 同时做空可能被淘汰行业[10][11] - 2024年上半年回报率47% 同期标普500指数回报6% 技术对冲基金指数回报7%[14] - 获得Stripe创始人 Collison兄弟 Meta的AI团队领导及著名投资者Graham Duncan支持[11] AI技术发展预测 - 从GPT-2到GPT-4代表多个数量级(OOM)进步 即指标十倍增长[26] - AI进步依赖三大因素:扩展定律 算法创新及海量数据集 性能提升接近指数级[27][29] - AGI系统将具备并行研究能力 可同时进行多项测试 解决复杂科学技术难题[35] 行业影响与基础设施 - AGI将改变材料科学 能源和健康领域 显著提高经济生产力和人类福祉[35] - 构建AGI需大规模计算基础设施 包括设备效率 能源利用和信息处理能力提升[36] - 科技巨头正投入重金建设大规模AI算力基础设施[38]
深度|Sam Altman:创业者不要做OpenAI核心要做的事,还有很多领域值得探索,坚持深耕可长成比OpenAI更大的公司
Z Potentials· 2025-07-03 11:13
初心与人才汇聚 - 创立OpenAI的最关键决策是"决定要做"这件事本身 2015年时AGI被视为天方夜谭 团队几乎靠掷硬币决定是否启动[3] - 早期AI领域氛围与现状截然不同 当时连有效语言模型都未出现 团队仅8-20人 目标仅是写出像样的研究论文[4] - 聚焦AGI方向成功吸引1%顶尖人才 因"全世界只有你在做"的独特性形成人才聚集效应[5] - 伟大公司都始于微小起点 零收入创业公司与未来千亿估值公司初期形态相似[6] 产品与技术的未来 - 当前AI领域存在"产品滞后"现象 模型能力远超现有产品形态 即使性能停滞 仅推理成本下降就能催生大量创新[7] - 记忆功能是重要突破方向 指向未来AI将成为了解用户、主动帮助的个人助手 而不仅是被动问答工具[8] - 技术组合将创造强大体验 包括新设备、新浏览器、记忆功能和持久化模型的结合[11] - 计算负载将采用混合模式 部分本地运行减轻云端压力 但主要计算仍依赖云端[12] 机器人与工业复兴 - 机器人发展策略是先解决认知问题再连接机械 预计几年内可胜任实际工作 未来需求将远超当前供应链产能[15] - AI和机器人技术为重建美国工业能力提供新路径 可能实现制造业回流和复杂工业体系重建[16] - 建议创业者避开OpenAI核心业务 专注空白领域 如应用商店、个性化模型集成等方向[17] 界面革命与创业黄金时代 - 未来人机交互将"融化"为无感状态 AI像优秀人类助手仅在必要时出现 改变当前信息过载的交互方式[21] - 计算机交互正经历第三次革命 前两次是键盘鼠标和触控屏 本次由AI驱动将产生全新交互范式[22] - SaaS未来可能演变为API+数据库+LLM界面 UI将由大模型即时生成 当前是创业最佳时机[23] 能源与未来愿景 - AI发展与能源紧密相关 能源限制决定可运行的智能规模 需解决算力与地球散热的平衡问题[29][30] - 人均能耗与生活质量强相关 技术乐观主义相信"激进富足" 通过AI和无限能源创造美好未来[30] - AI推动科学进步是长期增长核心 未来10-20年可能出现超级智能 大幅加速科学发现速度[27] 早期经历与对年轻创业者的建议 - 创业需要长期坚持信念和韧性 即使遭遇失败也要继续前行 首个项目失败是常见经历[32] - 招聘应关注"斜率高的人"而非"y轴截距高的人" 即选择成长速度快、有好奇心的人才[26] - CEO工作挑战在于同时处理大量不相关但重要的决策 远超常人承受范围[26]
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 20:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]