Scaling Laws

搜索文档
深度|Sam Altman:创业者不要做OpenAI核心要做的事,还有很多领域值得探索,坚持深耕可长成比OpenAI更大的公司
Z Potentials· 2025-07-03 11:13
初心与人才汇聚 - 创立OpenAI的最关键决策是"决定要做"这件事本身 2015年时AGI被视为天方夜谭 团队几乎靠掷硬币决定是否启动[3] - 早期AI领域氛围与现状截然不同 当时连有效语言模型都未出现 团队仅8-20人 目标仅是写出像样的研究论文[4] - 聚焦AGI方向成功吸引1%顶尖人才 因"全世界只有你在做"的独特性形成人才聚集效应[5] - 伟大公司都始于微小起点 零收入创业公司与未来千亿估值公司初期形态相似[6] 产品与技术的未来 - 当前AI领域存在"产品滞后"现象 模型能力远超现有产品形态 即使性能停滞 仅推理成本下降就能催生大量创新[7] - 记忆功能是重要突破方向 指向未来AI将成为了解用户、主动帮助的个人助手 而不仅是被动问答工具[8] - 技术组合将创造强大体验 包括新设备、新浏览器、记忆功能和持久化模型的结合[11] - 计算负载将采用混合模式 部分本地运行减轻云端压力 但主要计算仍依赖云端[12] 机器人与工业复兴 - 机器人发展策略是先解决认知问题再连接机械 预计几年内可胜任实际工作 未来需求将远超当前供应链产能[15] - AI和机器人技术为重建美国工业能力提供新路径 可能实现制造业回流和复杂工业体系重建[16] - 建议创业者避开OpenAI核心业务 专注空白领域 如应用商店、个性化模型集成等方向[17] 界面革命与创业黄金时代 - 未来人机交互将"融化"为无感状态 AI像优秀人类助手仅在必要时出现 改变当前信息过载的交互方式[21] - 计算机交互正经历第三次革命 前两次是键盘鼠标和触控屏 本次由AI驱动将产生全新交互范式[22] - SaaS未来可能演变为API+数据库+LLM界面 UI将由大模型即时生成 当前是创业最佳时机[23] 能源与未来愿景 - AI发展与能源紧密相关 能源限制决定可运行的智能规模 需解决算力与地球散热的平衡问题[29][30] - 人均能耗与生活质量强相关 技术乐观主义相信"激进富足" 通过AI和无限能源创造美好未来[30] - AI推动科学进步是长期增长核心 未来10-20年可能出现超级智能 大幅加速科学发现速度[27] 早期经历与对年轻创业者的建议 - 创业需要长期坚持信念和韧性 即使遭遇失败也要继续前行 首个项目失败是常见经历[32] - 招聘应关注"斜率高的人"而非"y轴截距高的人" 即选择成长速度快、有好奇心的人才[26] - CEO工作挑战在于同时处理大量不相关但重要的决策 远超常人承受范围[26]
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 20:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]
Lex Fridman 对谈谷歌 CEO:追上进度后,谷歌接下来打算做什么?
Founder Park· 2025-06-06 23:03
Google AI战略与产品进展 - Google通过整合Brain和DeepMind团队成立Google DeepMind 显著提升AI研发能力[5][6][9] - 公司TPU基础设施投资已持续十年 目前正扩大规模以支持大模型训练[6][8][12] - Gemini系列模型处理token量从12个月前的9 7万亿/月暴增至480万亿/月 增长50倍[27][28] - 推出Gemini 1 5 Pro、Flash等差异化产品线 Pro模型能力达Ultra的80%-90%但成本更低[30][31] 搜索业务AI化转型 - 搜索未来将部署多路径检索模型 整合网络信息并引导至有价值内容[4][14] - AI概览功能已嵌入广告 用户反馈积极并推动产品增长[15][16][18] - AI模式作为独立标签页测试 成熟后将逐步迁移至主搜索页面[18][21] - 非英语用户受益显著 Gemini多模态能力打破语言信息壁垒[15][22] 技术突破与行业影响 - 30%代码由AI辅助生成 整体工程效率提升10%[32][33] - 计算领域下一个交互范式是AR Project Astra项目将重塑Android XR生态[36][37][38] - 自动驾驶领域Waymo完成1000万次付费服务 最后20%技术攻坚比初期80%更耗时[39][40] - 当前处于AJI(非均衡AI)阶段 2030年前或难实现AGI但各维度将现飞跃[42][43][44] AI长期价值与产业变革 - AI独特之处在于递归式自我改进 将超越电力成为人类史上最重要技术[57][58] - 创造力门槛降低将释放全球80亿人认知潜力 内容创作群体或达十亿级[60][62][64] - 未来顶级内容体验仍依赖人类特质 AI生成与人类创作将长期共存[63][64][66] - 模型推理能力构建基于科学原理而非硬编码规则 尤其在数理领域[25][26][29]
中金 | AI进化论(11):GTC 2025,超摩尔定律延续,CPO正式亮相
中金点睛· 2025-03-28 07:33
文章核心观点 - NVIDIA GTC 2025大会上CEO从供需端分析AI硬件行业趋势,带来CPO通信技术更新,需求端缓解算力通缩担忧,供给端芯片、服务器和网络通信有新品发布及技术进展,CPO虽处产业化初期但长期有扩大应用机会 [1][3][4] 行业需求 - 投资者因LLM预训练成本收益比下降和开源模型降成本而担忧算力硬件市场增长,公司重申预训练后、后训练和长思维链推理等场景遵循Scaling Law,加速token消耗扩大算力需求,如强化学习和思维链推理,还预计2028年全球数据中心资本开支超1万亿美元 [7] - AI产业拐点至,推理任务占比在算力需求中增长,推理需求对Blackwell GPU订单量贡献上升,大会发布Dynamo推理软件优化推理任务,协调加速GPU间通信,采用Prefill/Decode分离模式 [9] 硬件更新之芯片&服务器 - 大会公布未来三年数据中心GPU及系统级产品,FP4稠密算力三年翻10x,公司将以GPU die数量命名系统及产品 [14] - Blackwell Ultra预计2H25交付,采用新设计,FP4精度算力较B200系列提升50%,内存配置升级至288GB HBM3E [14] - Vera Rubin自2H26起成主力产品,采用TSMC 3nm工艺,释放I/O die到独立小芯粒,系统级产品以NVL 144架构起步,CPU采用新架构,互联带宽提升;2H27有望推出Rubin Ultra,性能进一步跨越,推出NVL 576机柜产品 [15] - Feymann有望2028年推出,与Vera CPU搭配并迎来HBM升级 [16] 硬件更新之网络 C2C和B2B互联持续迭代 - Scale-up网络中,Vera Rubin NVL144机柜NVLink升级至6,连接总带宽达260TB/s,2027年下半年Rubin Ultra NVL576的NVLink迭代至7,聚合总带宽达1.5PB/s,提升GPU间通信效率 [21] - Scale-out网络中,Vera Rubin NVL144用Connect-X9智能网卡,总带宽28.8TB/s,Rubin Ultra NVL576总带宽提升至115.2TB/s,Rubin平台用Connect-X9和102T Spectrum6 CPO交换机,Feynman平台有望引入Connect-X10和204T Spectrum7 CPO交换机 [22] CPO交换机正式亮相 - CPO构建高密度光互连,缩短光信号电学互连长度,减少信号衰减和失真,未来走向晶圆级封装提升互连密度 [24] - GTC 2025发布三款CPO交换机,IB CPO交换机有望2H25量产交付,两款Spectrum CPO交换机有望2H26交付 [27] - 硅光调制采用微环调制器,尺寸小、功耗低,115.2T IB CPO交换机中每个硅光引擎用MRM调制,单通道速率200Gb/s,节省3.5倍功耗 [30] - CPO处于产业化初期,面临散热、维护和实际TCO高等挑战,本次发布产品基于液冷、可插拔光连接器方案给出解决思路,长期随着技术和生态问题解决,CPO有望扩大应用,光器件与先进封装成核心增量环节 [34][35]
AI 月报:马斯克加速 GPU 竞赛;大模型真撞墙了? 风口转到 Agent
晚点LatePost· 2024-12-11 22:30
技术发展 - OpenAI在12月开启为期12天的密集发布活动,包括推出完整版o1模型、每月200美元的ChatGPT Pro、视频生成模型Sora等 [2] - 大模型行业面临能力提升瓶颈,Google、OpenAI、Anthropic等公司在开发下一代模型时未能实现前几年的显著性能跃升 [4][5] - OpenAI尝试用合成数据训练新模型Orion但效果不理想,同时行业探索更高精度数据、后训练优化等新方向 [16][17][18][19] 市场竞争 - OpenAI企业市场份额从50%降至34%,Anthropic份额从12%增至24% [22] - xAI以500亿美元估值融资50亿美元,Anthropic获亚马逊追加40亿美元投资,Writer以19亿美元估值融资2亿美元 [27] - 视频生成领域竞争加剧,Runway上线新功能,腾讯开源对标Sora的HunyuanVideo模型 [25][26] 算力竞赛 - 亚马逊、微软、Meta、Google四家公司今年资本支出超2000亿美元建设算力中心,并计划加大投资 [28] - Anthropic CEO预测2026年将出现耗资超100亿美元的算力集群,OpenAI提议建造千亿美元级数据中心 [28] - 英伟达加速产品迭代,计划2025年发布机器人专用芯片Jetson Thor [35][37] 应用落地 - ChatGPT周活用户达3亿,企业生成式AI支出飙升500%至138亿美元 [38] - AI编程成为竞争焦点,GitHub Copilot生成微软近半启动代码,Cursor以25亿美元估值获融资 [6][23][43] - Agent成为行业新赛点,OpenAI、Anthropic、智谱等公司加速布局智能体产品 [51][52][53] 行业投资 - 沙特宣布500-1000亿美元AI投资计划,波兰投入2.44亿美元开发本土大模型 [31] - AI制药公司Cradle获7300万美元融资,Enveda筹1.3亿美元推进药物研发 [61] - 具身智能领域Physical Intelligence以24亿美元估值融资4亿美元,银河通用获5亿元人民币投资 [29]
发布视频生成模型、日均交互 30 亿次,MiniMax 第一次线下活动记录
晚点LatePost· 2024-09-02 23:40
公司发展历程与核心目标 - 公司成立于2021年12月9日,创业初心是实现"Intelligence with Everyone",通过通用AI技术帮助每个人解决实际问题 [6][7][8] - 公司提出三个核心判断:下一代AI需通过图灵测试、需系统性技术突破、需分步从高容错场景切入 [11] - 目前日均处理30亿次AI交互,包括3万亿文本Token、2000万张图和7万小时语音,交互时长已达ChatGPT的50% [12][14] 技术架构与创新 - 新基础模型abab 7采用MoE+Linear Attention架构,比传统Dense模型快3-5倍,支持接近无限长的文本处理 [22][25][27] - Linear Attention技术使模型在处理10万Token时效率提升2-3倍,与GPT-4o技术路线殊途同归 [25][27] - 视频生成模型abab-video-1支持6秒2K视频生成,具备高压缩率和多风格适配能力 [3][30][32] 多模态技术进展 - 语音模型支持10+语种(含粤语),具备拟人化情绪表达和音乐生成能力 [29][30] - 多模态是提升渗透率的关键,因人类80%信息交互为非文字形式 [21][41] - 视频模型《魔法硬币》展示全AI生成能力,无人工修改 [4][30][51] 行业竞争与商业化 - 国内大模型"六小龙"技术更新普遍晚于原计划,行业进入螺旋式发展平缓期 [5] - 价格战推动模型调用量增长,中国模型在东南亚等非英语市场已具备竞争力 [50] - 商业化难点在于模型错误率(目前两位数),需降至个位数才能支持复杂任务 [37][38] 产品战略与用户生态 - 开放平台拥有3万开发者和2000家付费客户,测试集显示国产模型与GPT-4仍有本质差距 [40] - 内容社区产品星野定位非陪伴聊天,强调用户共创世界观和交互故事 [44][45] - 技术投入标准为能否带来数倍提升,非渐进式改进 [42][43]
中国首批核聚变创业者谭熠:它总在你绝望时又给你希望|TECH TUESDAY
晚点LatePost· 2024-07-30 21:15
核聚变行业发展现状 - 2021年起核聚变行业迎来创业热潮,美国公司Helion实现1亿摄氏度等离子体加热,CFS开发出高温超导磁体,技术突破推动商业化进程[2] - 全球资本密集涌入,硅谷科技名流和机构累计投资超30亿美元,远超美国政府历史拨款总额[2] - 中国首批核聚变创业公司星环聚能、能量奇点成立,分别获得数亿元和4亿元人民币天使轮融资[2] - 核聚变工业协会报告显示,5家公司计划2030年前实现发电,21家定在2035年前[3] 技术路线与突破 - 磁约束路线为主流,高温超导技术可将磁场强度提升4次方,显著缩小装置尺寸并降低成本[18] - AI技术可优化等离子体稳定性,提升性能30%以上,通过数据拟合弥补理论空白[19] - 商业公司采用差异化技术路径:ITER路线(巨型托卡马克)、强场托卡马克(高磁场)、球形托卡马克(高磁场利用率)[20] - 星环聚能选择球形托卡马克路线,通过脉冲重复运行解决传统加热难题,成本较同行降低66%(12亿 vs 35亿)[25][40] 商业化进展 - 星环聚能首代装置279天建成并点亮等离子体,温度达1700万度,完成技术验证的20%进度[6][36] - 下一代装置计划2027年建成,目标Q值>10(输出能量达输入10倍),较当前最高纪录(JET装置5.2秒)跨越式提升[38][39] - 潜在应用场景包括数据中心供电、电动汽车充电、船舶动力等非电网领域[42] 行业挑战与机遇 - Scaling Laws(定标律)在JET装置以上存在数据空白,商业公司需验证技术路径延续性[39] - 资本支持仍不足,星环聚能需12亿元建设资金,当前融资缺口需说服投资人接受非主流技术路线[10][41] - 历史经验显示,等离子体常在技术瓶颈期出现意外突破,如1982年发现"高约束模式"[16][17] 研究历程与趋势 - 核聚变研究70年历经三阶段:1950s亢奋期→1990s低谷期(拨款降至峰值25%)→2010s复兴期[14][17] - "永远50年"说法源于冷战后期投入不足,当前资金与技术创新推动预期缩短至"10年内"[17] - 商业机构效率显著高于政府项目,ITER耗资200亿美元、2035年投运,而企业目标更激进[12][13]
Llama 3 发布,亮点在于 “小” 模型
晚点LatePost· 2024-04-20 00:05
核心观点 - Meta推出的Llama 3系列大模型通过大幅增加训练数据量(80亿参数模型使用15万亿Token)和算力投入(2个2.4万张H100集群),显著提升了小模型性能,80亿参数模型在多项评测中超过同级竞品,数学和编程能力翻倍[3][4][5] - 行业正在打破传统的Scaling Laws规律,Meta、DeepMind等公司通过调整数据/参数/算力配比,探索更高效的训练方式,Meta的训练数据量达到DeepMind建议值的75倍[5][6] - 小模型竞赛成为行业新趋势,Meta、Google、Anthropic等公司均在优化小模型性能以降低推理成本,Meta计划进一步开发10亿甚至5亿参数模型[7] 模型性能对比 - Llama 3 80亿参数模型在MMLU(68.4 vs 53.3/58.4)、GPQA(34.2 vs 21.4/26.3)、HumanEval(62.2 vs 30.5/36.6)、GSM-8K(79.6 vs 30.6/39.9)、MATH(30.0 vs 12.2/11.0)等测试中全面领先Gemma和Mistral同级模型[5] - Llama 3 700亿参数模型在MMLU(82.0)、HumanEval(81.7)、GSM-8K(93.0)等测试中与Gemini Pro 1.5(81.9/71.9/91.7)和Claude 3 Sonnet(79.0/73.0/92.3)相当或更优[5] 训练方法突破 - Meta采用超量训练策略:80亿参数模型使用15万亿Token数据,是Google Gemma(6万亿)的2.5倍、行业常规水平(1-2万亿)的7-15倍[3][5] - 算力投入巨大:使用H100训练130万小时(相当于5000张H100连续工作11天),实际仅用2天多完成(借助2个2.4万张H100集群)[6] - 正在训练4050亿参数模型,初步评测达GPT-4水平[5] 行业趋势 - 小模型本地化部署成为降低成本的关键路径,80亿参数Llama 3性能接近GPT-3.5且可在手机/电脑运行[5][7] - 训练策略分化:微软用GPT-4生成高质量数据训练小模型,Meta则依靠算力优势直接加大训练强度[7] - Meta计划2024年将H100数量扩至35万张(单价3万美元),远超同业数万张的规模[7]