Scaling Laws - 财报，业绩电话会，研报，新闻 - Reportify

Scaling Laws

搜索文档

深度｜Sam Altman：创业者不要做OpenAI核心要做的事，还有很多领域值得探索，坚持深耕可长成比OpenAI更大的公司

Z Potentials· 2025-07-03 11:13

初心与人才汇聚 - 创立OpenAI的最关键决策是"决定要做"这件事本身 2015年时AGI被视为天方夜谭团队几乎靠掷硬币决定是否启动[3] - 早期AI领域氛围与现状截然不同当时连有效语言模型都未出现团队仅8-20人目标仅是写出像样的研究论文[4] - 聚焦AGI方向成功吸引1%顶尖人才因"全世界只有你在做"的独特性形成人才聚集效应[5] - 伟大公司都始于微小起点零收入创业公司与未来千亿估值公司初期形态相似[6] 产品与技术的未来 - 当前AI领域存在"产品滞后"现象模型能力远超现有产品形态即使性能停滞仅推理成本下降就能催生大量创新[7] - 记忆功能是重要突破方向指向未来AI将成为了解用户、主动帮助的个人助手而不仅是被动问答工具[8] - 技术组合将创造强大体验包括新设备、新浏览器、记忆功能和持久化模型的结合[11] - 计算负载将采用混合模式部分本地运行减轻云端压力但主要计算仍依赖云端[12] 机器人与工业复兴 - 机器人发展策略是先解决认知问题再连接机械预计几年内可胜任实际工作未来需求将远超当前供应链产能[15] - AI和机器人技术为重建美国工业能力提供新路径可能实现制造业回流和复杂工业体系重建[16] - 建议创业者避开OpenAI核心业务专注空白领域如应用商店、个性化模型集成等方向[17] 界面革命与创业黄金时代 - 未来人机交互将"融化"为无感状态 AI像优秀人类助手仅在必要时出现改变当前信息过载的交互方式[21] - 计算机交互正经历第三次革命前两次是键盘鼠标和触控屏本次由AI驱动将产生全新交互范式[22] - SaaS未来可能演变为API+数据库+LLM界面 UI将由大模型即时生成当前是创业最佳时机[23] 能源与未来愿景 - AI发展与能源紧密相关能源限制决定可运行的智能规模需解决算力与地球散热的平衡问题[29][30] - 人均能耗与生活质量强相关技术乐观主义相信"激进富足" 通过AI和无限能源创造美好未来[30] - AI推动科学进步是长期增长核心未来10-20年可能出现超级智能大幅加速科学发现速度[27] 早期经历与对年轻创业者的建议 - 创业需要长期坚持信念和韧性即使遭遇失败也要继续前行首个项目失败是常见经历[32] - 招聘应关注"斜率高的人"而非"y轴截距高的人" 即选择成长速度快、有好奇心的人才[26] - CEO工作挑战在于同时处理大量不相关但重要的决策远超常人承受范围[26]

下一代交互界面

Artificial Intelligence

下一代交互界面

Artificial Intelligence

OpenAI路线遭质疑，Meta研究员：根本无法构建超级智能

36氪· 2025-06-20 20:00

超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向，Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题，暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性，认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径：纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升，但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值，非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险，行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈，部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现，当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限，未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题，需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向，OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室，投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛，争夺最优训练环境设计 [33]

Meta Platforms(US:META)

大语言模型（LLM）

AGI（通用人工智能）

ASI（超级人工智能）

可验证奖励强化学习（RLVR）

大语言模型（LLM）

AGI（通用人工智能）

ASI（超级人工智能）

可验证奖励强化学习（RLVR）

Lex Fridman 对谈谷歌 CEO：追上进度后，谷歌接下来打算做什么？

Founder Park· 2025-06-06 23:03

Google AI战略与产品进展 - Google通过整合Brain和DeepMind团队成立Google DeepMind 显著提升AI研发能力[5][6][9] - 公司TPU基础设施投资已持续十年目前正扩大规模以支持大模型训练[6][8][12] - Gemini系列模型处理token量从12个月前的9 7万亿/月暴增至480万亿/月增长50倍[27][28] - 推出Gemini 1 5 Pro、Flash等差异化产品线 Pro模型能力达Ultra的80%-90%但成本更低[30][31] 搜索业务AI化转型 - 搜索未来将部署多路径检索模型整合网络信息并引导至有价值内容[4][14] - AI概览功能已嵌入广告用户反馈积极并推动产品增长[15][16][18] - AI模式作为独立标签页测试成熟后将逐步迁移至主搜索页面[18][21] - 非英语用户受益显著 Gemini多模态能力打破语言信息壁垒[15][22] 技术突破与行业影响 - 30%代码由AI辅助生成整体工程效率提升10%[32][33] - 计算领域下一个交互范式是AR Project Astra项目将重塑Android XR生态[36][37][38] - 自动驾驶领域Waymo完成1000万次付费服务最后20%技术攻坚比初期80%更耗时[39][40] - 当前处于AJI(非均衡AI)阶段 2030年前或难实现AGI但各维度将现飞跃[42][43][44] AI长期价值与产业变革 - AI独特之处在于递归式自我改进将超越电力成为人类史上最重要技术[57][58] - 创造力门槛降低将释放全球80亿人认知潜力内容创作群体或达十亿级[60][62][64] - 未来顶级内容体验仍依赖人类特质 AI生成与人类创作将长期共存[63][64][66] - 模型推理能力构建基于科学原理而非硬编码规则尤其在数理领域[25][26][29]

第一性原理

Software & Internet

第一性原理

Software & Internet

中金 | AI进化论（11）：GTC 2025，超摩尔定律延续，CPO正式亮相

中金点睛· 2025-03-28 07:33

文章核心观点 - NVIDIA GTC 2025大会上CEO从供需端分析AI硬件行业趋势，带来CPO通信技术更新，需求端缓解算力通缩担忧，供给端芯片、服务器和网络通信有新品发布及技术进展，CPO虽处产业化初期但长期有扩大应用机会 [1][3][4] 行业需求 - 投资者因LLM预训练成本收益比下降和开源模型降成本而担忧算力硬件市场增长，公司重申预训练后、后训练和长思维链推理等场景遵循Scaling Law，加速token消耗扩大算力需求，如强化学习和思维链推理，还预计2028年全球数据中心资本开支超1万亿美元 [7] - AI产业拐点至，推理任务占比在算力需求中增长，推理需求对Blackwell GPU订单量贡献上升，大会发布Dynamo推理软件优化推理任务，协调加速GPU间通信，采用Prefill/Decode分离模式 [9] 硬件更新之芯片&服务器 - 大会公布未来三年数据中心GPU及系统级产品，FP4稠密算力三年翻10x，公司将以GPU die数量命名系统及产品 [14] - Blackwell Ultra预计2H25交付，采用新设计，FP4精度算力较B200系列提升50%，内存配置升级至288GB HBM3E [14] - Vera Rubin自2H26起成主力产品，采用TSMC 3nm工艺，释放I/O die到独立小芯粒，系统级产品以NVL 144架构起步，CPU采用新架构，互联带宽提升；2H27有望推出Rubin Ultra，性能进一步跨越，推出NVL 576机柜产品 [15] - Feymann有望2028年推出，与Vera CPU搭配并迎来HBM升级 [16] 硬件更新之网络 C2C和B2B互联持续迭代 - Scale-up网络中，Vera Rubin NVL144机柜NVLink升级至6，连接总带宽达260TB/s，2027年下半年Rubin Ultra NVL576的NVLink迭代至7，聚合总带宽达1.5PB/s，提升GPU间通信效率 [21] - Scale-out网络中，Vera Rubin NVL144用Connect-X9智能网卡，总带宽28.8TB/s，Rubin Ultra NVL576总带宽提升至115.2TB/s，Rubin平台用Connect-X9和102T Spectrum6 CPO交换机，Feynman平台有望引入Connect-X10和204T Spectrum7 CPO交换机 [22] CPO交换机正式亮相 - CPO构建高密度光互连，缩短光信号电学互连长度，减少信号衰减和失真，未来走向晶圆级封装提升互连密度 [24] - GTC 2025发布三款CPO交换机，IB CPO交换机有望2H25量产交付，两款Spectrum CPO交换机有望2H26交付 [27] - 硅光调制采用微环调制器，尺寸小、功耗低，115.2T IB CPO交换机中每个硅光引擎用MRM调制，单通道速率200Gb/s，节省3.5倍功耗 [30] - CPO处于产业化初期，面临散热、维护和实际TCO高等挑战，本次发布产品基于液冷、可插拔光连接器方案给出解决思路，长期随着技术和生态问题解决，CPO有望扩大应用，光器件与先进封装成核心增量环节 [34][35]

英伟达(US:NVDA)

Dynamo推理软件

Dynamo推理软件

AI 月报：马斯克加速 GPU 竞赛；大模型真撞墙了？风口转到 Agent

晚点LatePost· 2024-12-11 22:30

技术发展 - OpenAI在12月开启为期12天的密集发布活动，包括推出完整版o1模型、每月200美元的ChatGPT Pro、视频生成模型Sora等 [2] - 大模型行业面临能力提升瓶颈，Google、OpenAI、Anthropic等公司在开发下一代模型时未能实现前几年的显著性能跃升 [4][5] - OpenAI尝试用合成数据训练新模型Orion但效果不理想，同时行业探索更高精度数据、后训练优化等新方向 [16][17][18][19] 市场竞争 - OpenAI企业市场份额从50%降至34%，Anthropic份额从12%增至24% [22] - xAI以500亿美元估值融资50亿美元，Anthropic获亚马逊追加40亿美元投资，Writer以19亿美元估值融资2亿美元 [27] - 视频生成领域竞争加剧，Runway上线新功能，腾讯开源对标Sora的HunyuanVideo模型 [25][26] 算力竞赛 - 亚马逊、微软、Meta、Google四家公司今年资本支出超2000亿美元建设算力中心，并计划加大投资 [28] - Anthropic CEO预测2026年将出现耗资超100亿美元的算力集群，OpenAI提议建造千亿美元级数据中心 [28] - 英伟达加速产品迭代，计划2025年发布机器人专用芯片Jetson Thor [35][37] 应用落地 - ChatGPT周活用户达3亿，企业生成式AI支出飙升500%至138亿美元 [38] - AI编程成为竞争焦点，GitHub Copilot生成微软近半启动代码，Cursor以25亿美元估值获融资 [6][23][43] - Agent成为行业新赛点，OpenAI、Anthropic、智谱等公司加速布局智能体产品 [51][52][53] 行业投资 - 沙特宣布500-1000亿美元AI投资计划，波兰投入2.44亿美元开发本土大模型 [31] - AI制药公司Cradle获7300万美元融资，Enveda筹1.3亿美元推进药物研发 [61] - 具身智能领域Physical Intelligence以24亿美元估值融资4亿美元，银河通用获5亿元人民币投资 [29]

Agent（智能体）

Agent（智能体）

发布视频生成模型、日均交互 30 亿次，MiniMax 第一次线下活动记录

晚点LatePost· 2024-09-02 23:40

公司发展历程与核心目标 - 公司成立于2021年12月9日，创业初心是实现"Intelligence with Everyone"，通过通用AI技术帮助每个人解决实际问题 [6][7][8] - 公司提出三个核心判断：下一代AI需通过图灵测试、需系统性技术突破、需分步从高容错场景切入 [11] - 目前日均处理30亿次AI交互，包括3万亿文本Token、2000万张图和7万小时语音，交互时长已达ChatGPT的50% [12][14] 技术架构与创新 - 新基础模型abab 7采用MoE+Linear Attention架构，比传统Dense模型快3-5倍，支持接近无限长的文本处理 [22][25][27] - Linear Attention技术使模型在处理10万Token时效率提升2-3倍，与GPT-4o技术路线殊途同归 [25][27] - 视频生成模型abab-video-1支持6秒2K视频生成，具备高压缩率和多风格适配能力 [3][30][32] 多模态技术进展 - 语音模型支持10+语种（含粤语），具备拟人化情绪表达和音乐生成能力 [29][30] - 多模态是提升渗透率的关键，因人类80%信息交互为非文字形式 [21][41] - 视频模型《魔法硬币》展示全AI生成能力，无人工修改 [4][30][51] 行业竞争与商业化 - 国内大模型"六小龙"技术更新普遍晚于原计划，行业进入螺旋式发展平缓期 [5] - 价格战推动模型调用量增长，中国模型在东南亚等非英语市场已具备竞争力 [50] - 商业化难点在于模型错误率（目前两位数），需降至个位数才能支持复杂任务 [37][38] 产品战略与用户生态 - 开放平台拥有3万开发者和2000家付费客户，测试集显示国产模型与GPT-4仍有本质差距 [40] - 内容社区产品星野定位非陪伴聊天，强调用户共创世界观和交互故事 [44][45] - 技术投入标准为能否带来数倍提升，非渐进式改进 [42][43]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

中国首批核聚变创业者谭熠：它总在你绝望时又给你希望｜TECH TUESDAY

晚点LatePost· 2024-07-30 21:15

核聚变行业发展现状 - 2021年起核聚变行业迎来创业热潮，美国公司Helion实现1亿摄氏度等离子体加热，CFS开发出高温超导磁体，技术突破推动商业化进程[2] - 全球资本密集涌入，硅谷科技名流和机构累计投资超30亿美元，远超美国政府历史拨款总额[2] - 中国首批核聚变创业公司星环聚能、能量奇点成立，分别获得数亿元和4亿元人民币天使轮融资[2] - 核聚变工业协会报告显示，5家公司计划2030年前实现发电，21家定在2035年前[3] 技术路线与突破 - 磁约束路线为主流，高温超导技术可将磁场强度提升4次方，显著缩小装置尺寸并降低成本[18] - AI技术可优化等离子体稳定性，提升性能30%以上，通过数据拟合弥补理论空白[19] - 商业公司采用差异化技术路径：ITER路线（巨型托卡马克）、强场托卡马克（高磁场）、球形托卡马克（高磁场利用率）[20] - 星环聚能选择球形托卡马克路线，通过脉冲重复运行解决传统加热难题，成本较同行降低66%（12亿 vs 35亿）[25][40] 商业化进展 - 星环聚能首代装置279天建成并点亮等离子体，温度达1700万度，完成技术验证的20%进度[6][36] - 下一代装置计划2027年建成，目标Q值>10（输出能量达输入10倍），较当前最高纪录（JET装置5.2秒）跨越式提升[38][39] - 潜在应用场景包括数据中心供电、电动汽车充电、船舶动力等非电网领域[42] 行业挑战与机遇 - Scaling Laws（定标律）在JET装置以上存在数据空白，商业公司需验证技术路径延续性[39] - 资本支持仍不足，星环聚能需12亿元建设资金，当前融资缺口需说服投资人接受非主流技术路线[10][41] - 历史经验显示，等离子体常在技术瓶颈期出现意外突破，如1982年发现"高约束模式"[16][17] 研究历程与趋势 - 核聚变研究70年历经三阶段：1950s亢奋期→1990s低谷期（拨款降至峰值25%）→2010s复兴期[14][17] - "永远50年"说法源于冷战后期投入不足，当前资金与技术创新推动预期缩短至"10年内"[17] - 商业机构效率显著高于政府项目，ITER耗资200亿美元、2035年投运，而企业目标更激进[12][13]

核聚变发电

核聚变装置

核聚变发电

核聚变装置

Llama 3 发布，亮点在于 “小” 模型

晚点LatePost· 2024-04-20 00:05

核心观点 - Meta推出的Llama 3系列大模型通过大幅增加训练数据量（80亿参数模型使用15万亿Token）和算力投入（2个2.4万张H100集群），显著提升了小模型性能，80亿参数模型在多项评测中超过同级竞品，数学和编程能力翻倍[3][4][5] - 行业正在打破传统的Scaling Laws规律，Meta、DeepMind等公司通过调整数据/参数/算力配比，探索更高效的训练方式，Meta的训练数据量达到DeepMind建议值的75倍[5][6] - 小模型竞赛成为行业新趋势，Meta、Google、Anthropic等公司均在优化小模型性能以降低推理成本，Meta计划进一步开发10亿甚至5亿参数模型[7] 模型性能对比 - Llama 3 80亿参数模型在MMLU（68.4 vs 53.3/58.4）、GPQA（34.2 vs 21.4/26.3）、HumanEval（62.2 vs 30.5/36.6）、GSM-8K（79.6 vs 30.6/39.9）、MATH（30.0 vs 12.2/11.0）等测试中全面领先Gemma和Mistral同级模型[5] - Llama 3 700亿参数模型在MMLU（82.0）、HumanEval（81.7）、GSM-8K（93.0）等测试中与Gemini Pro 1.5（81.9/71.9/91.7）和Claude 3 Sonnet（79.0/73.0/92.3）相当或更优[5] 训练方法突破 - Meta采用超量训练策略：80亿参数模型使用15万亿Token数据，是Google Gemma（6万亿）的2.5倍、行业常规水平（1-2万亿）的7-15倍[3][5] - 算力投入巨大：使用H100训练130万小时（相当于5000张H100连续工作11天），实际仅用2天多完成（借助2个2.4万张H100集群）[6] - 正在训练4050亿参数模型，初步评测达GPT-4水平[5] 行业趋势 - 小模型本地化部署成为降低成本的关键路径，80亿参数Llama 3性能接近GPT-3.5且可在手机/电脑运行[5][7] - 训练策略分化：微软用GPT-4生成高质量数据训练小模型，Meta则依靠算力优势直接加大训练强度[7] - Meta计划2024年将H100数量扩至35万张（单价3万美元），远超同业数万张的规模[7]

Meta Platforms(US:META)

Artificial Intelligence

Artificial Intelligence