Apple Foundation模型

搜索文档
马斯克称Grok最迟下周登陆特斯拉汽车;庞若鸣晒出在苹果的最新论文丨全球科技早参
每日经济新闻· 2025-07-11 08:00
AI对电力需求的影响 - 美国电力供应商因AI数据中心需求激增,计划对消费者实施大幅涨价,2025年上半年已申请290亿美元的费率上调,较去年同期激增142% [2] - 能源负担能力倡导组织PowerLines的报告显示,AI技术对能源基础设施的影响引发了关于电力负担分配的争议 [2] 特斯拉与AI技术的结合 - 马斯克宣布Grok最迟下周登陆特斯拉汽车,显示公司在AI和自动驾驶技术方面的持续创新 [3] - 特斯拉正在扩大奥斯汀地区的Robotaxi服务范围,并等待监管部门批准在湾区推出服务,可能在一两个月内推出 [3] 亚马逊在AI领域的战略布局 - 亚马逊考虑对Anthropic追加投资,以深化双方的战略联盟,此前已投资80亿美元 [4] - 双方认为这一联盟将在人工智能全球竞争中占据优势 [4] AI在餐饮业的应用 - 迪拜将开设由AI厨师"Aiman"经营的餐厅WOOHOO,AI负责设计菜单、氛围和服务,人类厨师负责烹饪 [6] - Aiman厨师经过食品科学知识、分子组成数据及1000多个食谱的训练 [6] 苹果在AI基础模型训练的技术进展 - 苹果基础模型团队负责人庞若鸣发表论文《AXLearn: Modular Large Model Training on Heterogeneous Infrastructure》,展示了公司在AI基础模型训练方面的技术实力 [8] - AXLearn是一个用于大规模深度学习模型训练的生产级系统,具备良好的可扩展性和高性能 [8]
Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文
机器之心· 2025-07-10 18:49
核心观点 - 苹果基础模型团队负责人庞若鸣即将加入Meta,Meta开出2亿美金天价邀请其加入[2] - 庞若鸣在离职前完成苹果基础模型AXLearn的研究,该系统具有高度模块化和异构硬件支持特性[4][6] - AXLearn在代码复杂度、训练性能和推理性能上均显著优于主流系统[7][24][33] 技术架构 - AXLearn由组合器和执行框架构成,支持JAX程序生成与分布式硬件调度[16][17][19] - 系统通过严格封装实现模块化,集成RoPE和MoE功能仅需10行代码,其他系统需数百行[14][24] - 支持GPU/TPU/Trainium等异构硬件,自动优化分片策略和XLA编译选项[12][18][27] 性能表现 - 代码复杂度恒定为O(1),其他系统达O(NM)线性增长,RoPE集成代码量对比:AXLearn(0行) vs Megatron-LM(400行)[24] - 训练性能:Llama2-7B在TPU-v5p-512上MFU达66.2%,超MaxText(61.6%);70B模型在TPU-v5p-1024上吞吐量360K tokens/s[29] - 推理性能:AXLearn在70B模型上TTFT延迟仅150.5ms,较vLLM(80213.6ms)提速500倍;吞吐量超vLLM 1.6倍[33][34] 应用规模 - 支持超10,000个并行实验,部署于数十种硬件集群,训练模型参数规模达万亿级[35][36] - 已应用于智能助手、多模态生成等十亿级用户产品[37]