PyTorch 2.0
搜索文档
Meta详细阐述基于LLM级训练、混合并行计算与知识迁移的GEM广告模型
AI前线· 2025-12-28 13:33
Meta发布生成式广告模型GEM - 公司发布旨在改善其平台广告推荐能力的生成式广告模型GEM 该模型处理每天数十亿的用户-广告交互数据 致力于解决从多样化广告数据中学习的复杂性 包括广告商目标、创意格式、测量信号以及跨多个投放渠道的用户行为[2] - 公司使用三种方法构建GEM系统 基于先进架构的模型缩放技术、用于知识迁移的后训练技术 以及利用数千块GPU实现高级并行计算的增强型训练基础设施[2] GEM的先进训练架构与优化 - 公司重新设计训练架构以支持GEM达到现代大型语言模型的规模 针对密集型模型组件采用混合分片分布式并行技术 在数千块GPU间优化内存使用并降低通信开销 针对稀疏型组件采用结合数据并行与模型并行的二维并行方案[4] - 公司实施多项GPU级别优化以减少训练瓶颈 包括针对可变长度用户序列设计的定制GPU内核、采用PyTorch 2.0中的图级编译技术自动执行激活检查点和操作符融合 以及采用FP8量化等内存压缩技术处理激活值[4] - 公司通过开发GPU通信集合消除了通信与计算工作负载之间的竞争 通过优化训练器初始化、数据读取器设置和检查点 将作业启动时间减少了5倍 通过优化缓存策略 将PyTorch 2.0的编译时间减少了7倍[4] 模型效率优化与知识迁移策略 - 系统在模型生命周期中持续优化GPU效率 在探索阶段 轻量化模型变体以更低的成本支持了超过半数的实验 公司通过持续在线训练刷新基础模型 并在训练过程与训练后的知识生成阶段之间共享流量以降低计算需求[5] - 按照设计 GEM将知识迁移到数百个面向用户的垂直模型以提供广告服务 公司采用两种迁移策略 直接迁移使GEM能够向其接受训练的数据空间内的主要垂直模型传递知识 分层迁移则将GEM的知识提炼为特定领域的基础模型 进而用于训练垂直模型[5] - 这些方法通过知识蒸馏、表示学习和参数共享最大限度地提升了公司广告模型生态系统中的迁移效率[6] 行业专家评价与潜在影响 - 特斯拉前总监评论指出 GEM感觉像一种能同时学习创造力、语境和用户意图的模型 而非事后拼凑碎片 并强调23倍的有效浮点运算性能提升是改变经济效益的关键所在[7][8] - 微软高级产品经理认为该技术对广告商是游戏规则的改变者 指出它有可能为小型企业节省大量资金 使其无需试验营销策略 而是依靠智能模型来充分利用广告支出[9] - 按照公司设想 广告推荐系统的基础模型将发展出更好地理解用户偏好和意图的能力 使广告互动更加个性化 公司将这种模型定位为实现大规模一对一连接的方法[10]
Will Intel Stock Beat Nvidia In The New Year?
Forbes· 2025-12-05 18:20
核心观点 - 文章认为,尽管英伟达仍是一家卓越的公司,但其超高估值已充分反映完美预期,而随着人工智能从训练转向推理阶段,其面临增长放缓、竞争加剧和利润率受压等多重挑战 [5][9][10] - 相比之下,英特尔虽然面临执行挑战,但其股价已充分反映负面因素,而公司在先进制程(18A)、地缘政治优势和美国本土制造方面的潜力被低估,任何积极进展都可能带来巨大的股价上行空间 [12][13][14][17] - 基于以上分析,文章重申一年前提出的策略,即减持英伟达并转向英特尔的交易在2026年及以后仍然可行 [3][13] 英伟达面临的挑战 - **市场估值极高**:公司市值高达4.4万亿美元,营收倍数超过20倍,估值已反映完美无瑕的预期 [5][13] - **增长阶段转换**:人工智能的“轻松”增长阶段(三位数扩张)已经结束,正在进入“艰难爬行”阶段 [5] - **从训练转向推理**:未来人工智能的重点可能从训练大模型转向执行模型的推理阶段,而推理对成本更为敏感,可能转向更专业、更便宜的芯片,这可能导致英伟达利润率受压 [6][9] - **竞争加剧**: - **谷歌TPU的威胁**:硅谷正在低调部署谷歌的TPU(包括Trillium芯片)用于人工智能 [7] 谷歌使用TPU训练和运行其Gemini模型,并向Anthropic等外部公司销售,Anthropic计划投资数百亿美元购买多达100万个谷歌TPU [10] 据报道,Meta也在谈判购买TPU用于其人工智能计划 [10] 有说法称,Trillium在推理方面的性价比比英伟达顶级GPU高30-50% [10] - **软件生态挑战**:英伟达主导的CUDA软件正面临PyTorch 2.0和OpenAI的Triton的挑战,这可能最终简化硬件转换 [10] - **客户成本压力**:亚马逊、微软和Meta已在人工智能硬件资本支出上投入了数千亿美元,股东将要求回报 [10] 英伟达高端GPU单价超过3万美元,且享有超过50%的净利润率,实质上在侵蚀超大规模云计算公司的利润,这些大科技公司有动力通过定制芯片或优化来积极降低硬件成本 [10] 英特尔的潜在机遇 - **股价表现与估值**:自2024年12月6日以来,英特尔股价飙升了95%,而英伟达上涨约28% [3] 英特尔当前市值约2000亿美元,仅为预期销售额的4倍,估值已反映诸多不利情况 [13] - **技术追赶**:英特尔的18A制程节点虽不太可能在投产首日就在良率或整体性能上超越台积电的N2,但这并非必需 [11] 公司创新的背面供电(PowerVia)设计解决了高密度芯片的关键散热问题,使18A节点对某些高性能应用极具吸引力 [17] 若其性能能达到台积电的90-85%,地缘政治优势将弥补其余差距 [17] - **地缘政治优势**: - **供应链安全**:随着芯片供应与国家安全交织,英特尔成为少数能够建立有弹性、非台积电供应链的西方生产商之一 [12] 全球最先进的芯片在台湾生产,全球科技公司被迫寻找替代方案,而英特尔拥有晶圆厂、知识产权和规模,能够在台湾以外建立第二条供应链 [17] - **政策支持**:新实施的进口芯片关税可能最终缩小台湾与美国晶圆的成本差距,使英特尔受益 [17] 英特尔在俄亥俄州和亚利桑那州的巨型晶圆厂计划投资超过500亿美元,美国国防部、能源部等政府机构有结构性激励确保这些设施运营,将英特尔纳入美国战略框架 [17] - **潜在客户与重估催化剂**:据报道,苹果正考虑使用英特尔的代工厂生产其部分逻辑芯片,这可能有助于建立基于地缘政治稳定的美国基地 [17] 任何关于18A良率或确认一级客户协议的利好消息都可能带来巨大的上行空间 [14]