Transformer
搜索文档
谷歌192亿买他回来,现在只想让他闭嘴
量子位· 2025-11-11 19:11
事件概述 - 谷歌以27亿美元(约192亿人民币)收购Character AI并引入其核心团队,其中Transformer“贡献最大”的作者Noam Shazzer回归公司[1][26][28] - Noam Shazzer在公司内部论坛就性别等敏感议题发表个人观点,引发内部激烈争论并迅速形成对立阵营[5][6][7] - 公司管理层删除Noam部分评论,导致争议升级,支持者认为此举体现企业文化僵化,反对者则认为顶尖人才也需遵守公司包容政策[8][9] 人物背景与价值 - Noam Shazzer是Transformer八位作者之一,被公认为“贡献最大”作者,其重写项目代码将系统提升至新水平[20] - 华盛顿大学计算机教授Pedro Domingos表示,Noam回归后修复的一个Gemini漏洞价值达25亿美元[14] - Hyperbolic Labs联创兼CTO Yuchen Jin认为此次收购是谷歌最划算交易,若Noam被马斯克挖走,最佳大模型将变为Grok[16][17] 历史相似事件对比 - 当前事件让外界联想到2017年James Damore事件,该工程师因撰写涉及性别议题的内部备忘录被解雇[12] - 但外界普遍认为Noam地位重要,公司无法像对待James Damore那样解雇他[13][19] - 2020年谷歌AI伦理团队联合负责人Timnit Gebru博士因合著批评大模型偏见的论文被解雇,超过1400名谷歌员工和数千名外部学者联名支持她[31][39] - AI负责人Jeff Dean当时为处理Gebru事件的敏感度道歉,显示公司高层与顶尖研究人员价值观冲突持续存在[36][40][41]
谷歌Dreamer大神离职,自曝错过Transformer
36氪· 2025-11-05 10:20
核心人事变动 - 资深研究科学家Danijar Hafner宣布离开其工作近十年的谷歌,离职前担任Google DeepMind旧金山分部的资深研究科学家 [1][3] - 此次离职标志其职业生涯一个重要篇章的结束 [4] 职业经历与研究贡献 - 自2016年起,该研究员便以实习生身份开始参与谷歌Brain团队的工作,并与James Davidson、Vincent Vanhoucke等共事 [6][7] - 其研究目标是构建能够理解世界并与世界互动的通用智能体,并主导/联合主导了Dreamer系列(Dreamer、DreamerV3、Dreamer4等)的开发 [1][7] - 在谷歌/DeepMind近十年间,其工作地点与研究内容随学业变动,先后在伦敦DeepMind、多伦多Brain Team以及Google DeepMind旧金山分部工作 [6][7][17] 关键技术背景与合作网络 - 其研究深度涉足深度强化学习和生成式模型,早期曾参与PlaNet算法的开发,并与Timothy Lillicrap、Ian Fischer等合作 [14] - 在多伦多大学攻读博士期间,主要导师为Jimmy Ba,并获得了杰弗里·辛顿的指导 [17] - 在谷歌Brain多伦多分部,与资深研究科学家Mohammad Norouzi长期合作开发多个版本的Dreamer [7][19] - 近期在伯克利和旧金山与Wilson Yan合作深入研究世界模型,并得到Count Zero和Koray Kavukcuoglu的算力与资源支持 [21] 行业技术发展关联 - 该研究员曾提及早期接触Transformer架构的轶事,Ashish Vaswani曾向其介绍该架构在计算效率上的优势,但当时未予尝试 [11][13] - 其经历与深度学习领域多位关键人物(如Łukasz Kaiser、Ashish Vaswani等)及重要技术节点(如Transformer的提出)有所关联 [8][10][11][13]
Google AI编年史:从搜索巨头到创新者困境的25年
36氪· 2025-11-04 10:00
公司核心战略困境 - 公司面临经典的创新者困境:其发明的革命性技术(Transformer)比现有核心产品(搜索)在多数应用场景中更优,但新技术尚未找到与旧业务同等盈利的模式 [2] - 公司需要做出战略抉择:是冒险全力投入人工智能技术,还是保护年收入可观的搜索广告业务 [5] - 公司拥有顶级人工智能资产组合,包括Gemini模型、年收入500亿美元的云服务、自研TPU芯片以及全球最大的搜索流量入口 [4] 技术发展历程 - 2000-2001年微厨房对话催生了早期语言模型PHIL的开发,该模型后来驱动了AdSense产品,为公司带来数十亿美元新收入 [8][10][14] - 2007年公司通过算法优化将机器翻译时间从12小时缩短至100毫秒,并在产品中部署了第一个大型语言模型 [19][23][24] - 2011年Google Brain项目启动,开发了Distbelief系统,并通过猫论文证明了大型神经网络无监督学习的能力,该技术后来成为YouTube推荐系统的核心 [38][44][45][48][49] - 2017年公司八人研究团队发表Transformer论文《Attention Is All You Need》,该技术成为后续GPT系列模型的基础,论文已被引用超过173,000次 [64][74][76] 人才与收购布局 - 十年前公司几乎汇聚了人工智能领域所有顶尖人才,包括OpenAI首席科学家Ilya Sutskever和Anthropic创始人Dario Amodei等 [3] - 2012年公司以4400万美元收购DNN Research团队,此次收购被评价为带来的收益远超公司其他投资总和 [55][57][58] - 2014年公司以5.5亿美元收购DeepMind,此次收购被视为人工智能领域的蝴蝶效应事件,直接影响了后续OpenAI和Anthropic的创立 [59][62] - Transformer论文的八位作者全部离开公司,加入或创建人工智能初创企业,体现了严重的人才流失问题 [77] 竞争格局演变 - 2018-2022年间,OpenAI基于Transformer技术相继推出GPT-1、GPT-2和GPT-3模型,微软先后投资10亿美元和20亿美元支持其发展 [78][79][80][81] - 2022年11月30日ChatGPT发布,成为史上增长最快的产品,对公司构成存在性威胁,促使公司内部发布Code Red红色警报 [84][89][90][91] - 2023年2月公司匆忙推出Bard产品,但因质量问题和事实错误导致股价单日暴跌8%,市值蒸发1000亿美元 [93][94][95] 战略调整与反击 - 2023年5月公司做出两项重大决策:统一Brain和DeepMind团队为Google DeepMind,并集中资源开发单一模型Gemini [97][98] - Gemini产品表现强劲,发布后不到一周获得100万用户,两个月后达到1亿注册用户,成为史上达到此里程碑最快的产品 [100] - 截至2025年,Gemini已达到4.5亿月活跃用户,公司正将人工智能全面整合到搜索和各种产品中 [102][105] 资产优势分析 - 公司拥有全栈人工智能能力,是唯一同时具备前沿模型和自研人工智能芯片的公司 [103] - 公司基础设施优势明显,包括私有数据中心间光纤网络、定制化硬件架构和无人能及的规模 [104] - 公司掌握海量个人和企业数据,拥有1.5亿Google One付费用户且快速增长,具备深度个性化人工智能的潜力 [104] 市场挑战 - 公司面临变现难题,搜索业务在美国每用户每年赚约400美元,而人工智能服务很难实现同等水平的用户付费 [106] - 公司在搜索市场占据90%份额,但在人工智能市场占有率可能只有25%-50%,不再占据主导地位 [106] - 人工智能正在蚕食搜索业务中最有价值的场景,如旅行规划等,导致高价值广告点击流失 [106]
中国-人工智能数据中心的 “供能” 与 “冷却”- 8000亿级新机遇AI Infrastructure - China (H_A)_ Powering up & cooling down for AIDC - RMB800bn worth of new opportunities
2025-11-03 10:36
> 本纪要深入分析了中国AI基础设施(AIDC)领域的投资机遇,核心论点是AI竞赛本质上是能源竞赛,中国凭借其在电力供应、成本和供应链上的优势,有望在全球AI竞争中占据有利地位,并由此催生出规模达8000亿人民币的非IT资本开支新市场。 **行业与公司概览** * 本纪要聚焦于中国AI基础设施行业,特别是为AI数据中心提供动力和冷却的上下游产业链[1] * 核心观点是“无电力,无AI”,AI领导力与能源安全直接相关[1][71] * 中国在AI资本开支中扮演重要角色,预计到2030年,中国AI非IT资本开支市场将增长至8000亿人民币,占AI总资本开支的三分之一[1][62] **核心观点与论据** **宏观市场与资本开支预测** * 全球AI相关资本开支预计到2030年将超过1.2万亿美元,几乎是2025年的三倍[1][53] * 中国AI资本开支预计将从2025年的910亿美元增长至2030年的3270亿美元,复合年增长率为29%[41][57][61] * 驱动因素包括互联网公司的持续投入和政府主导的倡议(如“东数西算”)[41][61] **电力需求激增与中国的优势** * 国际能源署预计,到2030年,全球数据中心耗电量将从2024年的416TWh增长至946TWh,复合年增长率为15%[1][74] * 中国数据中心耗电量预计将从2024年的102TWh增长至2030年的277TWh,复合年增长率为18%,占中国总用电量的比例从1%升至2.2%[1][42][74] * 中国在电力充足性(储备边际约30%)、低成本(工业电价较欧美低30-60%)、可再生能源主导(太阳能、风能、电池全球份额超70%)以及年轻且强大的电网方面具备显著优势[43][99][100][102][108] **动力基础设施机遇** * **核能**:中国核电容预计从2025年的60GW增长至2030年的100GW,占全球在建容量的60%,将导致铀短缺和价格上涨,推荐CGN Mining[2][29][121] * **电力设备**:中国变压器出口价值在2025年前8个月同比增长38%至55亿美元,预计2025年全年增长超30%,2026年增长超20%,推荐Sieyuan、Jinpan、Huaming[2][129] * **储能系统**:预计全球储能系统安装量在2024-2030年复合年增长率为21%,中国玩家订单复合年增长率在2025-2027年达30%以上,推荐Sungrow、CATL、EVE[2][143][147] * **柴油发电机**:预计中国数据中心备用柴油发电机需求在2024-2027年复合年增长率为28%,推荐Weichai、Yuchai[2][157][160] * **AI电源**:AI服务器功率密度和功耗激增(如GB200功耗达2.7kW),推动电源系统需求,推荐Megmeet[2][170][171] **冷却系统与金属需求** * **冷却系统**:预计中国液冷市场在2025-2030年复合年增长率为42%,渗透率到2030年达45%,因为液冷比风冷换热效率高20-50倍,节能高达30%,推荐AVC[3][33][35][50] * **金属需求**: * **铜**:预计中国数据中心直接用铜需求到2030年增长至约100万吨,占中国总铜需求的5-6%,电网和设备等间接用途将再增加约50%的需求,全球铜供应紧张,推荐Zijin Mining、CMOC[3][49][185][190][197] * **铝**:预计数据中心驱动铝需求从2025年的33万吨增长至2030年的69.5万吨,复合年增长率为16%,推荐Chalco、Hongqiao[3][49][204] **其他重要内容** * 报告列出了AI资本开支价值链中的关键股票及其估值,包括电力、金属、冷却等领域的公司[6][51][52] * 讨论了亚洲其他地区(如台湾、韩国、日本)在AI基础设施繁荣中的角色和机会[9][10] * 强调了电力中断是数据中心停机的主要原因(占54%)[77] * 提及AI模型训练能耗急剧上升,例如GPT-4训练能耗估计是GPT-3的50倍[83][86]
“逃离”谷歌?Transformer之父的反内卷,我已“彻底厌倦”了自己的发明,AI该跳出成功陷阱了
机器人大讲堂· 2025-11-01 15:51
Transformer架构的行业影响与局限 - Transformer架构是ChatGPT、Claude等几乎所有主流大模型的基础,由2017年开创性论文《Attention is all you need》奠定,该论文被引用次数超过10万次,是计算机科学领域本世纪最具影响力的出版物之一[1][3] - 该架构为机器人领域带来质的飞跃,实现了空间理解能力的跃升和泛化能力的突破,推动行业从规则驱动转向数据驱动,使机器人从专用AI迈向通用AI,为具身智能热潮埋下伏笔[3] - 架构联合创造者Llion Jones认为Transformer可能阻碍下一个突破,其强大与灵活抑制了人们寻求更优方案的动力,现有技术仍有许多重要工作要做,但行业可能陷在框架内小修小补,耽误颠覆性创新[6][7][9] 当前AI研究环境的挑战 - 更多资源投入导致研究范围缩小,竞争压力使研究者变成论文流水线工人,当前进行标准AI研究需假设有三到四个其他团队在做相同事情,这种压力损害科学,减少创造力[1][10] - 投资者要求回报的巨大压力迫使研究人员选择安全、可发表项目而非高风险变革项目,学者不断检查是否被竞争对手抢先,创新火种在残酷竞争中被消耗殆尽[12] - 行业陷入探索与利用的困境,算法过度利用已验证路径而放弃探索新方向,最终只能停留在局部最优解,错失更优可能性[12] 突破性创新的孕育环境 - Transformer诞生于无压力的自由环境,项目自然自下而上生长,源于午餐交谈或办公室白板随手勾画,管理层没有给任何压力指标或论文考核[14][15] - 论文8位作者已全部离开Google,其中7人选择创业,Jones在东京创立Sakana AI公司,试图重现Transformer出现之前的环境,公司标志象征勇于打破常规[12][16] - Sakana AI向自然汲取智慧,追寻群体智能与进化等自然启发,为人才创造敢于探索不惧失败的环境,这被视作汇聚顶尖人才的最佳途径[16][18][20] 机器人行业生态格局 - 工业机器人领域活跃着埃斯顿自动化、埃夫特机器人、非夕科技、法奥机器人、越疆机器人、节卡机器人等企业[25] - 服务与特种机器人企业包括亿嘉和、晶品特装、七腾机器人、史河机器人、九号机器人、普渡机器人等,医疗机器人领域有元化智能、天智航、思哲睿智能医疗等公司[26] - 人形机器人企业涵盖优必选科技、宇树、云深处、星动纪元、伟景机器人等,具身智能企业包括跨维智能、银河通用、千寻智能、灵心巧手等,核心零部件企业有绿的谐波、因时机器人、坤维科技等[27][28][29][30]
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 14:27
核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型,标志着AI架构可能正告别对传统Transformer的路径依赖,迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention,通过引入细粒度遗忘门控,使模型能在每个通道维度上独立控制记忆保留,保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule,在数学上保证了稳定性,即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计,每3层线性注意力后加1层全注意力,以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码,让KDA通过时间衰减核函数自行学习序列位置信息,结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中,Kimi Linear减少了75%的KV缓存需求,并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为:MMLU得分73.8超越基线的71.6,MMLU-Pro得分51.0超越基线的47.2,BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高,如GSM8K得分83.9,MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”,使GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化,极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架,无需改动模型结构或缓存管理,任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法,状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer,因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现,刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制,显示技术路线存在多样性 [33]
一封来自Transformer之父的分手信:8年了,世界需要新的AI架构
36氪· 2025-10-27 11:04
Transformer之父「叛逃」?8年前掀起AI革命的男人,如今嫌「自己孩子」太吵太卷!当资本狂飙、论文堆积如山,他却高喊:是时候放弃 Transformer,重新找回好奇心了。 Transformer「亲爹」跑路啦,说是烦透了「自己生的娃」! 还记得那篇8年前把「注意力机制」按在王座上的论文《Attention Is All You Need》吗? 共同作者Llion Jones最近在旧金山的TEDAI大会上当众「叛逃」: AI研究正越做越窄,而他本人,准备把对Transformer的爱好调成「低电量模式」。 海量资金与人才反而让研究圈挤进死胡同,大家只顾卷参数、抢发论文,没人敢探索新架构。 钱越多,点子越少? 这是一种资本与论文KPI的奇妙化学反应。 Jones的主张很直白:前所未有的关注、资金和人才涌入之后,研究反而被「收窄」了。 为啥? 一边是投资人盯着回报,另一边是研究者担心被别人「抢先发」,人人都在拥挤赛道里拼命刷存在感。 结果呢? 赶工纸面成绩,挤牙膏式创新,和千人一面的论文标题。 他还搬出了课本里的老朋友:「探索vs.利用」。 现在的行业像把「利用」旋钮拧到11档:不停对同一架构打补丁、换皮 ...
「我受够了Transformer」:其作者Llion Jones称AI领域已僵化,正错失下一个突破
36氪· 2025-10-27 07:24
文章核心观点 - Transformer架构的联合创造者Llion Jones对当前AI领域过度集中于单一架构表示厌倦,并指出巨大的投资和竞争压力导致研究狭隘化,抑制了根本性创新 [1][2] - AI行业面临资源投入与创造力下降的悖论,研究者因害怕被“抢先”而选择低风险项目,整个领域陷入过度“利用”现有技术而非“探索”新可能的局部最优状态 [8][11] - 解决方案是调高“探索”的比重,创造允许自由研究的宽松环境,这种环境在吸引顶尖人才方面可能比高薪更具竞争力,并可能催生下一个类似Transformer的突破 [13][14][15] AI行业现状与问题 - AI领域获得了前所未有的关注、资源、资金和人才,但这反而导致了研究视野变得狭隘 [2] - 研究者普遍面临巨大压力,需要假设有三到四个其他团队在做完全相同的研究,导致仓促发表论文,降低了科学创造力 [11] - 行业当前的状态是过度“利用”现有Transformer架构,而“探索”不足,这可能导致错失更优越的替代方案 [11] Transformer的成功与局限 - 论文《Attention is all you need》自2017年发表以来,已获得超过20万次引用,是本世纪最具影响力的计算机科学论文之一 [4][5] - Transformer架构的成功和强大,本身可能阻碍了人们去寻找更好的替代技术,因为如果当前技术更差,会有更多人积极寻找替代品 [16] - 尽管在现有Transformer技术上仍有重要工作可做,但行业拥有的人才和资源完全有能力进行更多探索性研究 [18] 创新环境与解决方案 - Transformer的诞生源于“非常有机的、自下而上”的环境,源于午餐交谈或白板涂鸦,研究者当时拥有自由时间且没有来自管理层的发表压力 [12] - Sakana AI试图重现这种环境,进行受自然启发的研究,并将追逐论文发表或直接竞争的压力降至最低,其理念是“只做那些如果你不做就不会出现的研究” [14] - 为研究者提供探索自由是吸引顶尖人才的一种非常有效的方式,其吸引力可能胜过百万美元年薪 [15] 未来展望与风险提示 - 有证据表明,单纯构建更大的Transformer模型可能正接近收益递减的瓶颈,持续进步可能需要架构创新而不仅仅是规模扩大 [19] - 下一个Transformer规模的突破可能近在咫尺,但正因成千上万的研究人员竞相对现有架构进行增量改进,而可能被忽视 [20]
「我受够了Transformer」:其作者Llion Jones称AI领域已僵化,正错失下一个突破
机器之心· 2025-10-25 11:20
文章核心观点 - Transformer架构的创造者之一Llion Jones表示已厌倦该架构,并指出AI行业因过度投资和竞争压力而僵化于单一架构,导致创造力下降和探索不足,可能错失下一个重大突破 [2][3][23][29][31] AI行业现状与挑战 - AI领域面临悖论:资源投入前所未有,但创造力却在下降,研究者因害怕被竞争对手抢先而选择安全、易于发表的项目,而非高风险变革性项目 [11][16] - 行业竞争导致研究同质化,例如有四篇不同论文几乎同时提出与表征自编码器类似的思想,以及两家公司在OCR token化方法上撞车 [12] - 当前AI研发模式过度“利用”现有Transformer架构,而“探索”不足,导致陷入局部最优解,可能错过更优越的替代方案 [16][29] Transformer的成功与局限 - 论文《Attention is all you need》发表于2017年,已获得超过20万次引用,是本世纪最具影响力的计算机科学论文之一 [7] - Transformer自身的成功和强大灵活性,反而可能阻碍人们去寻找更好的替代技术 [24] - 简单地构建更大的Transformer模型可能正接近收益递减的瓶颈,持续进步可能需要架构创新而不仅仅是规模扩大 [29] 创新环境与解决方案 - Transformer的诞生源于自由、自下而上的研究环境,如午餐交谈和白板涂鸦,没有来自管理层的项目或论文发表压力 [19] - 倡导调高“探索旋钮”,公开分享研究成果,即使会带来竞争代价,以合作而非竞争的方式共同推动技术进步 [21][26] - 在研究机构中提供探索自由比高薪更能吸引顶尖人才,例如Sakana AI给予研究员一周时间自由探索,最终成果被NeurIPS接收为Spotlight论文 [21][22] 未来展望与风险 - 下一个Transformer规模的突破可能正由拥有探索自由的研究人员追寻,但可能因当前行业追逐增量改进而被忽视 [31] - 每年数百亿美元流入AI研发,但激烈的竞争和保密倾向使得探索性研究环境渐行渐远,可能需要颠覆现有的激励机制以找到根本性创新 [29]
GE Vernova's Strong Orders And Prolec Deal Signal Major Growth: Analyst
Benzinga· 2025-10-24 02:39
公司业绩 - 第三季度订单有机增长55% [1] - 第三季度GAAP每股收益为1.64美元,低于市场预期的1.92美元,总收入为99.69亿美元,超出市场预期的91.58亿美元 [2] - 重申2025年全年业绩指引,预计收入将达到360亿至370亿美元区间的高端,略低于371.86亿美元的市场预期 [3] 战略收购 - 公司将以52.75亿美元收购Prolec GE剩余50%的股权,从而全资控股该合资企业 [4] - 此次收购旨在加强公司在北美变压器市场的地位,把握电网投资增长机遇 [1] - 收购价格对应2025年企业价值倍数(EV/EBITDA)为13.9倍 [4] 收购预期效益 - 管理层预计此次交易将为2026年增加6亿美元的EBITDA [5] - 预计到2028年将产生约6000万至1.2亿美元的成本协同效应 [5] 分析师观点与预测 - 美国银行分析师维持买入评级,目标价为725美元,认为季度业绩稳健,订单增长表现突出,收购Prolec GE股权是更积极的举措 [1][4] - 分析师维持公司2025年调整后EBITDA为35亿美元的预测,较上年增长74%,高于34亿美元的市场共识 [6] - 预计2025年有机收入将同比增长7%,利润率将同比扩大360个基点 [6] - 重申2026年调整后EBITDA为55亿美元的预测,高于52亿美元的市场共识 [6] 同业分析师评级 - 花旗分析师维持中性评级,但将目标价从670美元下调至658美元 [7] - 巴克莱分析师维持增持评级,并将目标价从706美元上调至710美元 [7] - BMO资本市场分析师维持跑赢大市评级,并将目标价从690美元上调至710美元 [7] 市场表现 - GEV股价在周四交易中上涨3.32%,报595.10美元 [8]