Workflow
Meena
icon
搜索文档
Transformer之父离开谷歌,奥特曼等了他十年
虎嗅APP· 2026-06-19 11:11
核心事件:Noam Shazeer从Google离职加入OpenAI - Transformer架构奠基人之一、Google工程副总裁兼Gemini模型联合负责人Noam Shazeer离开Google,加入OpenAI并担任架构研究负责人[4][6] - OpenAI首席执行官Sam Altman表示,从公司创立之初,Shazeer就是其最想合作的人之一,为此等待了十年[7] - 这是Shazeer职业生涯中与Google的又一次“拉扯”,其曾于2000年、2012年、2024年多次加入Google[9] 人物背景与历史影响 - Noam Shazeer是2017年开创性论文《Attention Is All You Need》的核心作者之一,该论文提出的Transformer架构是现代几乎所有主流大模型的底层基础[5][13] - 其早期在Google参与了搜索拼写纠错系统的改进,并因对AI的兴趣于2012年回归后加入Google Brain团队,转向AI主航道[10][11] - Shazeer很早就参与推动稀疏混合专家模型路线,该路线后来成为大模型扩展和效率优化的重要方向[15] - 2021年,因Google拒绝公开发布其参与开发的聊天机器人Meena,Shazeer与同事离开并创办了Character.AI[16][18] - 2024年,Google通过一笔价值约27亿美元的技术授权与人才回流交易,将Shazeer及部分Character.AI团队重新请回,并让其担任Gemini模型联合负责人[5][20][21] - Shazeer因持有Character.AI股份,在该交易中获得了数亿美元收益[22] 行业趋势与架构演进 - 当前大模型行业单纯扩大预训练规模的边际收益正在下降,预训练方法正接近数据和方法上的边界[27] - Transformer架构在动态状态追踪上存在结构性短板,例如难以维护持续变化的内部状态、在多轮对话中可能出现前后不一致[28][31] - 长上下文能力不等于真正的记忆,思维链也不等于真正的推理,现有方法可能是一种昂贵的补丁[28] - AI行业正形成新的共识:下一代模型不能只是更大的Transformer,必须具备更好的状态维护、计算组织和动态推理能力[33] - 行业正在探索对Transformer的各种改造,包括混合专家模型、状态空间模型、递归结构等,以弥补其短板[33] - Shazeer加入OpenAI担任架构研究负责人,象征着行业开始寻找Transformer之后的下一代基础架构[34] 公司战略与竞争格局 - Google的损失不仅在于失去一位核心负责人,更凸显了其常能预见未来但难以快速将未来产品化的问题,在AI窗口期极短的行业中,谨慎可能导致高昂的机会成本[36] - OpenAI引入Shazeer,获得了其在Transformer、混合专家模型、大规模训练、对话模型及超大规模系统架构方面的稀缺经验集合,这对从“小实验”走向“大系统”的前沿模型研发至关重要[37] - OpenAI正面临沉重的财务压力,据报道其2025年支出约340亿美元,净亏损约390亿美元(另一口径为385亿美元),前沿模型竞争已成为一场极其昂贵的战争[40] - OpenAI的直接竞争对手Anthropic也在积极补强核心人才,例如请来前Microsoft Azure AI高管和OpenAI联合创始人,人才战背后争夺的是下一代模型的研发能力[42] - OpenAI近期的人才引进(如Shazeer负责架构研究)旨在加强模型底层能力,以在上市前证明其有能力做出更强、更稳定、成本更低的模型[43]
OpenAI把Transformer作者挖走了
36氪· 2026-06-18 21:42
文章核心观点 - AI领域标志性人才Noam Shazeer从Google DeepMind离职,正式加入OpenAI [4][5][6] - Shazeer是Transformer架构的联合创始人之一,其技术贡献是现代大模型发展的基石,他的流动将影响顶级AI公司间的竞争格局 [7][8][9][36][42] 人物背景与关键贡献 - Noam Shazeer是Google早期员工(2000年加入),曾参与搜索、广告系统等核心业务 [11] - 作为2017年里程碑论文《Attention Is All You Need》的八位作者之一,他是Transformer架构的关键设计者,贡献了注意力机制、多头注意力等核心设计并编写了早期实现代码 [8][14][16] - 其后续提出的技术方向(如Mixture of Experts、Multi Query Attention、Adafactor)持续影响大模型训练和推理效率 [16] 职业经历与行业影响 - 在Google Brain期间,与Daniel De Freitas共同开发了26亿参数的对话模型Meena,但Google因风险考量未将其推向公众 [19][20][21] - 因对Google的谨慎策略不满,于2021年离开并共同创立Character.AI,产品主打与AI角色互动,迅速获得大量用户 [22][24][25] - Character.AI在2023年3月完成1.5亿美元A轮融资,由a16z领投,估值达10亿美元,移动应用首周下载量超过170万次 [26] - 2024年8月,Google与Character.AI达成非独家技术授权协议,据媒体报道,Google为此支付约27亿美元,核心目的之一是让Shazeer等人回归并领导Gemini项目 [31][32][33][35] - Shazeer在Gemini项目担任联合技术负责人不到两年后,再次离开并加入OpenAI [5][36] 行业趋势与人才价值 - 顶级AI研究者的稀缺性正在上升,大模型的发展超越单纯堆叠算力,在推理能力、长上下文、低成本推理、多模态、Agent架构等关键方向需要深度理解模型结构与训练规律的专家 [36] - Shazeer的履历覆盖了从底层技术发明(Transformer)、大规模模型研发(Google Brain, LaMDA, Meena, Gemini)到消费级产品创业(Character.AI)的全链条,兼具工程与研究视野 [38][39][40][41] - 他的流动体现了核心人才对塑造AI公司竞争格局的持续影响力 [42]
Transformer先驱离开谷歌加入OpenAI,奥尔特曼:等了10年
第一财经· 2026-06-18 21:15
核心观点 - 顶尖AI人才诺姆·沙泽尔从谷歌DeepMind离职并加入OpenAI,这一关键人才流动可能预示着行业领导地位和模型竞争力的变化 [3][6][8] 人才流动详情 - **人物背景**:诺姆·沙泽尔是AI领域传奇人物,是奠定大模型基础的Transformer架构论文《Attention Is All You Need》的八位作者之一,该论文被引用超过25万次 [5] - **技术贡献**:沙泽尔是稀疏混合专家模型(MoE)的先驱,该架构是行业追求算力与性能平衡的参考方案,并于2023年被《时代》杂志评为全球AI领域最具影响力的100人之一 [5] - **职业轨迹**:沙泽尔曾是谷歌早期员工,2021年离职创业成立Character.AI,该公司迅速成为估值10亿美元的独角兽 [7] - **回归谷歌**:2024年,谷歌通过一项金额约为27亿美元的技术授权协议“反向收购”Character.AI,请回了沙泽尔及其团队,沙泽尔因持有公司约30%至40%的股份,估计从中获得7.5亿至10亿美元收益 [7] - **在谷歌的角色**:回归后,沙泽尔担任Gemini模型的技术联合负责人,主导新一代模型的预训练,被业内认为是解决Gemini训练关键问题、推动其性能提升并缩小与ChatGPT差距的头号功臣 [7] 对相关公司的影响 - **对OpenAI的意义**:沙泽尔将加入OpenAI担任架构研究负责人,其极度相信AGI的信念和深刻思考受到OpenAI首席研究官的认可,他的加入在OpenAI启动IPO进程(已提交保密S-1文件)的时间点,增强了外界对公司的信心 [6][8] - **对谷歌的影响**:沙泽尔的离开被评价为“一次巨大的人才流失”,引发外界对谷歌内部情况的疑问,距离谷歌花费约27亿美元召回他不到两年 [6][7] 行业竞争格局 - **谷歌的追赶与反超**:2025年11月谷歌发布Gemini 3模型,被认为是从追赶到反超OpenAI的关键战役,此后谷歌模型坐稳第一梯队并推动股价一路飙升,而当时的OpenAI则面临“氛围紧张”和“逆风”挑战 [7] - **OpenAI的近期表现**:最近两个月,OpenAI凭借图像模型GPT Images 2和新模型GPT-5.5的强势表现,以及编程产品Codex的顺风顺水,似乎重新找回了行业风向标的地位 [8] - **行业动态总结**:大模型赛道竞争激烈,没有永恒的领导者,攻守之势在短时间内即可发生微妙变化,顶尖人才的流动可能产生重要的蝴蝶效应 [8]