Workflow
Transformer架构
icon
搜索文档
Transformer之父离开谷歌,奥特曼等了他十年
虎嗅APP· 2026-06-19 11:11
核心事件:Noam Shazeer从Google离职加入OpenAI - Transformer架构奠基人之一、Google工程副总裁兼Gemini模型联合负责人Noam Shazeer离开Google,加入OpenAI并担任架构研究负责人[4][6] - OpenAI首席执行官Sam Altman表示,从公司创立之初,Shazeer就是其最想合作的人之一,为此等待了十年[7] - 这是Shazeer职业生涯中与Google的又一次“拉扯”,其曾于2000年、2012年、2024年多次加入Google[9] 人物背景与历史影响 - Noam Shazeer是2017年开创性论文《Attention Is All You Need》的核心作者之一,该论文提出的Transformer架构是现代几乎所有主流大模型的底层基础[5][13] - 其早期在Google参与了搜索拼写纠错系统的改进,并因对AI的兴趣于2012年回归后加入Google Brain团队,转向AI主航道[10][11] - Shazeer很早就参与推动稀疏混合专家模型路线,该路线后来成为大模型扩展和效率优化的重要方向[15] - 2021年,因Google拒绝公开发布其参与开发的聊天机器人Meena,Shazeer与同事离开并创办了Character.AI[16][18] - 2024年,Google通过一笔价值约27亿美元的技术授权与人才回流交易,将Shazeer及部分Character.AI团队重新请回,并让其担任Gemini模型联合负责人[5][20][21] - Shazeer因持有Character.AI股份,在该交易中获得了数亿美元收益[22] 行业趋势与架构演进 - 当前大模型行业单纯扩大预训练规模的边际收益正在下降,预训练方法正接近数据和方法上的边界[27] - Transformer架构在动态状态追踪上存在结构性短板,例如难以维护持续变化的内部状态、在多轮对话中可能出现前后不一致[28][31] - 长上下文能力不等于真正的记忆,思维链也不等于真正的推理,现有方法可能是一种昂贵的补丁[28] - AI行业正形成新的共识:下一代模型不能只是更大的Transformer,必须具备更好的状态维护、计算组织和动态推理能力[33] - 行业正在探索对Transformer的各种改造,包括混合专家模型、状态空间模型、递归结构等,以弥补其短板[33] - Shazeer加入OpenAI担任架构研究负责人,象征着行业开始寻找Transformer之后的下一代基础架构[34] 公司战略与竞争格局 - Google的损失不仅在于失去一位核心负责人,更凸显了其常能预见未来但难以快速将未来产品化的问题,在AI窗口期极短的行业中,谨慎可能导致高昂的机会成本[36] - OpenAI引入Shazeer,获得了其在Transformer、混合专家模型、大规模训练、对话模型及超大规模系统架构方面的稀缺经验集合,这对从“小实验”走向“大系统”的前沿模型研发至关重要[37] - OpenAI正面临沉重的财务压力,据报道其2025年支出约340亿美元,净亏损约390亿美元(另一口径为385亿美元),前沿模型竞争已成为一场极其昂贵的战争[40] - OpenAI的直接竞争对手Anthropic也在积极补强核心人才,例如请来前Microsoft Azure AI高管和OpenAI联合创始人,人才战背后争夺的是下一代模型的研发能力[42] - OpenAI近期的人才引进(如Shazeer负责架构研究)旨在加强模型底层能力,以在上市前证明其有能力做出更强、更稳定、成本更低的模型[43]
Transformer先驱离开谷歌加入OpenAI,奥尔特曼:等了10年
第一财经· 2026-06-18 21:15
核心观点 - 顶尖AI人才诺姆·沙泽尔从谷歌DeepMind离职并加入OpenAI,这一关键人才流动可能预示着行业领导地位和模型竞争力的变化 [3][6][8] 人才流动详情 - **人物背景**:诺姆·沙泽尔是AI领域传奇人物,是奠定大模型基础的Transformer架构论文《Attention Is All You Need》的八位作者之一,该论文被引用超过25万次 [5] - **技术贡献**:沙泽尔是稀疏混合专家模型(MoE)的先驱,该架构是行业追求算力与性能平衡的参考方案,并于2023年被《时代》杂志评为全球AI领域最具影响力的100人之一 [5] - **职业轨迹**:沙泽尔曾是谷歌早期员工,2021年离职创业成立Character.AI,该公司迅速成为估值10亿美元的独角兽 [7] - **回归谷歌**:2024年,谷歌通过一项金额约为27亿美元的技术授权协议“反向收购”Character.AI,请回了沙泽尔及其团队,沙泽尔因持有公司约30%至40%的股份,估计从中获得7.5亿至10亿美元收益 [7] - **在谷歌的角色**:回归后,沙泽尔担任Gemini模型的技术联合负责人,主导新一代模型的预训练,被业内认为是解决Gemini训练关键问题、推动其性能提升并缩小与ChatGPT差距的头号功臣 [7] 对相关公司的影响 - **对OpenAI的意义**:沙泽尔将加入OpenAI担任架构研究负责人,其极度相信AGI的信念和深刻思考受到OpenAI首席研究官的认可,他的加入在OpenAI启动IPO进程(已提交保密S-1文件)的时间点,增强了外界对公司的信心 [6][8] - **对谷歌的影响**:沙泽尔的离开被评价为“一次巨大的人才流失”,引发外界对谷歌内部情况的疑问,距离谷歌花费约27亿美元召回他不到两年 [6][7] 行业竞争格局 - **谷歌的追赶与反超**:2025年11月谷歌发布Gemini 3模型,被认为是从追赶到反超OpenAI的关键战役,此后谷歌模型坐稳第一梯队并推动股价一路飙升,而当时的OpenAI则面临“氛围紧张”和“逆风”挑战 [7] - **OpenAI的近期表现**:最近两个月,OpenAI凭借图像模型GPT Images 2和新模型GPT-5.5的强势表现,以及编程产品Codex的顺风顺水,似乎重新找回了行业风向标的地位 [8] - **行业动态总结**:大模型赛道竞争激烈,没有永恒的领导者,攻守之势在短时间内即可发生微妙变化,顶尖人才的流动可能产生重要的蝴蝶效应 [8]