Workflow
下一代模型架构
icon
搜索文档
Transformer之父离开谷歌,奥特曼等了他十年
虎嗅APP· 2026-06-19 11:11
核心事件:Noam Shazeer从Google离职加入OpenAI - Transformer架构奠基人之一、Google工程副总裁兼Gemini模型联合负责人Noam Shazeer离开Google,加入OpenAI并担任架构研究负责人[4][6] - OpenAI首席执行官Sam Altman表示,从公司创立之初,Shazeer就是其最想合作的人之一,为此等待了十年[7] - 这是Shazeer职业生涯中与Google的又一次“拉扯”,其曾于2000年、2012年、2024年多次加入Google[9] 人物背景与历史影响 - Noam Shazeer是2017年开创性论文《Attention Is All You Need》的核心作者之一,该论文提出的Transformer架构是现代几乎所有主流大模型的底层基础[5][13] - 其早期在Google参与了搜索拼写纠错系统的改进,并因对AI的兴趣于2012年回归后加入Google Brain团队,转向AI主航道[10][11] - Shazeer很早就参与推动稀疏混合专家模型路线,该路线后来成为大模型扩展和效率优化的重要方向[15] - 2021年,因Google拒绝公开发布其参与开发的聊天机器人Meena,Shazeer与同事离开并创办了Character.AI[16][18] - 2024年,Google通过一笔价值约27亿美元的技术授权与人才回流交易,将Shazeer及部分Character.AI团队重新请回,并让其担任Gemini模型联合负责人[5][20][21] - Shazeer因持有Character.AI股份,在该交易中获得了数亿美元收益[22] 行业趋势与架构演进 - 当前大模型行业单纯扩大预训练规模的边际收益正在下降,预训练方法正接近数据和方法上的边界[27] - Transformer架构在动态状态追踪上存在结构性短板,例如难以维护持续变化的内部状态、在多轮对话中可能出现前后不一致[28][31] - 长上下文能力不等于真正的记忆,思维链也不等于真正的推理,现有方法可能是一种昂贵的补丁[28] - AI行业正形成新的共识:下一代模型不能只是更大的Transformer,必须具备更好的状态维护、计算组织和动态推理能力[33] - 行业正在探索对Transformer的各种改造,包括混合专家模型、状态空间模型、递归结构等,以弥补其短板[33] - Shazeer加入OpenAI担任架构研究负责人,象征着行业开始寻找Transformer之后的下一代基础架构[34] 公司战略与竞争格局 - Google的损失不仅在于失去一位核心负责人,更凸显了其常能预见未来但难以快速将未来产品化的问题,在AI窗口期极短的行业中,谨慎可能导致高昂的机会成本[36] - OpenAI引入Shazeer,获得了其在Transformer、混合专家模型、大规模训练、对话模型及超大规模系统架构方面的稀缺经验集合,这对从“小实验”走向“大系统”的前沿模型研发至关重要[37] - OpenAI正面临沉重的财务压力,据报道其2025年支出约340亿美元,净亏损约390亿美元(另一口径为385亿美元),前沿模型竞争已成为一场极其昂贵的战争[40] - OpenAI的直接竞争对手Anthropic也在积极补强核心人才,例如请来前Microsoft Azure AI高管和OpenAI联合创始人,人才战背后争夺的是下一代模型的研发能力[42] - OpenAI近期的人才引进(如Shazeer负责架构研究)旨在加强模型底层能力,以在上市前证明其有能力做出更强、更稳定、成本更低的模型[43]