下一代模型架构 - 财报，业绩电话会，研报，新闻

下一代模型架构

搜索文档

虎嗅APP· 2026-06-19 11:11

核心事件：Noam Shazeer从Google离职加入OpenAI - Transformer架构奠基人之一、Google工程副总裁兼Gemini模型联合负责人Noam Shazeer离开Google，加入OpenAI并担任架构研究负责人[4][6] - OpenAI首席执行官Sam Altman表示，从公司创立之初，Shazeer就是其最想合作的人之一，为此等待了十年[7] - 这是Shazeer职业生涯中与Google的又一次“拉扯”，其曾于2000年、2012年、2024年多次加入Google[9] 人物背景与历史影响 - Noam Shazeer是2017年开创性论文《Attention Is All You Need》的核心作者之一，该论文提出的Transformer架构是现代几乎所有主流大模型的底层基础[5][13] - 其早期在Google参与了搜索拼写纠错系统的改进，并因对AI的兴趣于2012年回归后加入Google Brain团队，转向AI主航道[10][11] - Shazeer很早就参与推动稀疏混合专家模型路线，该路线后来成为大模型扩展和效率优化的重要方向[15] - 2021年，因Google拒绝公开发布其参与开发的聊天机器人Meena，Shazeer与同事离开并创办了Character.AI[16][18] - 2024年，Google通过一笔价值约27亿美元的技术授权与人才回流交易，将Shazeer及部分Character.AI团队重新请回，并让其担任Gemini模型联合负责人[5][20][21] - Shazeer因持有Character.AI股份，在该交易中获得了数亿美元收益[22] 行业趋势与架构演进 - 当前大模型行业单纯扩大预训练规模的边际收益正在下降，预训练方法正接近数据和方法上的边界[27] - Transformer架构在动态状态追踪上存在结构性短板，例如难以维护持续变化的内部状态、在多轮对话中可能出现前后不一致[28][31] - 长上下文能力不等于真正的记忆，思维链也不等于真正的推理，现有方法可能是一种昂贵的补丁[28] - AI行业正形成新的共识：下一代模型不能只是更大的Transformer，必须具备更好的状态维护、计算组织和动态推理能力[33] - 行业正在探索对Transformer的各种改造，包括混合专家模型、状态空间模型、递归结构等，以弥补其短板[33] - Shazeer加入OpenAI担任架构研究负责人，象征着行业开始寻找Transformer之后的下一代基础架构[34] 公司战略与竞争格局 - Google的损失不仅在于失去一位核心负责人，更凸显了其常能预见未来但难以快速将未来产品化的问题，在AI窗口期极短的行业中，谨慎可能导致高昂的机会成本[36] - OpenAI引入Shazeer，获得了其在Transformer、混合专家模型、大规模训练、对话模型及超大规模系统架构方面的稀缺经验集合，这对从“小实验”走向“大系统”的前沿模型研发至关重要[37] - OpenAI正面临沉重的财务压力，据报道其2025年支出约340亿美元，净亏损约390亿美元（另一口径为385亿美元），前沿模型竞争已成为一场极其昂贵的战争[40] - OpenAI的直接竞争对手Anthropic也在积极补强核心人才，例如请来前Microsoft Azure AI高管和OpenAI联合创始人，人才战背后争夺的是下一代模型的研发能力[42] - OpenAI近期的人才引进（如Shazeer负责架构研究）旨在加强模型底层能力，以在上市前证明其有能力做出更强、更稳定、成本更低的模型[43]

Transformer架构

混合专家模型（MoE）

下一代模型架构

Artificial Intelligence

Artificial Intelligence

Transformer

Meena