Multi Query Attention
搜索文档
OpenAI把Transformer作者挖走了
36氪· 2026-06-18 21:42
文章核心观点 - AI领域标志性人才Noam Shazeer从Google DeepMind离职,正式加入OpenAI [4][5][6] - Shazeer是Transformer架构的联合创始人之一,其技术贡献是现代大模型发展的基石,他的流动将影响顶级AI公司间的竞争格局 [7][8][9][36][42] 人物背景与关键贡献 - Noam Shazeer是Google早期员工(2000年加入),曾参与搜索、广告系统等核心业务 [11] - 作为2017年里程碑论文《Attention Is All You Need》的八位作者之一,他是Transformer架构的关键设计者,贡献了注意力机制、多头注意力等核心设计并编写了早期实现代码 [8][14][16] - 其后续提出的技术方向(如Mixture of Experts、Multi Query Attention、Adafactor)持续影响大模型训练和推理效率 [16] 职业经历与行业影响 - 在Google Brain期间,与Daniel De Freitas共同开发了26亿参数的对话模型Meena,但Google因风险考量未将其推向公众 [19][20][21] - 因对Google的谨慎策略不满,于2021年离开并共同创立Character.AI,产品主打与AI角色互动,迅速获得大量用户 [22][24][25] - Character.AI在2023年3月完成1.5亿美元A轮融资,由a16z领投,估值达10亿美元,移动应用首周下载量超过170万次 [26] - 2024年8月,Google与Character.AI达成非独家技术授权协议,据媒体报道,Google为此支付约27亿美元,核心目的之一是让Shazeer等人回归并领导Gemini项目 [31][32][33][35] - Shazeer在Gemini项目担任联合技术负责人不到两年后,再次离开并加入OpenAI [5][36] 行业趋势与人才价值 - 顶级AI研究者的稀缺性正在上升,大模型的发展超越单纯堆叠算力,在推理能力、长上下文、低成本推理、多模态、Agent架构等关键方向需要深度理解模型结构与训练规律的专家 [36] - Shazeer的履历覆盖了从底层技术发明(Transformer)、大规模模型研发(Google Brain, LaMDA, Meena, Gemini)到消费级产品创业(Character.AI)的全链条,兼具工程与研究视野 [38][39][40][41] - 他的流动体现了核心人才对塑造AI公司竞争格局的持续影响力 [42]