Adafactor优化器 - 财报，业绩电话会，研报，新闻

Adafactor优化器

搜索文档

量子位· 2025-05-10 10:39

核心观点 - Noam Shazeer（沙哥）是Transformer八位作者中被公认贡献最大的一位，其工作奠定了当今大语言模型的基础[9][10] - 沙哥的技术预判能力极强，多次提前数年看到技术趋势并推动关键突破，如Transformer、MoE、Adafactor等[17][24][40] - 沙哥的职业生涯与谷歌深度绑定，期间主导了多项核心技术研发，如谷歌广告系统、垃圾邮件检测系统等[55][56][58] - 沙哥曾短暂创业Character.AI并获得10亿美元估值，后以27亿美元被谷歌收购并回归领导Gemini项目[67][69] 技术贡献 Transformer架构 - 沙哥在2017年加入Transformer项目后重新编写了整个代码，将系统提升到新水平，论文《Attention Is All You Need》引用量超17万次[18][21][23] - 该论文打破了学术界作者排序规则，八位作者随机排序并标注平等贡献，但沙哥的加入发挥了举足轻重的作用[23] MoE技术 - 沙哥早期与Geoffrey Hinton等合作的研究为MoE（专家混合）新范式埋下伏笔，提出1370亿参数的MoE架构[26][27] - 2020年参与GShard研究，将MoE模型扩展到6000亿参数[30][31] - 2021年Switch Transformers将参数规模推至1.6万亿，速度比T5-XXL快4倍[33][34] - 2022年ST-MoE-32B稀疏模型参数达2690亿，计算成本仅相当于320亿参数密集型模型[37] 其他关键技术 - 提出Adafactor优化器，早期谷歌大模型如PaLM都依赖该技术[43] - 发明Multi Query Attention（MQA）解决Transformer推理效率问题[44] - 提出Gated Linear Layer（GLU）改进Transformer架构的表达能力[46][47] 职业轨迹谷歌生涯 - 2000年加入谷歌成为第200号员工，开发了谷歌广告系统PHIL和首个垃圾邮件检测机器学习系统[55][56] - 2012年加入Google Brain后转向深度学习，推动神经机器翻译落地[58] - 2023年回归谷歌担任Gemini联合技术主管[59] 创业经历 - 2021年因谷歌未发布LaMDA项目与同事创立Character.AI[62][63] - 公司以"AI角色"概念获得2000万用户，2023年以10亿美元估值融资1.5亿美元[67] - 2023年8月被谷歌以27亿美元收购，沙哥回归领导Gemini[69] 行业影响 - 当前主流模型架构（如GPT-4、DeepSeek、Qwen3等）均建立在沙哥奠定的技术基础上[12][41] - 2020年内部信预测语言模型将主导全球算力，这一判断已被验证[72][73] - 曾担任OpenAI早期顾问并推荐Sam Altman担任CEO[70][71]

大语言模型

自然语言处理

Artificial Intelligence

Transformer

Mixture of Experts (MoE)

Adafactor优化器

大语言模型

自然语言处理

Artificial Intelligence

Transformer

Mixture of Experts (MoE)

Adafactor优化器