Mixture of Experts (MoE)

搜索文档

腾讯研究院· 2025-06-26 15:58

人工智能发展现状与挑战 - 当前大语言模型(LLM)已展现AGI的形式能力，能处理支离破碎或口语化语句并生成标准回复，但缺乏持续学习能力，训练后知识库即冻结[3][5] - LLM仅模仿大脑语言功能，缺失感知、记忆、导航等关键认知维度，被比喻为"瑞士军刀中的单一螺丝锥"[6] - OpenAI的GPT模型推测采用16个神经网络模块协同工作，2023年Mistral和Deepseek发布的混合专家模型(MoE)通过模块化提升计算效率[7] 模块化架构与技术突破 - 模块化系统面临协调难题，信息跨模块传递机制尚不明确，训练中可能出现"鸡与蛋悖论"导致崩溃[7][12] - 软注意力机制通过连续权重分配实现选择性聚焦，成为Transformer架构核心创新，但需避免硬性选择导致的训练中断[17][18] - 生成流网络引入周期性硬选择机制，采用双向训练解决突变节点问题，其高阶表征与人类神经活动高度相似[19] 全局工作空间理论应用 - 全局工作空间理论(GWT)认为意识是模块间信息交换平台，类似企业会议协调多模块协作[9][11] - 迪昂团队发现大脑模块每0.1秒进行信息竞赛，获胜信息进入全局工作空间接受集体审议[11] - Meta杨立昆提出判别式网络构建抽象表征，其配置器机制与GWT工作空间功能高度吻合[27][28] 跨模态与翻译技术 - 潜空间对齐技术通过旋转不同语言的词云实现无词典翻译，可拓展至图像-文本多模态转换[24][25] - 谷歌感知器模型将多模态数据融合至统一潜空间，自发呈现GWT核心特征如模块筛选与工作记忆[25] 意识本质的学术争议 - 迪昂认为具备自我监控的AI系统可能产生意识，而GWT创始人巴尔斯强调意识是生命体特有属性[30] - 预测加工理论主张意识源于未来事件预测模型，整合信息理论则将意识归因于生物网络结构效率[31] - 行业共识认为智慧是多元能力组合，需融合抽象思维、社会理解等模块才能实现真正类人智能[32]

Artificial Intelligence

General Artificial Intelligence (AGI)

global workspace theory (GWT)

soft - attention mechanism

latent space alignment

Artificial Intelligence

General Artificial Intelligence (AGI)

global workspace theory (GWT)

soft - attention mechanism

latent space alignment

Artificial Intelligence

一个「always」站在大模型技术C位的传奇男子

量子位· 2025-05-10 10:39

核心观点 - Noam Shazeer（沙哥）是Transformer八位作者中被公认贡献最大的一位，其工作奠定了当今大语言模型的基础[9][10] - 沙哥的技术预判能力极强，多次提前数年看到技术趋势并推动关键突破，如Transformer、MoE、Adafactor等[17][24][40] - 沙哥的职业生涯与谷歌深度绑定，期间主导了多项核心技术研发，如谷歌广告系统、垃圾邮件检测系统等[55][56][58] - 沙哥曾短暂创业Character.AI并获得10亿美元估值，后以27亿美元被谷歌收购并回归领导Gemini项目[67][69] 技术贡献 Transformer架构 - 沙哥在2017年加入Transformer项目后重新编写了整个代码，将系统提升到新水平，论文《Attention Is All You Need》引用量超17万次[18][21][23] - 该论文打破了学术界作者排序规则，八位作者随机排序并标注平等贡献，但沙哥的加入发挥了举足轻重的作用[23] MoE技术 - 沙哥早期与Geoffrey Hinton等合作的研究为MoE（专家混合）新范式埋下伏笔，提出1370亿参数的MoE架构[26][27] - 2020年参与GShard研究，将MoE模型扩展到6000亿参数[30][31] - 2021年Switch Transformers将参数规模推至1.6万亿，速度比T5-XXL快4倍[33][34] - 2022年ST-MoE-32B稀疏模型参数达2690亿，计算成本仅相当于320亿参数密集型模型[37] 其他关键技术 - 提出Adafactor优化器，早期谷歌大模型如PaLM都依赖该技术[43] - 发明Multi Query Attention（MQA）解决Transformer推理效率问题[44] - 提出Gated Linear Layer（GLU）改进Transformer架构的表达能力[46][47] 职业轨迹谷歌生涯 - 2000年加入谷歌成为第200号员工，开发了谷歌广告系统PHIL和首个垃圾邮件检测机器学习系统[55][56] - 2012年加入Google Brain后转向深度学习，推动神经机器翻译落地[58] - 2023年回归谷歌担任Gemini联合技术主管[59] 创业经历 - 2021年因谷歌未发布LaMDA项目与同事创立Character.AI[62][63] - 公司以"AI角色"概念获得2000万用户，2023年以10亿美元估值融资1.5亿美元[67] - 2023年8月被谷歌以27亿美元收购，沙哥回归领导Gemini[69] 行业影响 - 当前主流模型架构（如GPT-4、DeepSeek、Qwen3等）均建立在沙哥奠定的技术基础上[12][41] - 2020年内部信预测语言模型将主导全球算力，这一判断已被验证[72][73] - 曾担任OpenAI早期顾问并推荐Sam Altman担任CEO[70][71]

大语言模型

自然语言处理

Artificial Intelligence

Transformer

Mixture of Experts (MoE)

Adafactor优化器

大语言模型

自然语言处理

Artificial Intelligence

Transformer

Mixture of Experts (MoE)

Adafactor优化器