Workflow
Mixture of Experts (MoE)
icon
搜索文档
从语言到意识的“一步之遥”,AI究竟要走多远?
腾讯研究院· 2025-06-26 15:58
人工智能发展现状与挑战 - 当前大语言模型(LLM)已展现AGI的形式能力,能处理支离破碎或口语化语句并生成标准回复,但缺乏持续学习能力,训练后知识库即冻结[3][5] - LLM仅模仿大脑语言功能,缺失感知、记忆、导航等关键认知维度,被比喻为"瑞士军刀中的单一螺丝锥"[6] - OpenAI的GPT模型推测采用16个神经网络模块协同工作,2023年Mistral和Deepseek发布的混合专家模型(MoE)通过模块化提升计算效率[7] 模块化架构与技术突破 - 模块化系统面临协调难题,信息跨模块传递机制尚不明确,训练中可能出现"鸡与蛋悖论"导致崩溃[7][12] - 软注意力机制通过连续权重分配实现选择性聚焦,成为Transformer架构核心创新,但需避免硬性选择导致的训练中断[17][18] - 生成流网络引入周期性硬选择机制,采用双向训练解决突变节点问题,其高阶表征与人类神经活动高度相似[19] 全局工作空间理论应用 - 全局工作空间理论(GWT)认为意识是模块间信息交换平台,类似企业会议协调多模块协作[9][11] - 迪昂团队发现大脑模块每0.1秒进行信息竞赛,获胜信息进入全局工作空间接受集体审议[11] - Meta杨立昆提出判别式网络构建抽象表征,其配置器机制与GWT工作空间功能高度吻合[27][28] 跨模态与翻译技术 - 潜空间对齐技术通过旋转不同语言的词云实现无词典翻译,可拓展至图像-文本多模态转换[24][25] - 谷歌感知器模型将多模态数据融合至统一潜空间,自发呈现GWT核心特征如模块筛选与工作记忆[25] 意识本质的学术争议 - 迪昂认为具备自我监控的AI系统可能产生意识,而GWT创始人巴尔斯强调意识是生命体特有属性[30] - 预测加工理论主张意识源于未来事件预测模型,整合信息理论则将意识归因于生物网络结构效率[31] - 行业共识认为智慧是多元能力组合,需融合抽象思维、社会理解等模块才能实现真正类人智能[32]
一个「always」站在大模型技术C位的传奇男子
量子位· 2025-05-10 10:39
核心观点 - Noam Shazeer(沙哥)是Transformer八位作者中被公认贡献最大的一位,其工作奠定了当今大语言模型的基础[9][10] - 沙哥的技术预判能力极强,多次提前数年看到技术趋势并推动关键突破,如Transformer、MoE、Adafactor等[17][24][40] - 沙哥的职业生涯与谷歌深度绑定,期间主导了多项核心技术研发,如谷歌广告系统、垃圾邮件检测系统等[55][56][58] - 沙哥曾短暂创业Character.AI并获得10亿美元估值,后以27亿美元被谷歌收购并回归领导Gemini项目[67][69] 技术贡献 Transformer架构 - 沙哥在2017年加入Transformer项目后重新编写了整个代码,将系统提升到新水平,论文《Attention Is All You Need》引用量超17万次[18][21][23] - 该论文打破了学术界作者排序规则,八位作者随机排序并标注平等贡献,但沙哥的加入发挥了举足轻重的作用[23] MoE技术 - 沙哥早期与Geoffrey Hinton等合作的研究为MoE(专家混合)新范式埋下伏笔,提出1370亿参数的MoE架构[26][27] - 2020年参与GShard研究,将MoE模型扩展到6000亿参数[30][31] - 2021年Switch Transformers将参数规模推至1.6万亿,速度比T5-XXL快4倍[33][34] - 2022年ST-MoE-32B稀疏模型参数达2690亿,计算成本仅相当于320亿参数密集型模型[37] 其他关键技术 - 提出Adafactor优化器,早期谷歌大模型如PaLM都依赖该技术[43] - 发明Multi Query Attention(MQA)解决Transformer推理效率问题[44] - 提出Gated Linear Layer(GLU)改进Transformer架构的表达能力[46][47] 职业轨迹 谷歌生涯 - 2000年加入谷歌成为第200号员工,开发了谷歌广告系统PHIL和首个垃圾邮件检测机器学习系统[55][56] - 2012年加入Google Brain后转向深度学习,推动神经机器翻译落地[58] - 2023年回归谷歌担任Gemini联合技术主管[59] 创业经历 - 2021年因谷歌未发布LaMDA项目与同事创立Character.AI[62][63] - 公司以"AI角色"概念获得2000万用户,2023年以10亿美元估值融资1.5亿美元[67] - 2023年8月被谷歌以27亿美元收购,沙哥回归领导Gemini[69] 行业影响 - 当前主流模型架构(如GPT-4、DeepSeek、Qwen3等)均建立在沙哥奠定的技术基础上[12][41] - 2020年内部信预测语言模型将主导全球算力,这一判断已被验证[72][73] - 曾担任OpenAI早期顾问并推荐Sam Altman担任CEO[70][71]