Workflow
注意力机制
icon
搜索文档
像大模型一样进化
腾讯研究院· 2026-01-05 16:44
人工智能发展历程与核心驱动力 - 大模型的成功是技术长期演化的结果,经历了从早期符号主义AI失败到深度学习崛起,再到Transformer成功的艰难历程[1] - 人工神经网络的目标函数宏大,旨在模拟大脑信息处理乃至实现通用人工智能,其开创性工作曾被视为疯狂[3] - OpenAI训练GPT的目标函数是使用巨大神经网络容纳所有人类知识以实现AGI,GPT-4已将几乎全部人类知识压缩进1.8万亿个参数[4] 规模化法则与目标设定 - 人工神经网络的成功背后是规模化法则,即参数规模越大,优化空间越广,实现目标的可能性越大[4] - 设定短期狭隘的目标函数容易实现,但可能导致模型陷入“局部最优”陷阱,限制了更广阔的发展空间[4] - 公司应避免陷入“局部最优”,即满足于阶段性成就而丧失长期发展机会,需设定宏大且持续演进的目标函数[4][6] 注意力机制与信息处理 - Transformer架构的核心是注意力机制,它通过评估文本中词语间的关联强弱来捕捉信息关系,实现高效精准的信息处理[19] - 注意力分配是学习的本质,高质量的数据输入至关重要,遵循“垃圾输入,垃圾输出”的第一性原理[20] - 公司应像AI一样,将注意力集中在高质量的数据和信息源上,以构建坚实的认知基座[20][21] 学习与优化方法论 - 随机梯度下降是广泛使用的优化算法,其原理是通过当前误差找到大致正确的方向并迈出一小步,逐步优化模型参数[10] - 大模型通过“预测→计算误差→反向传播→优化参数”的循环流程从错误中学习,所有知识和能力由此获得[11] - 大脑的预测编码机制与梯度下降异曲同工,通过预测与现实的差异产生误差信号,驱动学习和认知更新[12] 随机探索与认知发展 - 随机梯度下降的核心魅力在于能从不确定中找到确定性,无需执着于精确规划每一步,而应找准大致方向并坚持行动[13] - 起点(如家境、学历)对于梯度下降算法并不重要,关键在于持续沿着梯度方向前进[14] - 随机探索(如阅读陌生领域、与不同人交流)能避免陷入认知的局部最优,带来新的误差和认知增益,推动认知结构重构[15][16] 实例学习与归纳教学 - 联结主义AI通过海量实例(如图片)让神经网络自行探寻模式规律,效果优于符号主义AI直接灌输规则的方法[22] - 范例教学(归纳式教学)主张通过提供精选样例让学生主动归纳规则,这种方法能加深理解并促进知识迁移[23] - 在复杂生活场景中,抽象道理(预训练知识)不足以为决策提供直接指导,需要通过具体情境中的实践进行微调和强化学习[24][25] 选择性遗忘与注意力管理 - 人类超越大模型的关键能力之一是“选择性遗忘”,即有意识地强化重要记忆并主动遗忘低效或有害信息[25] - 选择性遗忘是一种认知优化策略,通过“先做加法,再做减法”的思维模式,使注意力聚焦于核心价值[25] - 接纳过去的不愉快经历并主动进行情绪上的选择性遗忘,能让注意力回归当下,重获内心的平静与自由[26]
Gemini 3预训练负责人警告:模型战已从算法转向工程化,合成数据成代际跃迁核心,谷歌碾压OpenAI、Meta的秘密武器曝光
36氪· 2025-12-26 20:21
Gemini 3 的发布与市场地位 - 2025年底,Gemini 3以“世界最强多模态理解”、“交互最深智能体”、“推理怪兽”的姿态,在多项权威基准测试中“横扫”并“碾压”全球所有同类模型,强势突围 [2] - 谷歌CEO桑达尔·皮查伊亲自为Gemini 3站台,称其为“迄今为止最智能的模型” [2] Gemini 3 性能表现(基于基准测试数据) - 在“Harlord's Lott Each”测试中,Gemini 3得分为57.68,而GPT-5.8为26.6% [3] - 在“ARC 404-2”测试中,Gemini 3得分为51.18,而GPT-5.8为17.0% [3] - 在“OPGA Distribution”测试中,Gemini 3得分为91.98,而GPT-5.8为8.7% [3] - 在“Albat 2026”测试中,Gemini 3达到95.05 (100%),而GPT-5.8为94.7% [3] - 在“Ventleye Stench 2”测试中,Gemini 3得分为$5,478.16,而GPT-5.8为$1,473.43 [3] 模型强大的核心原因 - Google DeepMind副总裁Oriol Vinyals指出,Gemini 3强大的核心秘诀在于“更好的预训练”和“更好的后训练” [2][10] - 预训练负责人Sebastian Borgeaud强调,Gemini 3的飞跃是无数细节持续优化的结果,而非单一环节的突破 [3] - 谷歌的研发模式已从单纯“做模型”转向“做系统”,其强大根源在于“研究、工程和基础设施”的深度融合 [3][16] - Gemini 3是在谷歌自研的TPU上进行训练的,体现了端到端的垂直整合优势 [16] 行业趋势与范式转变 - AI行业正从“无限数据”的规模化时代,迈入“数据有限”的新阶段 [4] - 在数据受限的背景下,合成数据、推理轨迹、长上下文、持续学习、端到端检索训练以及可靠的评估体系,共同构成行业未来的进化路径 [4] - 经典的Chinchilla项目结论在当下依然具有现实意义:在训练计算量固定的前提下,更快地扩展数据规模比盲目扩大模型规模更能训练出更优的模型,这直接影响模型推理的服务效率和使用成本 [4][22] 预训练的发展方向与创新重点 - 预训练的Scaling Law(规模定律)并未失效,规模依然重要,但架构创新和数据创新的权重已显著提升,甚至变得更为关键 [5][32] - 未来预训练的重点将转向架构创新,而非单纯追求“更大、更长、更贵” [7] - 长上下文和注意力机制是关键的创新变量,更长的上下文能让模型携带更多信息,拓宽能力边界 [7][37] - 更长期的方向是将检索与搜索以端到端、可微的方式深度融入训练,让“会检索”成为模型的内生能力 [7][39] - 公司内部有团队正在研究“后Transformer架构” [6][15] 对合成数据与数据策略的看法 - 对合成数据的使用持审慎态度,核心风险在于数据分布偏移可能导致模型陷入“自嗨”闭环 [5] - 建议的稳妥方案是:用强模型生成合成数据后,必须通过小规模可控消融实验验证其收益和潜在副作用 [5] - 一个核心研究问题是:用合成数据训练出的模型,能否超越生成数据的“老师”模型 [6][34] - Gemini 3的训练数据从一开始就是原生多模态的,融合了多种来源,为其多模态优势打下基础 [6][33] 持续学习与知识更新 - 基础模型一旦预训练结束,知识便基本定格,无法自动更新 [7] - 当前行业更可行的办法是在产品推理侧接入检索,将最新信息实时拉入上下文进行推理,从而避免频繁重训底座 [7] - 这与RETRO项目的思路一致,即将知识放在外部库,模型负责推理 [8] - 未来的目标是改变训练方式,让模型能在真实世界的数据流上持续训练,实现真正的“持续更新” [8][51] 评估体系的重要性 - 评估是预训练阶段的核心难题,如果评估体系跟不上,容易陷入“看似提升”的假象内耗 [8] - 公司内部搭建了专属的评估体系,因为外部基准很容易被污染,保留内部评估阵地是关键 [8][41] - 评估需要跨越两道鸿沟:一是小模型上的有效改进能否迁移到大模型;二是预训练阶段的优势能否在后训练后转化为真实可用的能力 [8][40] 成本与商业化考量 - 随着用户规模扩大,推理预算变得敏感,预训练环节必须为“上线落地”负责,在提升模型能力的同时,还要降低成本、节省资源 [8][52] - 原生多模态模型在处理图像等输入时,计算成本可能更高,但通过研究提升效率,其收益总体上远大于成本 [31] 模型架构细节 - Gemini 3是基于Transformer的混合专家(MoE)架构,其高层架构与上一代相比变化不大,性能飞跃是多个因素叠加的结果 [28][29] - MoE的核心思想是将“使用的计算量”和“参数规模”解耦,通过动态路由将计算分配到某些“专家”上执行 [30] 团队协作与研发文化 - Gemini 3的预训练团队规模庞大,日常参与人数可能在150到200人之间,成功是大团队共同协作的结果 [10][17] - 在谷歌/DeepMind,来自与其他实验室竞赛、强推基准目标的压力很少,领导层更重视研究进展与把研究做成 [26] 未来展望与行业影响 - 模型的能力进步不仅体现在基准测试上,更反映在内部人员使用模型提升生产力的真实工作场景中 [11] - 预测未来模型将更好地服务于科学研究,甚至可能助力获得诺贝尔奖,同时也会更深入地融入普通人生活,解决实际问题 [9][13] - 基础模型越来越强,对于不需要极度专门化的任务,使用通用模型更为合理,这改变了创业公司与研究者的关注点,如何更好地利用(harness)模型变得愈发重要 [55][56]
Scaling Law没死,Gemini核心大佬爆料,谷歌已有颠覆性密钥
36氪· 2025-12-22 09:05
公司技术路线与战略 - Google DeepMind的Gemini预训练负责人Sebastian Borgeaud预测,未来一年内,大模型预训练领域将在提升长上下文处理效率以及扩展上下文长度方面迎来重大技术创新 [1][2] - 公司内部认知发生根本性转变,工作重心从“训练模型”转向构建一个完整的、可长期运行和迭代的“系统”,这是Gemini 3实现颠覆性进步的关键 [6][7][8][31][32] - 公司高层(Jeff Dean, Oriol Vinyals, Noam Shazeer)在描述Gemini时,刻意强调其是一个“系统”而非“模型”,这反映了公司追求构建一套能反复使用、不断进化的智能工业体系,而非昙花一现的成品 [31][32][34] 行业技术发展趋势 - AI发展范式正在经历潜在转移,从过去依赖“无限数据”扩大数据集的粗放模式,转向在“数据有限”体制下,更高效利用数据资源、精雕细琢的精细模式 [10][12] - Scaling Law(缩放定律)并未消亡,而是正在演变 [6] - 未来的行业竞争焦点将从“谁的数据中心更大”转向“谁的学习算法更高效”、“谁的模型架构更优雅”、“谁能从有限数据中提取更多智慧” [12] 关键技术前沿方向 - **长上下文处理**:超长上下文能力将持续创新,未来一年左右将在使长上下文更高效、并进一步扩展上下文长度方面看到更多创新,这将把模型变成真正的数字工作台,为复杂多步任务和深度研究提供可能,是迈向更强大“智能体”的关键基础设施 [1][14][16] - **注意力机制进化**:在注意力机制上已有一些真正有趣的发现,这将塑造未来几个月的大量研究,可能从底层显著提升模型的理解、推理和计算效率 [4][18] - **检索技术整合**:长期的答案是以可微分的方式让模型在训练和推理时学习检索外部知识库,实现检索与推理更原生的结合,动态从海量知识源获取信息,从而突破参数规模的知识容量限制 [19] - **效率与成本革命**:随着用户激增,模型部署和服务成本变得至关重要,未来研究将不再只追求性能峰值,还必须关注如何让强大模型变得“便宜又好用” [21][22] 模型能力发展重点 - 当前模型并不缺“聪明”,缺的是持续思考并在复杂任务中反复修正的能力,即“慢思考”(Slow Thinking)能力 [29][30] - 模型评估标准正在变化,榜单衡量的瞬时表现重要性下降,而模型的可靠性、迁移能力以及在复杂任务中持续自我修正的能力变得更为关键 [30] - 大模型的规模依然重要,但它不再是决定一切的唯一变量,单纯靠堆参数就能不断前进的道路已接近边界 [29] 研发理念与信心 - 进步源于无数细微改进的聚合,是庞大团队中日复一日发现的那些“旋钮”和优化 [10] - 尽管面临数据瓶颈、成本挑战等现实问题,但一线研究者对AI进步的总体判断依然充满信心,认为有大量细微但确定的改进空间,整个领域尚未枯竭的创造活力,至少在未来几年,这种进步势头不会放缓 [23][25]
微软研究院路保同:用向量检索重塑模型注意力——Attention
36氪· 2025-11-17 16:02
技术核心与创新点 - 提出一种免训练、用于超长上下文推理的动态稀疏注意力方案Retrieval Attention,核心观点是每个Query实际上只需要和一小部分Key进行强交互即可,注意力本身是天然稀疏的[1][3] - 核心创新在于将向量检索机制引入注意力计算路径,通过近似最近邻检索找出对当前Query最相关的少量Key(如只找前1%),实现真正意义上的动态稀疏化[3][7] - 在系统架构上提出CPU-GPU协同的双路注意力机制:GPU负责保留少量"可预测"的局部KV缓存,而CPU以检索方式动态调用大规模KV存储,两路计算独立并行,最终融合结果[7][22] - 整个机制无需对模型进行重新训练,以可插拔模块形式接入现有Transformer,仅修改注意力层的前向逻辑,即可在不牺牲精度的前提下显著加速长上下文推理[8] 性能表现与基准测试 - 实测在RTX4090(24GB)上,8B级模型可在128K上下文下稳定生成,每token耗时约0.188秒,且与全注意力精度几乎一致[5] - 后续工作RetroInfer在A100 GPU上相比于全注意力实现了4.5倍的解码吞吐,并在1M token上下文时相比于其它GPU-CPU稀疏注意力系统实现了10.5倍的吞吐[5] - 在128K上下文长度下,Retrieval Attention的每token延迟为0.188秒,显著优于Full attention的43.927秒,且在不同上下文长度下延迟增长平缓[6] - 该方法通过极低的扫描比例(约1–3%)实现高召回率,使显存占用降至原来的约1/10,同时几乎不损失精度[7][22] 研究背景与设计思路 - 研究思路源于数据库管理系统与机器学习在底层资源有限情况下高效组织信息的共通问题,将传统数据库的"检索"逻辑迁移到模型层面[9][11] - 核心是将数据库中成熟的向量检索方法移植到语言模型推理过程中,让模型在生成时只访问"最相关"的信息,通过系统层设计让模型更高效利用已有记忆[11][14] - 将注意力机制理解为动态的信息检索系统,模型每生成一个新token都需要在已有语义空间里"查询"最相关信息,这与数据库执行查询请求的过程相似[18][19] - 研究目标是让模型的注意力机制变得更像一个"可控的数据库",使模型能主动查询、筛选、调用真正需要的信息,而非被动遍历全部上下文[20][21] 行业影响与未来方向 - 该项研究让模型具备了真正的"长时记忆"能力,使其能在极大范围内保持语义一致性,从"局部理解者"转变为"系统性推理者"[30][31] - 未来大模型推理框架不应再是"GPU-only",而应是一种充分利用CPU内存优势的混合架构,让更便宜、更可扩展的系统也能实现接近主流GPU集群的性能[28] - 长期看可能会推动重新理解"知识"的组织方式,未来可能出现具备自主知识管理能力的AI系统,能长期保留信息、持续学习,实现真正的可扩展性[32] - 动态注意力与系统优化未来可能会融合,形成一种既能主动学习、又能自我管理"记忆"的新型注意力体系[29]
HBM 之父大胆猜测:NVIDIA 可能买存储公司
半导体芯闻· 2025-11-04 17:48
行业趋势与战略合作 - NVIDIA执行长黄仁勋访韩,与三星电子和现代汽车集团会面,旨在加深在记忆体和AI超级工厂领域的合作 [2] - 行业专家指出,AI时代的主导权正从GPU转向记忆体,记忆体对于AI领域的重要性日益提升 [2] - 为解决AI推理阶段的记忆体瓶颈,国际大厂正寻求解决方案,记忆体在GPU封装内的价值贡献和技术难度越来越高 [3] 潜在并购与市场动态 - 为确保AI领域领导地位,NVIDIA可能并购记忆体公司,潜在目标包括美光或SanDisk,而非规模较大的三星或SK海力士 [2] - SanDisk股价在五天内上涨4.3%,达到199.33美元,部分原因是数据中心对NAND Flash需求增加 [2] AI推理与记忆体技术 - AI推理面临三大问题:输入内容过长导致“推不动”、回应速度“推得慢”、运算成本“推得贵” [4] - AI推理阶段采用类似人脑的“注意力机制”,并利用“KV快取”作为AI模型的短期记忆,以提升处理速度并避免重复计算 [5] - 记忆体需求分为三个层次:HBM用于储存实时记忆数据,容量为10GB至百GB级;DRAM作为短期记忆,容量为百GB至TB级;SSD用于长期记忆,容量为TB级到PB级 [4]
我MiniMax,用实习生处理数据,照样屠榜开源大模型
量子位· 2025-11-04 13:06
注意力机制选择 - 公司从Linear Attention回归到Full Attention,原因是经过测试发现Efficient Attention机制在长上下文任务中性能大幅下降,而Full Attention在稳定性和可靠性方面表现更优[11][12][13] - 团队测试了多种Efficient Attention变体包括GDN和Mamba2,但实际表现均不及Full Attention[14][15] - 当前评测系统不完善,常用榜单无法有效区分Efficient Attention与Full Attention的性能差异,但在多跳推理或长链逻辑等复杂任务中Efficient Attention劣势明显[21][22] 数据处理策略 - 公司通过雇佣实习生处理数据来证明其数据处理流程的成熟度,即使缺乏经验的人员也能达到预期效果[24][27] - 数据质量衡量标准聚焦于思维链和Response两个维度,其中思维链要求逻辑完整且表述简洁,Response部分则刻意引入格式多样性以避免对特定榜单格式的过拟合[31][32][34][35] - 公司构建了基于规则和大模型判断的数据清洗流程,专门针对典型bad case进行清理,以消除模型幻觉和指令未遵循等问题[37][38] 模型思考模式创新 - 公司提出"交错式思维链"策略,使思考过程在显式推理与工具调用之间交替进行,形成"计划→行动→反思"循环,显著提升长链任务容错率和环境扰动适应能力[45][46][47][48] - 为解决模型工具调用能力泛化不足的问题,公司设计覆盖全轨迹扰动的数据链路,模拟工具变化、系统提示语调整、环境参数异常等多种真实场景,增强模型在不确定性中的任务完成能力[50][51][52] 技术发展路径 - 公司技术决策以工程理性为导向,优先考虑模型在真实任务中的稳定性与可用性,而非盲目追求算力节省,这一思路在MoE架构探索阶段已得到验证[53][54][55] - 模型定位强调实用性,旨在为开发者提供落地工具,注重解释逻辑和系统性迭代,而非参数堆叠的"炫技模型"[56][57]
20分钟读懂AI史上最重要的一篇论文——《Attention Is All You Need》
虎嗅· 2025-10-22 21:05
行业技术发展 - Transformer架构于2017年通过论文《Attention Is All You Need》首次提出,彻底改变了人工智能的技术路径 [1] - 该架构推动了全球AI领域的“军备竞赛”,并催生了包括OpenAI在内的行业巨头迅速崛起 [1] 核心技术解析 - Transformer的核心思想源自注意力机制,涉及Q/K/V、多头注意力、位置编码以及Decoder的mask机制等关键概念 [1] - 该技术实现了从逐字生成文本的功能,其原理可通过基础数学概念理解 [1] 行业人才动态 - 提出Transformer架构的8位论文作者均已离开Google并投身创业 [1] - 这些创始人在创业过程中创造了惊人的财富传奇 [1]
人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能
中原证券· 2025-10-16 19:46
报告行业投资评级 - 行业投资评级:强于大市(维持)[1] 报告核心观点 - DeepSeek的稀疏注意力机制(特别是NSA和DSA)通过提升计算效率和拓展模型上下文,为AI产业释放了更大的发展潜能,将成为推动模型能力不断突破的重要支撑[8][37] 注意力机制与大模型发展的关系 - 注意力机制模仿人类选择性关注关键信息的能力,解决了长序列遗忘问题[11] - 稀疏注意力将计算复杂度从O(L²)降至亚平方级(如O(L*log L)、O(L*k)),突破内存与算力瓶颈[11] - 经过多代技术迭代,大模型上下文已扩充到128K甚至是1M的长度水平[11] DeepSeek在注意力机制方面的技术改进 - MLA:DeepSeek在V2中引入多头潜在注意力,将注意力分数的显存占用减少约90%,成为R1成本显著低于头部模型的重要因素[12][16] - NSA:2025年2月提出的原生稀疏注意力,通过算法和硬件协同优化,将长文本处理速度提升11倍,可实现与全注意力模型相当或更优的性能[8][18] - DSA:2025年9月V3.2-Exp引入的稀疏注意力机制,带来训练推理效率大幅提升,API价格大幅降价超50%[8][23] DSA和NSA的技术特点对比 - NSA参与整个预训练过程,DSA基于V3.1-Terminus基座继续预训练而来,可低成本进行稀疏注意力探索[27] - DSA通过TileLang实现,NSA选用OpenAI开源的Triton,TileLang可实现更多深度优化,更有利于国产芯片生态适配[27] - DSA通过"闪电索引器"逐词判断找出重要词汇(2048个)进行细粒度稀疏计算,NSA将文本分成"块"分三层挑重点[30] 稀疏注意力对AI产业的影响 - 稀疏注意力带来的计算效率提升和模型上下文拓展,将为后训练释放更大的发展潜能[37] - V3.2-Exp的API调用价格显著降低:输入缓存命中时价格为R1的20%(0.2元/百万Tokens),输入缓存未命中时为R1的50%(2元/百万Tokens),输出价格为R1的19%(3元/百万Tokens)[23] - 成本的下降意味着模型具有更好的性价比和可推广性,将促进应用端实现更多功能落地[23]
老牌Transformer杀手在ICLR悄然更新:Mamba-3三大改进趋近设计完全体
机器之心· 2025-10-14 16:24
行业技术背景 - Transformer架构是当前AI模型的主流架构,但其挑战者不断涌现 [1] - 基于状态空间序列模型(SSM)架构的Mamba是Transformer最具影响力的挑战者之一,于2023年在社区爆火 [2] - Mamba在语言建模方面可媲美甚至击败Transformer,并能随上下文长度增加实现线性扩展,在处理百万token长度序列时实现5倍的推理吞吐量提升 [3] Mamba系列模型发展历程 - Mamba-1在2024年的ICLR会议上被拒稿,但在半年后发布的Mamba-2被顶会ICML 2024接收 [4] - Mamba-2的核心改进是对Mamba-1的选择性SSM进行优化,速度提高了2-8倍 [4] - Mamba-3目前已提交至ICLR 2026,正处于盲审环节 [6] Mamba-3核心技术改进 - 采用梯形离散化方法对连续时间动力系统进行离散化,使状态更新同时结合区间起点和终点的信息 [10][11] - 通过复数化状态空间模型实现更具表达力的状态更新机制,该机制等价于一种数据依赖的旋转位置编码 [13] - 引入多输入多输出状态空间模型(MIMO SSM),从单输入单输出系统泛化到多输入多输出系统,极大提升GPU并行吞吐效率 [14][15] Mamba-3性能表现 - Mamba-3-1.5B模型在所有下游任务上的平均准确率优于同等规模的Transformer、Mamba-2和Gated DeltaNet模型 [19] - 在440M参数规模下,Mamba-3-MIMO版本的FW-Edu困惑度为12.72,优于Mamba-2的13.00和Mamba-3标准版的12.87 [21] - 在bf16精度、d_state=128配置下,Mamba-3的SISO和MIMO版本的延迟分别为0.152毫秒和0.185毫秒,均低于Mamba-2的0.203毫秒 [27] 应用场景与潜力 - Mamba-3的高效长序列处理能力使其非常适合长文档理解、科学时间序列分析和基因建模等Transformer表现不佳的领域 [30] - 其线性时间推理和稳定延迟特性使其适合实时交互场景,如聊天助手、机器翻译和语音接口 [31] - 友好的硬件特性使Mamba-3有潜力在本地设备或边缘侧运行,实现不依赖云端的大模型推理 [31]
从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”
AI科技大本营· 2025-09-23 10:11
Transformer架构的诞生与影响 - 2017年论文《Attention Is All You Need》提出彻底抛弃循环神经网络,仅使用注意力机制处理语言,其提出的Transformer架构重塑了人工智能版图[2] - 该论文在Google Scholar上的引用次数高达197,159次,成为大模型理论的奠基性文章,开启了人工智能新纪元[2][17] - Transformer架构以其无与伦比的并行计算能力和对长距离依赖的出色捕捉,迅速成为自然语言处理领域的全新范式,并辐射到计算机视觉、语音识别等AI子领域[17] 核心人物Lukasz Kaiser的学术背景 - Lukasz Kaiser拥有波兰弗罗茨瓦夫大学计算机科学与数学双硕士学位,并在德国亚琛工业大学获得博士学位,专攻"自动结构上的逻辑与博弈"这一艰深领域[7] - 2009年其博士论文荣获E.W. Beth dissertation prize,这是全球逻辑、语言和信息领域的最高学术荣誉之一,证明其在纯粹理论科学领域达到世界顶尖水平[8] - 博士毕业后受聘于巴黎狄德罗大学LIAFA实验室,成为法国国家科学研究中心终身研究员,拥有稳定的学术职位和完全的研究自由[9] 从学术界到工业界的转型 - 2013年Kaiser辞去法国终身研究员职位加入谷歌大脑,这一决定源于对"重复"的厌倦和对"变革"的极度渴望,从"证明"转向"构建"的冲动[10][11] - 当时自然语言处理领域被循环神经网络统治,但RNN存在长距离依赖问题和串行处理缺陷,与GPU和TPU的并行架构不匹配[12][14] - Kaiser团队最初将注意力机制作为RNN的增强补丁,但最终提出完全基于注意力的新模型构想,彻底推翻了RNN的统治地位[14][15] Transformer八子的分化与Kaiser的选择 - Transformer八位作者中七位已踏上创业之路,成为AI产业浪潮中的商业巨擘,如Aidan Gomez创立Cohere、Noam Shazeer创立Character.ai等[4][24] - Lukasz Kaiser是八子中唯一未创业的科学家,于2021年离开工作八年的谷歌,加入以AGI为最终使命的OpenAI,继续坚守技术研究最前线[4][24][25] - 在OpenAI期间,Kaiser深度参与并主导了GPT-4、GPT-5以及代号为"o1"和"o3"的推理模型等核心研发工作[4][27] 通用人工智能的探索历程 - 2017年Kaiser参与发表论文《One Model To Learn Them All》,提出MultiModel单一模型同时处理八个不同任务,是AGI追求的第一次公开实践[20][22] - 该研究证明统一深度学习架构有潜力联合学习跨领域知识,尽管单项任务表现未超越专业模型,但为通用智能探索开辟了新方向[22] - Kaiser认为AI下一阶段关键在于教会模型"思考",通过生成更多中间步骤进行深度推理,而不仅仅是直接输出答案[29] 行业技术发展趋势 - AI发展经历了从2014年"证明可行性"到2017年"架构创新",再到2019年"自监督预训练"以及2021年"规模定律",最终到2023年"数据质量与RLHF"的进化路径[27] - 未来计算力将从大规模预训练转向在少量高质量数据上进行海量推理计算,预示着AI即将迎来又一次范式转移[29] - 多模态融合、模型规模持续提升以及AI能力通过API和云服务形式普及,已成为行业明确的发展方向[31]