Transformer
搜索文档
Transformer能否支撑下一代Agent?
钛媒体APP· 2025-12-22 15:39
文章核心观点 - 多位AI领域顶尖专家和学者认为,当前主导AI发展的Transformer架构存在根本性局限,无法支撑下一代智能体(Agent)和通用人工智能(AGI)的发展,行业正从依赖算力与数据规模扩张的“规模化时代”,回归到底层创新的“研究时代”[1][11][15] Transformer架构的成就与当前地位 - 自2017年Google论文《Attention Is All You Need》提出后,Transformer架构凭借其自注意力机制和并行计算能力,成为过去七年AI模型(如BERT、GPT系列、DeepSeek)的基石,并推动了以英伟达GPU和Scaling Law为核心的AI浪潮[2][3] - 该架构与GPU的结合被比喻为“内燃机遇上了石油”,直接引爆了第三次工业革命级的人工智能浪潮[3] 专家对Transformer局限性的批判 - **缺乏因果推理与物理理解**:Transformer本质上是基于海量数据的概率预测(下一个Token预测),擅长发现统计相关性,但无法理解背后的因果逻辑和物理规律[4][5] - **类比为死记硬背的优等生**:前OpenAI联合创始人Ilya Sutskever比喻当前模型像练习了一万小时、背下所有考题的学生,缺乏真正的泛化能力和深刻直觉,遇到新领域表现会大打折扣[4][5] - **长上下文处理存在“退化”问题**:阶跃星辰张祥雨指出,当前Transformer模型在处理长文本(如超过8万个Token)时,智商(性能)会快速下降,因为其信息流单向、思考深度固定,无法进行“慢思考”[6] - **视觉与物理世界的理解无力**:李飞飞指出,仅靠语言不足以构建AGI,将预测下一个词移植为预测下一帧视频的方法,导致生成的视频缺乏时空一致性[8] - **样本效率低下**:相比人类依靠先验知识和本能快速学习(如十几小时学会开车),AI需要海量数据训练,试图通过穷举数据来掩盖对物理规律认知的匮乏[9][10] 对未来AI架构发展的展望 - **行业进入“研究时代”**:Ilya Sutskever判断,行业正告别“规模化时代”(2020-2025),重新回到注重底层创新的“研究时代”(2012-2020),利用现有巨大算力寻找新配方[11] - **新架构将是系统性重构**:未来架构可能是一种混合体,内核是高度抽象的因果逻辑,接口是丰富的感官世界[12] - **具体技术方向**:包括李飞飞World Labs致力于构建具有“空间智能”的模型;张祥雨透露了“非线性RNN”方向,支持内部循环、反刍和推理;以及发展更高效的强化学习范式,让AI具备持续学习和内部价值函数[12] - **新架构需要新的数据与硬件**:视频数据、物理世界传感器数据、机器人交互数据价值将重估;硬件基础设施可能面临洗牌,专用芯片或受挑战,通用GPU的灵活性可能再次成为优势[13][14] 对行业的影响与结论 - Transformer是一座丰碑但非终点,其在因果推理、物理理解和无限上下文上的缺陷,注定只是通往AGI道路上的垫脚石[15] - 未来五年,Transformer可能逐渐退居幕后成为子模块,一种融合空间智能、具身交互和深度逻辑推理的新架构将走上台前,这对科技公司既是巨大挑战也是难得机遇[15][16]
AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢
36氪· 2025-12-22 07:25
文章核心观点 - AI领域两位关键人物Geoffrey Hinton与Jeff Dean在NeurIPS 2025的对话回顾了人工智能发展的关键历史节点、重要突破的幕后轶事以及行业未来的发展方向,揭示了从早期神经网络研究到当今大规模模型竞赛中,算力规模、关键算法创新以及公司战略决策所扮演的核心角色 [1][4][54] AI研究的关键突破与顿悟 - Geoffrey Hinton关于模型规模扩展重要性的顿悟源于2014年听取Ilya Sutskever的报告,此前在80年代末曾错过因并行计算硬件复杂而放弃扩大模型规模的早期信号 [13] - Jeff Dean在1990年的本科毕业论文中已探索用于训练神经网络的并行算法,使用了32个处理器的超立方体计算机,并发明了早期的“数据并行”和“模型并行”概念,但因仅拆分10个神经元的层而未同步扩大模型规模导致性能不佳 [7][11] - 2012年AlexNet的成功源于纠正权重衰减参数错误、使用ImageNet大型数据集以及学生Alex Krizhevsky在卧室用两块英伟达GTX 580 GPU完成训练,该8层神经网络此前曾被评审认为“不可能产生任何工业影响” [17][18][21][23] 谷歌大脑的诞生与早期验证 - 谷歌大脑的雏形源于Jeff Dean与Andrew Ng在茶水间的一次闲聊,Andrew Ng提到其学生用神经网络取得不错成果,促使Jeff Dean思考利用谷歌海量CPU训练超大神经网络 [25][26] - 谷歌大脑早期进行了一次著名实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别“猫”,该模型采用局部连接方式,参数达20亿,动用了16000个CPU核心 [28] - 在AlexNet出世前一年,谷歌大脑已通过实验观察到“更大的模型、更多的数据、更多的算力”带来更好效果,验证了后来的Scaling Laws [31] 关键人才与公司的战略决策 - 2012年,64岁的Geoffrey Hinton以“实习生”身份加入谷歌,成为Jeff Dean的实习生,起因是Andrew Ng转向Coursera并推荐Hinton接棒 [32][33] - AlexNet成功后,Hinton成立DNN Research公司并举办拍卖会,谷歌、微软、百度等公司参与争夺,地点设在南太浩湖赌场,每次加价至少100万美元,Hinton内心早已决定让谷歌获胜,部分原因源于其夏季的实习生经历 [35][36][38] - 2014年,Hinton参与的“模型蒸馏”论文被NeurIPS拒稿,审稿人不理解其想法,但该技术后来成为大语言模型的核心技术之一 [40] Transformer的诞生与行业影响 - Transformer的灵感来源于序列到序列的工作,旨在解决LSTM的顺序依赖和状态压缩瓶颈,其核心思想是保存所有状态并施加注意力机制,该机制早期由Bahdanau等人引入 [43] - Transformer被证明非常优雅,因为它可以并行计算所有状态,且用少10到100倍的算力即可达到同等甚至更好的效果,但谷歌内部最初并未将其视为“鹤立鸡群”的突破 [45] - 2023年ChatGPT的发布让谷歌内部拉响“红色警报”,Jeff Dean撰写备忘录承认“自己犯傻”,因为公司早已知道算力规模与模型质量强相关,但将研究想法、人力和算力切割得太碎,随后促成了Google Brain与DeepMind合并为Google DeepMind,直接催生了Gemini模型 [46][48] 公司的竞争优势与未来方向 - 谷歌强调硬件与模型的“协同设计”,研究人员与硬件团队紧密合作布局未来2-6年的趋势,甚至用强化学习优化芯片布局布线,提升了芯片质量并加速研发流程,其TPU硬件构成强大护城河 [48][50][51] - 对于AI未来,Jeff Dean兴奋的方向之一是扩展注意力机制的触达范围,从百万Token到数万亿,让模型直接访问所有科学论文和视频,而非将信息压缩进权重,这需要硬件创新及更节能、性价比更高的推理芯片 [52] - 未来将探索更动态、脑启发的架构以改进目前模型缺乏“持续学习”、训练后固定不变的现状,混合专家模型的结构被认为“不算太有意思” [54] - 预测未来20年,AI将导致许多工作消失,但不确定是否会创造足够的新工作替代,同时AI有望加速科学发现,连接不同领域并自动化发现闭环,医疗与教育领域将发生剧烈变革,大模型能压缩巨量知识并发现跨领域的远距离类比 [56]
遥遥无期的AGI是画大饼吗?两位教授「吵起来了」
机器之心· 2025-12-21 12:21
文章核心观点 - 文章围绕“AGI能否实现”这一核心议题,呈现了两种对立的观点:一种基于物理和成本限制认为AGI和超级智能无法实现[3][7][28],另一种则认为当前AI系统在软硬件效率上仍有巨大提升空间,通往更强AI的道路多样,实用化的“类AGI”能力可能并不遥远[33][36][66] 对AGI的悲观论据(物理与成本限制) - **计算受物理规律制约**:计算是物理过程,需要在局部计算与全局信息移动间取得平衡,随着晶体管缩小,计算变便宜但内存相对变贵,芯片面积主要被内存占据,导致算力可能因内存服务不足而成为“无效算力”[8][10][11] - **Transformer架构已接近物理最优**:该架构以最简单方式结合了局部计算与全局信息汇聚,是对信息处理单元的物理层面优化[11][12] - **线性进步需要指数级资源**:在物理现实和观念空间中,要获得线性改进,所需投入的资源呈指数级增长,观念创新因领域庞大而边际收益递减[13][15] - **GPU进步已停滞**:GPU在“性能/成本”指标上于2018年左右达峰,后续改进多为一次性特性(如16位精度、Tensor Core、HBM等),现已走到尽头,任何进一步改进都将是权衡而非纯收益[16][17] - **规模化收益面临极限**:过去GPU的指数级增长对冲了规模化所需的指数级成本,但现在规模化已变成指数级成本,物理极限可能在一到两年内逼近,规模化收益不再显著[20] - **基础设施优势可能迅速蒸发**:若研究/软件创新、强大的开源推理栈或向其他硬件平台迁移取得突破,前沿实验室的大规模基础设施优势可能一夜消失[21][22][26] - **超级智能是幻想**:超级智能自我改进引发爆炸增长的前提错误,智能改进受物理现实和缩放规律制约,线性改进需指数级资源,其发展更可能是填补能力空白而非推动边界外扩[28][29] - **AGI需具备物理执行能力**:真正的AGI需包含能在现实世界完成经济意义工作的实体机器人,但机器人领域数据收集成本高昂,现实细节复杂,许多问题经济上并不划算[25][27] 对AGI的乐观论据(效率与创新空间) - **当前AI系统被严重低估,效率远未达上限**:训练效率比几年前更低,例如DeepSeek-V3和Llama-4训练的MFU仅约20%,而2022年的BLOOM项目已达50%,当前模型设计并非为最高硬件利用率[39][41] - **推理效率存在更大提升空间**:最优化推理实现关注带宽利用率(MBU),FLOP利用率(MFU)常为个位数(<5%),这并非物理根本极限,而是当前自回归架构规模化带来的限制[43][44] - **新一代硬件提供显著算力提升**:Blackwell架构芯片的FP8吞吐量是Hopper的2.2倍,并支持原生FP4 Tensor Core,GB200等机架级方案可缓解通信瓶颈,高效FP4训练理论上可将可用FLOPs提升最多9倍[42][50] - **模型是硬件的滞后指标**:当前模型反映的是上一代硬件能力,而新一代超大规模集群(如10万卡以上)正在建设,意味着高达50倍的算力建设正在发生[47][48] - **明确的效率提升路径**:通过训练高效的架构协同设计、高质量高效率的FP4训练、推理高效的模型设计(如扩散式语言模型)等方式,可大幅提升硬件利用率[45][46][52] - **已有AI工具产生巨大经济影响**:以更务实的定义,一套在某些任务上比大多数人做得更好并能产生巨大经济影响的通用工具体系,可能并不遥远,例如当前模型已在编程等领域越过关键阈值[60][61] - **即便能力不提升,应用场景仍广阔**:假设模型能力冻结,系统层面的效率改进也足以让许多高影响力应用落地,且通过新的后训练范式、更好的样本效率等方法,可继续推进“有用AI工具”[62][63][65] 行业路径与理念差异 - **中美AI发展路径不同**:美国遵循“赢家通吃”思路,追求构建最大最强的超级智能模型;中国理念更侧重应用,认为模型能力本身没有应用重要,关键是实用性和以合理成本提升生产力[23][24] - **不同理念的可持续性**:在模型能力增速放缓的背景下,追求超级智能的目标可能遭遇困难,而推动AI经济扩散的务实思路可能更具长期优势[24][30]
为什么现代 AI 能做成?Hinton 对话 Jeff Dean
36氪· 2025-12-19 08:47
现代AI从实验室走向规模化的系统性复盘 - 现代AI的突破是算法、硬件、工程同时成熟后的系统性涌现,而非单点奇迹[1] - 强算法必须与强基础设施结合,才能真正走向规模化[1] 起点突破:硬件让AI从想法变成现实 - **早期算力觉醒**:2012年AlexNet的成功证明了足够算力对深度学习的决定性作用,其参数比别人多十倍,算力也超出好几倍[2][3] - **早期并行计算探索**:Jeff Dean在1990年就尝试用32处理器的超立方体计算机进行数据并行和模型并行训练,尽管当时因只用了10个神经元而失败[3][4] - **推理成本驱动硬件自研**:2013年Jeff Dean计算发现,若1亿人每天使用语音助手3分钟,将使谷歌服务器总量翻倍,这直接推动了TPU项目的启动[5][6][8] - **专用硬件的发展**:2015年第一代TPU专注于推理,其能效比同期CPU和GPU高出30-80倍;2017年TPU v2开始用于大规模训练;如今TPU已进化到第七代,Pathways系统可统一调度数万颗跨数据中心芯片[8] - **硬件生态多元化**:AI基础设施呈现多元化趋势,NVIDIA GPU路线持续演进(如H100、H200、B200),支撑着OpenAI、Meta等公司的大规模训练;同时,定制芯片如Google TPU和AWS Trainium为特定需求深度优化,在能效和成本上具有独特价值[9] 系统成熟:算法、组织、工具的协同推进 - **算法架构的可扩展性**:Transformer架构的突破在于将顺序处理变为并行处理,所有token同时计算,充分利用硬件并行能力。同样的准确率,Transformer使用的计算量比LSTM少10-100倍,使大规模训练从“理论可能”变为“工程可行”[10] - **组织方式的集中化**:在ChatGPT发布前,谷歌内部已有技术可行的聊天机器人,但受搜索业务思维限制及内部资源分散(Brain、Research、DeepMind三个团队各自为战)未能推向市场。ChatGPT上线后,谷歌整合资源成立了Gemini团队,将算力、模型、人才集中到一个目标上[11][12] - **工程工具栈的闭环形成**:JAX让研究员能用数学语言直接写代码;Pathways让数万颗TPU能被一个Python进程调度;蒸馏技术可将千亿参数模型压缩到能在手机上运行。这些工具降低了AI的准入门槛,提升了效率[13] - **三条曲线的交汇**:Transformer让模型能规模化,但需要更大算力支撑;更大算力需要组织资源集中,同时催生了更好的工具;更好的工具提升训练效率,反过来支撑了更大模型的训练。三者形成闭环,缺一不可[14][15] 未来门槛:规模化后需突破的三大挑战 - **能效:规模化的物理极限**:模型升级意味着消耗更多电力、时间和预算。Gemini的训练动用了上万颗TPU芯片。虽然谷歌通过自研TPU和采用FP4等超低精度格式来提升能效,但下一代推理硬件仍需在能效上再提升一个数量级[16][17] - **记忆:上下文的深度限制**:当前最强模型的上下文窗口也不过几百万个token,限制了其一次性能处理的信息深度。未来的目标是让模型能覆盖数十亿甚至万亿个token,这需要算法和芯片注意力计算架构的重新设计[18][19][20] - **创造:从模仿到联想**:AI在训练海量知识时,会通过压缩过程自动学习到不同事物之间的共同点或类比,这本身就是一种将遥远事物联系起来的创造力。这种能力被认为是AI下一阶段加速科学发现的关键[21][22][23] - **挑战的关联性**:能效是物理成本问题,记忆是架构能力问题,创造是认知边界问题。三者相互关联:能效不突破,长上下文训练成本过高;长上下文做不到,深度联想没有基础;联想能力不行,AI就永远只是个更快的搜索引擎[24][27]
AI大牛张祥雨:Transformer撑不起Agent时代
第一财经· 2025-12-18 18:52
核心观点 - 当前AI领域的核心架构Transformer存在根本性技术瓶颈,其单向信息流设计导致模型在处理长上下文时智商快速下降,无法支撑具备长期记忆和持续学习能力的通用智能体(Agent)的下一步发展 [1][3][4] 行业技术瓶颈与现状 - Transformer架构是当前生成式AI和大语言模型的基石,其核心创新在于“自注意力机制” [1] - 行业看似进入“稳态”,各种创新模型架构最终都收敛到以Transformer为核心的变体上 [3] - 针对长上下文处理效率瓶颈,业界通过线性注意力、稀疏注意力等技术进行“小修小补”,但未改变Transformer的本质建模能力 [3] - 当前Transformer模型,无论宣称支持多少Token,基本上到8万个就不可用 [3] - Transformer的单向信息流设计缺乏从深层向浅层的反馈与压缩机制,与人类大脑的“无限流”记忆机制存在本质差异 [3] 技术缺陷的具体分析 - 人类大脑能对海量经历进行动态压缩和选择性回溯,而Transformer结构无法实现这种类似“无限流”世界的智能处理需求 [4] - 模型的智商会随着文本变化快速下降,制约了AI向具备高度自主性、能长期持续学习的通用Agent演进 [3][4] - 人类记忆是历史上所有信息的函数,无法用层数固定的网络来表示 [4] 行业反思与探索 - Transformer架构的共同创造者Llion Jones已开始寻找下一次重大突破,并警告研究者因过度依赖现有架构而错失下一个重大突破的风险正在加剧 [4] - Mamba、TTT(Test-Time Training)等新架构正吸引越来越多目光 [4] - 英伟达、Meta、腾讯等巨头已在探索将Mamba与Transformer融合 [4] - 中国科学院自动化所与沐曦合作研发的类脑脉冲大模型“瞬悉1.0”,展示了构建非Transformer架构生态的可行性 [4] 公司研发动态 - 阶跃星辰团队正在探索新的架构方向,一些小规模实验已取得积极结论 [5] - 公司认为未来的架构可能是基于非线性递归网络的全新架构 [5] - 这种架构革新将给系统效率和可并行度带来巨大挑战,需要协同设计才能落地 [5]
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
量子位· 2025-12-15 16:05
AI演进与生物进化的类比 - AI技术演进与生物进化遵循相似的底层逻辑,即通过尝试不同变体并筛选出更优方案的过程[1][7] - AI发展呈现“长期停滞+突然跃迁”的非线性模式,类似于生物学中的“间断平衡”理论[3][7] - AI进化与外部环境(如硬件、数据)相互影响,类似生物进化与环境(如大气成分)的相互作用[15][16] AI研发中的试错与迭代机制 - AI“配方”的设计本质上是不断试错的过程,最终能落地的通常只是“配方”本身,而非99%缺乏可操作价值的理论论文[10][11] - 设计流程为尝试不同变体,筛选有效方案发布,他人再进行复现和跟进[12] - “世代间隔”类比于复制一个新想法所需的时间,该周期已从过去的约两年缩短至现在的六个月[18][20] - 实验速度对迭代至关重要,更快的实验能加速进化过程[33] 开源对AI发展的核心加速作用 - 开源是AI进化的核心加速器,若没有开源,行业进化速度可能慢上一千倍[3][13][35] - PyTorch等工具使研究者能近乎完美地复现他人发布的“配方”,极大缩短了代际周期[21] - 当前许多公司(如小米)积极拥抱开源,这与过去大公司对开源不感冒的情况形成对比[37][38][56] 跨领域探索与架构多样性策略 - 不同AI任务间存在相互作用,例如视觉领域的方法可能应用于语音或语言任务[27] - Transformers最初为语言模型设计,后来在各种任务中广泛应用,体现了跨领域迁移的价值[29] - 公司应在不同任务上探索新思路,因为为特定限制研发的解决方案可能具有极高的通用价值[30][42] - 需要维持模型架构的多样性,保留多种技术路线,以增加孕育重大突破的机会[13][45] 大公司的双轨发展策略 - 大公司应采取“两条腿走路”的策略:一方面利用当前领先技术(如Transformer)赋能现有产品,另一方面投入资源进行探索性研究,寻找下一个颠覆性机会[5][13][45] - 在Transformer和大型语言模型主导的当下,公司不可能完全押注其他路线,但需为技术范式转变做好准备[46][47][48] - 例如,小米在大型语言模型上的研究主线是利用最先进的AI技术赋能“人车家全生态”,同时有团队负责探索性研究,尝试大量不同方向[49] 探索性研究的具体实践与案例 - 探索性研究成功率极低,但旨在寻找能产生巨大影响的成果[49] - 研究人员有责任判断并推广有价值的想法,未能妥善推广是自身的失误[52] - 团队正在研发名为Zapformer的新型通用声音基座架构,专注于语音领域[53] - Zapformer相较于前代Zipformer实现了三大跨越:从人声建模到通用声音理解、通过梯度流理论指导设计将语音识别精度提升10%-15%、为海量数据训练移除Dropout并升级优化器以提升通用性与稳定性[57]
我和辛顿一起发明了复杂神经网络,但它现在需要升级
36氪· 2025-12-15 07:26
AI发展历史与理论基石 - 现代深度学习的理论基石之一是玻尔兹曼机,其灵感源于将神经网络想象成一团气体,用统计物理学定义“学习”为寻找能量最低状态的过程[1] - 玻尔兹曼机学习算法通过一个简单的局部规则实现:比较网络在“看到数据时”和“没看数据时”两种平衡状态下神经元活动的差异,以此计算权重调整方向[10] - 辛顿与谢诺夫斯基的合作融合了计算机科学、心理学、物理学和神经科学,但后续路径出现分歧:辛顿转向更高效、可扩展的反向传播算法,而谢诺夫斯基专注于神经科学[17] - 反向传播算法虽在工程上高效且推动了AI发展,但其非局部性的误差信号传递机制与大脑基于局部感知的学习方式不同[17] - 玻尔兹曼机虽受生物学启发,但其分析和洞察源于物理学特别是统计力学,这使其成为辛顿获得2024年诺贝尔物理学奖的原因[19] 当前AI(如ChatGPT)的局限性 - ChatGPT等大型语言模型本质是一个巨大的、确定的数学方程,其所有细节(输入数据、神经元激活模式)均可被完全访问和拆解分析,这与复杂、不透明的人脑形成对比[21] - 当前AI模型缺乏类似大脑的多个关键结构与功能:它没有海马体、基底神经节,也没有“自主生成的思想”[3][4] - 模型在停止输入后即彻底沉默,不具备人类在无感官输入时仍能进行的自主思考、未来模拟、记忆重组和元认知等“内在的生命力”[33][34][35] - 模型缺乏真正的长期记忆和持续学习能力:对话无法自然接续,且训练结束后参数锁定,无法通过改变突触权重来适应新经验,这与人类大脑时刻学习的状态截然不同[38] - 模型仅模拟了大脑皮层的一小部分功能,缺失了绝大多数对生物生存至关重要的关键结构[4][41] 通往更高级智能的可能路径 - 实现通用人工智能可能需要融合两种学习系统:类似大脑皮层的“认知部分”(负责知识和推理)和类似基底神经节的“强化部分”(负责基于奖励的行为和直觉)[26] - 强化学习应贯穿AI发展的整个过程,而非仅在预训练后微调,这类似于人类认知与强化系统的同步发育和交织[27] - 需要借鉴大脑的神经调质系统(如多巴胺、催产素),它们能动态调制神经元整合信息的方式,而不仅仅是静态的加权求和,这对于处理奖励、惊讶和社会整合至关重要[28][29][30] - 建立类似人类的情感纽带或深层联系,可能有助于防止AI产生恶意偏见或伤害行为[31] - 需要为AI引入类似海马体的机制,以筛选重要新信息,并将其整合到已有知识库中,避免灾难性遗忘,这过程在人类中与睡眠紧密相关[39][40][41] 对智能本质与AGI的思考 - 对智能的真正理解可能需要几代人的耐心,技术进步可以很快,但深刻理解可能需要像物理学发展一样漫长的基础研究沉淀[6][22] - 当前出现了“神经AI”这一新领域,致力于创造更好AI的工程师与致力于理解大脑的科学家首次能够使用相同的数学语言和底层原理进行真正对话,形成双向启发[22] - 复刻人脑不一定是通往AGI的唯一目标,理解自然界中多样化的智能形式(如蝙蝠的回声定位、蚂蚁的群体智慧)对于建立关于知识和理解的统一理论至关重要[50][51] - “AGI”和“意识”等词如同历史上的“生命力”概念,可能随着对其背后复杂机制(如DNA之于生命)的数学和原理性理解而不再需要,未来AI可能拥有与人类截然不同的意识形式[45][46][47][48][49] - 当前关于大模型是否“理解”语言的辩论,暴露出我们对“理解”这一概念本身的定义存在问题,而非仅仅是模型的问题[49]
8 年后回到斯坦福,布林复盘谷歌 AI:错在太谨慎
36氪· 2025-12-14 09:34
谷歌在生成式AI领域的战略反思与调整 - 谷歌联合创始人谢尔盖·布林承认公司在AI领域“搞砸了”,尽管在2017年发明了Transformer架构,但未能率先将其转化为成功的消费级产品,从而错过了AI的第一轮爆发 [1][4][7] - 公司落后的核心原因并非技术不足,而是内部过于谨慎:算力投入不足、过度担忧产品(如聊天机器人)失控的风险,导致行动迟疑,被OpenAI等竞争对手超越 [1][4][5] - 2022年底ChatGPT引爆全球后,布林决定重新回归公司并全职参与研发一线,亲自推动Gemini项目,以修正过去的战略失误 [7][8][10] 谷歌当前的追赶策略:平台化与生态整合 - 谷歌的追赶战略并非打造另一个ChatGPT,而是构建一个平台化的AI工具生态,旨在重构工作流,让AI代用户完成整个复杂任务,而非仅提供答案 [11][12][13] - 具体产品举措包括:推出强调多步推理和低幻觉的Gemini 3 Pro、面向科研工作流的Gemini Deep Research、统一模型上下文的MCP托管服务以打通谷歌内部生态(如Maps、Gmail),以及押注硬件的AI眼镜Project Aura [13] - 战略核心是通过MCP协议将模型、智能体(Agent)和工具整合,使AI像API一样即插即用,目标是定义AI工具的协作标准,类似Android定义移动操作系统 [15][16] 与主要竞争对手的路径分化 - 同期,OpenAI的GPT-5.2主要专注于提升长上下文处理和对话能力,强化其作为终极对话智能体的定位,商业入口集中在ChatGPT企业版、插件和API [15] - 谷歌则选择了与OpenAI不同的路径:不追求单一模型最强,而是构建一个整合了Workspace、Search、Maps及硬件设备的平台式工具生态,追求生态的整体可用性 [15] 对技术发展与人才影响的看法 - 布林认为,AI(如代码生成能力)不会让工程师过时,反而要求工程师具备更强的结构化思维与调度能力,技术能力仍是拉开AI应用差距的核心 [18][19] - AI降低的是学习门槛而非应用门槛,关键在于能否利用AI工具快速定位并掌握所需知识,例如非芯片专家可通过询问Gemini快速了解架构和算力预算 [20] - 对于学生,建议应聚焦于学习如何将AI工具融入实际工作流,并培养与AI协作的独特思考和判断能力 [21] 产品开发与商业化的理念 - 布林强调产品应“真正可用”优先于追求完美,Gemini的许多核心功能在未完全打磨好时就已上线,旨在先让用户愿意每天使用,再谈完善和扩张 [22][23] - 这种“先可用再扩张”的理念被视为谷歌当前构建护城河的关键,区别于许多仅专注于技术演示或概念产品的AI公司 [23]
MIT最新发现:这十年,算法进步被高估了
机器之心· 2025-12-11 10:47
文章核心观点 - 过去十年AI的进步由计算预算增长和算法创新共同推动,但算法进步的量化及其来源尚不清晰 [2] - 一项2024年的研究发现,算法进步在过去十年贡献了超过4个数量级的有效计算量提升,而计算规模本身增长了7个数量级 [2] - 研究通过三种互补方法得出结论:大多数算法创新带来的效率提升有限且与规模无关,而少数强烈依赖规模的创新(如LSTM到Transformer,Kaplan到Chinchilla)贡献了绝大部分的效率提升,且算法进步的速度和幅度高度依赖于所选的参考基线 [3][4][6] 算法进步的量化与总体影响 - 所有算法创新加起来使模型效率提高了约22,000倍,理论上可用少得多的浮点运算次数达到相同性能 [3] - 在总计21,400倍(相对于LSTM模型)的性能提升中,从LSTM转向Kaplan Transformer模型贡献了846倍的提升,Chinchilla训练策略贡献了近10倍的提升,这两项创新共同构成了总相对效率提升的91% [4][22] - 与规模无关的算法进步总体计算效率提升不到10倍,在推算到2025年计算能力极限(2 × 10²³ FLOPs)时,这些提升仅占总改进的不到10% [4] 算法进步的特性与模式 - 大多数经过实验评估的算法创新只带来小幅的、与规模无关的效率提升,提升倍数极不均匀,主要集中在少数几项改进上(如Adam优化器、pre-RMSNorm带来约2倍提升)[4][11] - 算法进步呈现断裂或不连续的模式:多年小幅改进之后,会出现一次较大的算法跃迁 [12] - 原始论文所声称的效率提升,往往远高于后续文献给出的估计以及该研究本身的实验结果 [9] 规模依赖型算法创新 - 研究发现有两项强烈依赖规模的算法创新:从LSTM到Transformer,以及从Kaplan到Chinchilla训练策略 [4] - 神经网络架构的改进具有随规模增加而回报提升的特性,并非规模不变 [20] - 从小模型LSTM切换到现代Transformer的总效率提升为6.28倍,切换到Retro Transformer的效率提升为4.69倍,这远低于此前文献估计的约60倍提升 [11] 算法进步与计算规模的关系 - 算法进步可能本质上就是依赖规模的,要真正体现其效益需要不断增长的计算规模 [6] - 算法进步对大模型开发者的益处远大于对小规模参与者的益处 [6] - 前沿模型的计算预算正以每年4.2倍的速度呈指数增长,算法进步的速率可能更多受算力扩张推动,而非不断涌现的算法创新 [22] 算法进步速度的参照系依赖 - 算法进步的速度强烈依赖于所选择的参考算法 [4] - 以LSTM为参照,Transformer系列(尤其是更大模型)会显得算法进步是指数增长的(论文测到一年增长率大约63%);但以Transformer自身为参照,随着规模变大,算法进步幅度很小(只比以前好约2倍)[24][25] - 换个对照组,算法进步的速度评估结果会从指数增长变为增长幅度很少 [26]
GoogleTitans架构再次亮相NeurIPS2025,补全Transformer的长上下文短板
海通国际证券· 2025-12-08 14:12
报告行业投资评级 * 报告未对特定公司或行业给出明确的投资评级(如优于大市、中性、弱于大市)[1][5][17][23][24] 报告的核心观点 * Google在NeurIPS 2025重申其Titans架构并发布理论框架MIRAS,这被视为Transformer之后的重要架构演进方向,旨在解决大模型在超长上下文、长期记忆和跨文档推理上的核心瓶颈[1][11] * Titans架构通过记忆增强与递归-注意力混合设计,实现了百万级token的长文本处理能力,官方表示能处理约**200万** token,支持整本书、代码仓、合规文档等超长文本任务[2][12] * 相较于主流Transformer,Titans的核心创新在于推理阶段的动态记忆(test-time learning),允许模型在使用过程中动态更新内部记忆结构,从而在长任务链和跨会话任务中保持更强的连续性与知识积累能力[3][13] * Titans是对Transformer架构的有效补全而非替代,它在长上下文理解、代码仓分析、企业知识库检索、多文档推理及长期对话智能体等场景中具备显著优势,而Transformer在短文本、低延迟推理等传统任务上仍保持效率与成熟度优势,两者短期内将呈现分工式共存[4][14][16] 根据相关目录分别进行总结 事件与架构概述 * Google在NeurIPS 2025再次强调其Titans架构,并公开相关理论框架MIRAS[1][11] * Titans支持**百万级** token上下文处理,并引入推理阶段学习能力,推动模型向可持续积累经验的智能体方向迈进[1][11] Titans架构的技术突破 * **长期记忆模块(Neural Memory)**:引入可更新记忆模块,模型在推理中可将关键信息写入记忆并在后续检索,形成类似长期记忆的结构[2][12] * **递归与注意力的混合结构**:使用递归结构(RNN-like updates)负责线性处理长序列,注意力机制(Transformer-like interactions)负责复杂交互[2][12] * **MIRAS理论框架**:定义了何时写记忆、如何筛选重要信息以及如何在推理阶段动态更新的规则[2][12] 与Transformer的对比分析 * **处理效率**:Transformer依赖全局注意力,复杂度随序列长度呈平方级(O(N²))增长,在百万级token任务上存在显著计算与存储瓶颈;Titans通过关键表示提取与记忆写入路径,大幅降低了长文本处理成本[3][13] * **推理动态性**:Transformer的推理过程是静态的,基于训练固化的参数;Titans引入推理阶段学习,允许动态更新内部记忆结构[3][13] * **应用场景分工**:Titans在长文本理解、代码仓分析、企业知识库检索、多文档工作流和长期智能体等场景中具备明显优势;Transformer在短上下文、高吞吐量及对延迟敏感的任务上仍是更优解[3][4][13][14][16] 性能表现 * Titans在超长序列任务中显著领先,能在百万级上下文保持高准确率[7] * 在相同规模与训练量下,Titans保持更优的训练效率与模型质量[8][10]