Workflow
Transformer
icon
搜索文档
80后诺奖得主:AlphaFold下一步融合大模型
量子位· 2025-11-28 12:11
AlphaFold的发展历程与现状 - 由谷歌DeepMind开发,能精确预测蛋白质三维结构的AI科研工具[8],利用序列和结构数据库中的大量实验数据训练网络以发现氨基酸序列间的关联和模式[9] - 自2020年AlphaFold2首次公开后,迅速成为结构生物化学领域的坚实基座,并陆续推出可预测多个蛋白质结构的AlphaFold Multimer以及迄今速度最快的AlphaFold 3[12] - 从最初的蛋白质结构预测,发展到能处理更复杂的多分子复合体及更广范围的生物分子交互[13],已帮助全球超过300万研究人员预测了数亿种蛋白质结构,影响了超过50万篇相关论文[3] - 标志着生命科学继量子力学和分子生物学革命后的又一次重大跃迁[4],并已在科研中实现工具化,成为当代实验设计的重要组成部分[23] AlphaFold的具体科研应用与突破 - 在心血管疾病研究方面,帮助密苏里大学团队揭示了坏胆固醇(LDL)核心蛋白ApoB100的原子级笼状结构,为治疗提供了理论依据,成果发表于《Nature》[14][15][17] - 在生态保护领域,帮助研究人员在两天内解密了与蜜蜂免疫力相关的关键蛋白Vitellogenin(Vg)的近原子级结构,完成了过去需数年的工作,对濒危种群保护起到关键作用[18][20] - 展现出非常规应用潜力,如被用于预测蛋白质合成设计的成功率,或作为搜索引擎在成千上万个候选蛋白中筛选最可能与目标蛋白结合的蛋白[21][22][23] AlphaFold的未来发展方向 - 核心开发者John Jumper公开表示,下一步是与大模型融合[1][26],目标是使AlphaFold在预测结构之外,还能读懂科学文献数据、进行科学推理、提出假设、设计实验流程甚至自动生成研究思路[26][27] - 未来将能更好地帮助理解更复杂的多分子多功能系统,例如蛋白之间、核酸(DNA/RNA)之间的相互作用等生物过程[27] - 技术思路可能与谷歌面向数学和计算机科学领域的AlphaEvolve系统类似,即使用一个大模型生成解决方案,再用第二个模型检查并过滤错误信息[28][29] AlphaFold的核心开发团队与关键突破 - 由DeepMind创始人兼CEO哈萨比斯和首位"80后"诺贝尔化学奖得主John Jumper领导开发[30][32],Jumper拥有数学、物理及理论化学背景,其博士论文即研究将机器学习应用于蛋白质动力学[33][34] - 初代AlphaFold在第13届CASP中崭露头角,成功预测43个蛋白质中的25个,证明了"机器学习+统计信息"推断蛋白质结构的可行性,但预测质量尚不足以实际应用[41][42] - 关键突破在于采用Transformer架构重构出AlphaFold 2,其预测结构精度达到1.5埃(约一个原子宽度),并在CASP 14竞赛中将准确性均分从60多分提升至92.4分(此前其他方法约40分),成功解决了困扰学界50余年的蛋白质折叠问题[44][48][50][52][53][54]
谷歌AI往事:隐秘的二十年,与狂奔的365天
36氪· 2025-11-27 20:13
公司近期业绩与产品表现 - Gemini应用月活跃用户从上一季度的4.5亿大幅提升至6.5亿[2] - Gemini 3在各类主流基准上展现统治级表现,Nano Banana Pro模型将AI生图精度与想象力提升到新高度[2][43] - 公司进入罕见的产品加速期,接连发布视频模型Veo 3、虚拟世界生成模型Genie 3等“王炸”产品[43][44] 公司AI技术发展历史与积淀 - 公司二十多年间的AI投资贯穿现代深度学习绝大部分关键节点,从拉里·佩奇对“终极搜索引擎”的想象,到“猫论文”、DeepMind、TPU[4][6] - 在Transformer论文发表前十年,世界上几乎所有知名AI人才都曾在公司工作过[5] - 公司首次语言模型实验始于2000年左右,开发出拼写纠错功能,并进化出内部昵称为PHIL的概率语言模型[10][11] 关键技术突破与商业影响 - 2012年“猫论文”使用16000个CPU核心训练九层神经网络,通过无监督学习识别YouTube视频中的猫,证明无监督学习可行性[14][15] - “猫论文”技术催生推荐系统机制,被应用于YouTube并奠定其全球最大视频平台基础,后续被Facebook、Instagram、字节跳动效仿,创造数千亿美元收入[15][17] - 公司开发出Transformer架构,其模型彻底碾压基于LSTM的谷歌翻译方案,证明模型规模越大效果越好[34] 重要收购与人才战略 - 2014年以5.5亿美元收购DeepMind,获得最豪华AI研究团队,但收购间接导致OpenAI、Anthropic、xAI等公司诞生[22][23][24] - 收购DeepMind后,公司向英伟达订购4万块GPU,订单价值1.3亿美元,后继续花费数亿美元购买GPU[25][27] - 为应对ChatGPT威胁,公司将Google Brain和DeepMind合并为Google DeepMind,并召回谢尔盖·布林等顶级人才参与Gemini项目[42] 自研芯片与基础设施 - 为解决GPU成本过高和算力不足问题,公司自研TPU芯片,专门针对神经网络矩阵乘法进行优化,效率远高于当时GPU[28][29][30] - TPU通过降低计算精度提高效率,避免公司向英伟达支付高额溢价(英伟达GPU系统毛利率高达75%至80%)[31] - 自研TPU使公司建立规模几乎与英伟达相当的芯片研发体系,服务于自身和谷歌云客户[30] 战略误判与危机应对 - 公司早期已开发出与ChatGPT接近的聊天机器人Mina,但因失控风险、收入模式冲突和法律风险未发布[36][37] - ChatGPT的出现使公司意识到AI从持续性创新转变为颠覆性创新,对构成生存威胁,内部发布红色警报[41][42] - 公司决定结束多模型并存局面,集中资源打造多模态旗舰模型Gemini,并于2023年5月宣布计划后,同年12月发布公共测试版本[42][43]
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位· 2025-11-18 13:02
技术突破与核心优势 - 采用单一视觉Transformer架构实现从单张图像、多视角照片到视频的任意视图3D重建,极大简化了模型设计[1][2][7] - 模型核心预测目标仅聚焦于深度和光线两个关键参数,通过双任务头输出深度图和光线参数[7][10] - 在全新视觉几何基准测试中,相机定位精度平均提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2[3] 模型架构与工作流程 - 输入处理环节将多视角图像转化为特征块,相机参数通过编码器或可学习token处理,最终与图像特征融合[9] - 核心Transformer基于预训练的DINO,通过单视角自注意力和跨视角自注意力机制适应不同输入形式[9] - 除了深度和光线预测,模型还能从特征中提取相机姿态信息,确保相机运动轨迹精准[11] 训练策略与性能表现 - 采用师生蒸馏训练策略,利用教师模型从海量数据生成高质量伪标签,降低对精确标注数据的依赖[13][14] - 在整合了5个室内外数据集的基准上,模型能生成密度更高、噪声更低的3D点云,质量明显优于传统方法[14][16][17] - 支持从少量场景图片进行视角补全,生成未拍摄角度的图像,在虚拟漫游和数字孪生领域应用潜力巨大[19] 团队背景与行业影响 - 项目由字节跳动研究科学家康炳易带队,其领导的Depth Anything系列此前已被苹果CoreML库收录[20][25] - 核心研究人员拥有加州伯克利和新加坡国立大学人工智能专业背景,并与谢赛宁等业内专家有过合作[23][24]
AI Bubble 深度讨论:万亿美元 CapEx,Dark GPU,广告电商如何带飞 AI|Best Ideas
海外独角兽· 2025-11-14 14:54
文章核心观点 - AI领域当前存在关于“泡沫”的广泛讨论,但文章通过分析巨额资本开支、算力需求、商业化前景和技术演进路径,认为AI是一场真实且长期的生产力革命,当前市场更可能高估短期影响而低估长期价值,离真正的泡沫尚远 [4][13][57] 关键问题1:OpenAI的1.4万亿CapEx意味着什么? - OpenAI计划建立30GW计算资源,对应资本投入约1.4万亿美元,并设定了2027年达到1000亿美元营收的目标,其从百亿到千亿美元的营收增长速度前所未见 [5][8] - 测算显示,即使OpenAI在2033年实现4000亿美元收入并在2029年现金流转正,最多仅能拿出约2000亿美元现金,存在约1.2万亿美元的融资缺口,而Mag 7公司2024年经营现金流总和约6402.66亿美元,加上现金储备亦不足以填补此缺口 [10][11][12] - OpenAI的巨额计划与市场是否存在泡沫需区分看待,Mag 7公司自2023年以来大规模提升CapEx且大部分投资回报率均有所提升,同时标普500公司CapEx占现金流比例平均约46%,处于健康区间,科技巨头年自由现金流约5000亿美元,具备缓冲能力 [13][16] 关键问题2:为什么算力投入规模还在扩大? - 英伟达披露Blackwell加Rubin芯片在未来五个季度订单金额达5000亿美元,即每季度约1000亿美元需求,远超其最近季度467亿美元的收入;阿里云亦表示未来十年数据中心能耗将提升10倍,对应年化CapEx增长近30% [24][25] - 模型竞争远未停止,SOTA模型更新周期从2023、2024年的半年缩短至2025年的不足一个月,头部实验室为追求能力提升和探索新范式将持续投入算力,训练投入的ROI虽可能下降,但只要边际进步持续且无参与者愿意落后,需求就难以用传统商业逻辑衡量 [26][27] - 推理侧算力需求前景乐观,AI应用落地已被初步验证,随着Agent工具使用能力增强和多模态应用爆发,需求将增长;尽管芯片进步带来成本下降,但推理成本因用户倾向使用最新模型及Reasoning等功能消耗更多Token而被抵消,导致市场未明显感知成本下降 [30][32] 关键问题3:LLM时代的“暗光纤”指标出现了吗? - 当前市场找不到闲置的GPU,以AWS Spot Instance价格衡量的GPU空闲率在10月份约为5%,表明算力供应仍然紧张,与互联网泡沫时期97%光纤闲置的“暗光纤”现象有本质区别 [37][38] - 更准确的泡沫观察指标应是巨额CapEx投入后所创造的增量收入是否合理,而非硬件是否闲置;若出现问题,代表性企业可能出现万亿级别债务违约,而当前生态复杂度远高于1999年 [39] 关键问题4:AI能增长到什么程度? - AI商业化预期核心在于用户渗透率和单用户Token使用量的双重指数增长:美国AI渗透率约40%,中国不足20%,全球其他地区仅5-10%,存在巨大提升空间;同时,Deep Research、Agent等模式使单次查询Token使用量激增,有用户非编程类支出在过去6个月增长约20倍 [43][44] - AI产品商业模式主要有订阅制、按量收费及广告/电商:订阅制面临提价困难,按量收费的逻辑受“AI使工作贬值”挑战,广告和电商则存在创造增量与抢夺存量的争论,但ChatGPT等平台query量增长及精准化潜力可能激发增量市场 [45][46][48][49][50] - AI对企业端的降本增效作用显著,如美国失业人数同比增加65%,企业缩减招聘,以及阿里云AI相关业务同比增长达100%,远高于传统云服务10%的增速,表明B端价值释放是支撑CapEx的重要基础 [41][42] 关键问题5:AI进步的“黑天鹅”是什么? - AI发展的潜在黑天鹅是出现全新模型机制,以远低于Transformer的成本实现更优效果,从而颠覆现有技术体系;但只要Transformer加强化学习的主线能持续演进,AI就难以被称为泡沫 [51][52] - 对当前技术路径能否抵达AGI存在分歧,有观点认为其面临类似自动驾驶的瓶颈,需依赖大量数据标注;而Sam Altman等则基于未来1-2年模型能力质变(如Online learning)的预期进行决策,若此乐观预期成立,则泡沫更难发生 [52][53][55] - 从资本市场角度看,英伟达P/S倍数低于30倍,投资决策仍相对理性,泡沫更多可能出现在技术被大众广泛接受且叠加降息环境的后期,例如OpenAI上市前后 [57]
AI赋能资产配置(二十一):从Transformer到Agent,量化投资实战有何变化?
国信证券· 2025-11-04 21:36
核心观点 - Transformer与Agent的深度耦合构建了“建模精准化 + 决策自动化”的一体化量化投资体系,推动AI从“单一环节赋能”升级为“全流程提效”[1] - 代表性Transformer模型GrifFinNet通过多关系图建模与自适应门控融合,在股票收益预测准确性上显著优于LSTM、XGBoost等传统工具[1][2] - 分层多智能体框架模拟“宏观-行业-企业-组合-风控”的专业投资流程,通过角色模块化与流程自动化解决纯模型“信号落地难”问题[1][3] - 未来AI赋能量化投资将向精准化、自动化、稳健化进阶,Transformer与Agent的协同优化是核心方向[1][4] Transformer:量化投资的高效建模工具 - Transformer架构凭借自注意力机制与长序列建模能力,突破了传统模型(如CAPM、GARCH、LSTM)在处理非线性关系、时序动态及多源数据融合上的局限[2][12] - 传统统计模型(如CAPM、三因子/五因子模型)基于线性假设和有效市场假说,难以捕捉金融系统中的非线性关系和动态行为[12] - 机器学习算法(如SVM、随机森林、XGBoost)能处理高维特征和非线性关系,但在建模时序依赖性方面存在不足[13] - RNN、LSTM、GNN等深度学习模型推动了时序依赖性建模,但普遍存在“时空分离建模”问题,未能实现结构依赖与时序动态的深度融合[13] - GrifFinNet模型创新性地将多关系图建模与Transformer时序编码相结合,通过构建行业归属与机构共持两类关系图、设计自适应门控融合模块、采用紧密时空集成架构,提升了对市场内部复杂依赖性的建模能力[14] Agent:量化投资的全流程智能决策体 - Agent系统构建了“宏观筛选—企业分析—组合优化—风险控制”的分层架构,以解决传统量化投资中单一技术孤立应用、数据融合难、决策层级模糊等问题[3][15][16] - 顶层宏观智能体扮演首席经济学家角色,分析宏观经济和行业信号,筛选高潜力行业[3][17] - 分析层包含四个专业化股票评分智能体:基本面智能体评估企业财务健康度、技术面智能体捕捉价格时序规律、新闻智能体提取市场情绪、研报智能体整合机构观点,解决了不同频率数据的多模态融合问题[3][17] - 配置层的组合智能体通过强化学习(如PPO算法)动态分配各分析层智能体的权重,聚合异质观点以生成综合评分并构建投资组合[3][17][26] - 防护层的风险控制智能体实时监控组合波动率,根据市场波动率动态调整整体投资组合风险敞口,有效降低最大回撤[3][17][27] - 该分层架构模拟了专业投资机构的决策流程,支持人机协作,提升了策略的可解释性、抗波动能力与合规适配性[3][17] Transformer与Agent的深度耦合应用 - 耦合体系通过“功能封装 + 流程补全”实现协同:将Transformer嵌入Agent分析层以强化特征提取(如新闻智能体用LLM提取情绪、技术面智能体捕捉价格时序规律)[4][28] - 借助Agent的流程自动化(如组合优化、仓位控制)解决Transformer信号落地的难题,打通从“建模→落地”的最后一公里[4][28][29] - 以Agent的自主交互能力(如实时数据采集、动态权重调整)弥补Transformer静态建模的缺陷,使策略能实时适配市场变化,提升稳健性与泛化能力[4][29] - 在“沪深300成分股组合构建与动态调仓”的实操中,耦合体系实现了从数据预处理到实盘交易的无缝衔接,构建了“预测精准、决策高效、风控稳健”的智能量化体系[29][32] 未来展望 - 技术层面,Transformer将进一步优化多关系建模与长序列处理能力,结合更丰富的市场关联数据(如高频交易数据、跨市场联动信息)以提升信号捕捉的颗粒度与时效性[33][35] - Agent系统将强化多智能体交互协同与动态适配能力,深化人机协作模式(如人类专家与AI智能体的协同决策),同时在合规审计与风险控制模块形成更成熟的解决方案[33][35] - 二者的深度耦合将持续构建更适配复杂金融市场环境的智能量化生态,展现出广阔的应用前景[33][35]
马斯克:5-6 年后手机大变样!科创人工智能ETF华夏(589010) 午后弱势整理,市场情绪趋于谨慎
每日经济新闻· 2025-11-04 14:43
科创人工智能ETF市场表现 - 截至13:52,科创人工智能ETF报1.386元,跌幅2.39%,全天维持震荡下行格局,分时均线呈持续压制态势 [1] - 开盘价1.418元,最高1.42元,最低触及1.386元,逼近日内低位 [1] - 成分股方面,仅1只上涨、29只下跌,奥比中光、星环科技、凌云光等跌幅居前,最大跌幅超7% [1] - 近五日资金净流入较前期显著收窄,11月3日流入约1271万元,较此前六千万级水平明显降温 [1] AI行业技术发展前景 - 特斯拉CEO马斯克预测未来5-6年传统手机与App将消失,人类消费的大多数内容将由AI生成 [2] - 未来手机将作为AI推理的边缘节点,配备无线电模块,服务器端AI将与设备上的AI通信并实时生成用户想要的视频 [2] - 银河证券指出Transformer架构带来三大结构性红利:研发侧规模效应成立、部署侧边际成本递减、数据侧出现飞轮效应 [3] - Transformer作为通用引擎将持续吞噬剩余模态孤岛,为Agent时代提供"一个模型、任意任务"的底层支撑 [3] 科创人工智能ETF产品特征 - 科创人工智能ETF紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业 [3] - 该产品兼具高研发投入与政策红利支持,20%涨跌幅与中小盘弹性助力捕捉AI产业"奇点时刻" [3]
Meta裁员、OpenAI重组:万字复盘谷歌起笔的AI史诗,如何被「群雄」改写剧本?
机器之心· 2025-11-02 09:37
AI行业格局转变 - AI行业正从“无限淘金热”转向残酷的“阵地战”,资本开始重新评估价值,巨头们审视成本与效率 [1] - Meta FAIR部门遭裁员、OpenAI进行资本重组、AWS大裁员等一系列动荡表明行业进入新阶段 [1] 谷歌的AI基因与早期探索 - 人工智能是谷歌从诞生之初的核心理念,受创始人Larry Page父亲(早期机器学习教授)的影响 [5][9] - 2000年Larry Page断言人工智能将是谷歌的终极版本,终极搜索引擎就是人工智能 [9] - 谷歌起家的PageRank算法运用统计方法排序网页,带有早期AI思想印记 [10] - 2000年末工程师提出“压缩即理解”理论,探索语言模型和机器理解,这是现代LLM思想的早期体现 [12] - 研究成果直接应用于谷歌搜索的拼写纠错功能,并开发了消耗数据中心整体资源15%的语言模型PHIL [14][16] - PHIL在2003年被用于快速实现AdSense系统,为谷歌带来数十亿美元新收入 [15] 深度学习革命与谷歌的拥抱 - 2007年Geoff Hinton将深度学习火种带入谷歌,当时神经网络正被学术界边缘化 [20] - 谷歌的统计方法本身是对僵化专家系统的反叛,为结合深度学习奠定基础 [21] - 2011年吴恩达、Jeff Dean等发起Google Brain项目,目标构建大规模深度学习模型 [27] - Jeff Dean主导开发DistBelief分布式计算系统,采用有争议的异步更新参数方式但被证明高效 [28][29] - Google Brain的“猫论文”实验使用16000个CPU核心训练,神经网络自主学会识别猫脸 [30] - “猫论文”证明无监督学习能力,催生YouTube算法推荐时代,驱动数百亿乃至数千亿美元产业价值 [32][33][34] 关键突破与硬件变革 - 2012年AlexNet在ImageNet竞赛中将错误率从25%以上降至15.3%,提升超过40% [35][37] - AlexNet创造性使用NVIDIA GPU进行并行训练,确立GPU作为AI计算核心硬件的地位 [39] - 谷歌因应算力瓶颈,自研专门用于神经网络计算的TPU芯片,15个月内完成设计到部署 [62][63] - TPU针对矩阵运算优化并采用低精度计算,为谷歌提供成本优势和战略自主权 [63] 人才争夺与实验室建立 - 谷歌以约4400万美元收购AlexNet核心团队DNN Research,被认为是史上最划算交易之一 [41][42] - 2013年扎克伯格力邀Yann LeCun建立FAIR实验室,采用开放研究模式 [43][45][47] - FAIR为Meta提供核心技术、开源工具PyTorch以及Llama系列开源模型 [48] - 2014年谷歌以约5.5亿至6.5亿美元收购DeepMind,但其后与Google Brain存在内耗 [56][57] - DeepMind在AlphaGo项目中击败李世石,并将谷歌数据中心冷却能耗降低40% [58] OpenAI的崛起与转型 - 2015年因马斯克对谷歌垄断的担忧,联合Sam Altman创立OpenAI,获10亿美元初始承诺 [64][65][68] - Ilya Sutskever被使命吸引离开谷歌加入OpenAI,尽管Jeff Dean提供双倍薪酬反聘 [66] - 2018年OpenAI因资金压力重组,设立利润上限子公司并获得微软10亿美元投资 [86][87] - OpenAI转型开发GPT系列模型,GPT-3展现出惊人能力,GitHub Copilot成为首个大规模落地产品 [90][91] - 2021年Dario Amodei因安全与商业化分歧带领核心成员出走,创立Anthropic [92][95] Transformer架构与新时代 - 2017年谷歌发表《Attention Is All You Need》论文,提出Transformer架构 [74][76] - Transformer解决RNN/LSTM序列处理难题,具备高度并行化优势 [76] - 架构展现出“更多数据+更大模型+更多算力≈更好智能”的可扩展性 [80][81] - 谷歌允许论文公开发表,将“钥匙”交给全世界,包括潜在竞争对手 [84] - 论文八位作者后来相继离开谷歌 [84] ChatGPT冲击与谷歌反击 - 2022年11月ChatGPT发布,一周用户破百万,两个月破亿,成为史上增长最快消费应用 [97] - ChatGPT成功震醒谷歌,Sundar Pichai拉响“Code Red”红色警报 [99] - 微软迅速追加100亿美元投资OpenAI,并发布新版Bing搜索引擎直指谷歌核心业务 [99] - 谷歌仓促推出Bard但出现事实错误,促使公司进行大刀阔斧改革 [102][103] - 2023年谷歌合并Google Brain和DeepMind,组建统一Google DeepMind部门由Demis Hassabis领导 [105][106] - 谷歌All in Gemini项目,集中精英力量开发统一多模态旗舰模型系列 [105][106] - Gemini系列快速迭代,Gemini 2.5 Pro成为顶尖模型,并整合进搜索等产品 [107] - Google DeepMind在AI for science领域突破,AlphaFold 2解决蛋白质折叠问题,团队获2024年诺贝尔化学奖 [107][108] 当前竞争格局 - 谷歌一度受大公司体制束缚将王牌拱手让人,OpenAI成为最具实力玩家之一 [109] - Meta曾稳坐开源王座,如今在军备竞赛与成本效益平衡中艰难变革 [109] - 中国AI力量异军突起,DeepSeek、Qwen、Kimi等奋力追赶 [109] - 行业没有永远王者,巨头霸权可能被自身问题拖垮,后起之秀威胁迫近 [110]
全球首个「百万引用」学者诞生!Bengio封神,辛顿、何恺明紧跟
自动驾驶之心· 2025-10-26 00:03
AI领域学术影响力里程碑 - Yoshua Bengio成为全球首位论文引用量突破100万次的学者,标志着AI学术影响力达到新高峰[2][3] - Geoffrey Hinton以97万次引用紧随其后,有望成为全球第二位突破百万引用的学者[5] - 深度学习三巨头(Bengio、Hinton、Yann LeCun)共同获得2018年图灵奖,其中LeCun引用量超过43万次[6][7][13] 顶尖AI研究者学术成就 - Yoshua Bengio在全球计算机科学领域排名第一,总引用量987,920次,近五年引用量711,796次,占比72%[8] - Geoffrey Hinton全球排名第二,总引用量963,982次,近五年引用量588,843次,占比61.1%[8] - 何恺明论文总被引超过75万次,其2016年发表的深度残差网络(ResNets)论文被引298,327次,是二十一世纪被引用次数最多的论文[48][51] - Ilya Sutskever论文总被引超过70万次,作为OpenAI和ChatGPT缔造者,与Hinton存在师徒关系[53][18] AI论文引用爆发式增长原因 - 2012年AlexNet在ImageNet上的突破性表现被视为深度学习"引爆点"[20] - 2017年Transformer架构提出和2018年BERT模型出现,推动预训练/微调范式发展,带来AI论文二次爆发[24] - 2010-2022年全球AI论文总量从约8.8万篇增长至24万篇以上,实现近三倍增长[30] - AI论文占计算机科学论文比例从2013年的21.6%升至2023年的41.8%,几乎占据计算机科学领域一半论文[31][32] AI领域学术会议活跃度 - ICLR 2024接收论文2260篇,投稿量较2023年增加2324篇[36] - NeurIPS 2024总投稿17491篇(主会15671篇),接收4497篇[36] - CVPR 2024投稿11532篇,接收2719篇,录用率23.6%[36] 其他高影响力AI研究者 - GAN之父Ian Goodfellow引用量38万+[61] - 谷歌人工智能负责人Jeff Dean引用量37万+[61] - ImageNet创建者李飞飞引用量32万+[61] - LSTM之父Juergen Schmidhuber引用量29万+,其1997年LSTM论文被引136,740次[61][67] - Coursera创始人吴恩达引用量29万+[61] - Gemini技术负责人Noam Shazeer引用量28万+,其参与的"Attention is All You Need"论文被引209,694次[61][69]
Meta打碎Transformer 8年铁律,改写AI最底层规则,模型首次冒出潜意识
36氪· 2025-10-24 19:47
核心观点 - Meta推出名为“自由Transformer”的新模型,首次打破自2017年以来所有GPT模型的核心规则,模型在生成前能进行“预先思考”,而不再是逐token盲猜式生成[1] - 该创新通过在解码器中引入潜在随机变量Z,为Transformer增加一层“潜意识”,使模型能够早期做出全局决策,从而产生更一致和稳定的输出[3][10][22] - 这一架构变革仅增加约3%的计算开销,但在GSM8K、MMLU、HumanEval等多项基准测试中表现显著提升,可能标志着AI模型从“预测下一个词”迈向“思考如何表达”的重要节点[3][24][31] 技术架构创新 - 模型在解码器中引入了潜在随机变量Z,可视为生成文本前的“潜意识层”,模型会采样内部选择来引导整个序列的风格或结构[4] - 技术实现是通过内置在Transformer内部的条件变分自编码器完成的,Meta将其命名为Free Transformer[4] - 与标准Transformer仅根据前序token预测下一个token不同,Free Transformer先采样一个随机状态Z,然后让每个标记都基于该状态生成[7][20] - 在训练过程中使用编码器帮助模型学会选取良好的隐藏状态,但在推理时跳过编码器,直接采样隐藏状态并仅运行解码器,这避免了使成本翻倍的问题[8][9][12][13][14] - 该设计使模型仅增加约3-4%的FLOPs计算开销,大幅降低了计算负担[15][19] 性能表现 - 在1.5B参数模型上,Free Transformer在多项测试中表现显著提升:HumanEval+得分最高提升55.56%,MBPP测试最高提升35.71%,GSM8K数学题集最高提升30.30%[26][28] - 在8B参数模型上同样观察到性能改善:HumanEval+得分最高提升19.23%,MBPP测试最高提升18.71%,GSM8K数学题集最高提升20.18%[30] - 模型训练保持稳定,没有出现训练崩溃或异常波动[27] - 潜在变量Z被证明能够编码有用的全局结构信息,如主题、情感或模式位置,而不会过拟合[17][38] 潜在变量机制 - 潜在随机变量Z从65536种可能性中选取,由16个独立比特构建而成[18] - 采用KL散度惩罚结合自由比特方法进行训练,防止隐状态记忆整个序列,仅在散度大于阈值κ时添加KL损失[17] - 通过控制κ值(从1/64 bit到8 bits),可以调控Z携带的信息量:信息过少则模型表现接近普通解码器,信息过多则会导致训练退化[37][38] - 在合成任务测试中,Z成功学会了编码目标位置和噪声模式等全局属性,证明了其规划能力[32][35][36][38] 行业影响 - 这一突破可能动摇持续8年的Transformer底层架构,改写AI最底层规则[1][3] - 该研究来自Meta的FAIR实验室,由Yann LeCun领导的团队进行,专注于超越LLM的下一代人工智能研究[39][41][43] - 创新标志着Transformer思维方式的重塑,从“预测下一个词”迈向“思考如何表达”,可能开启后自回归时代[30][31]
八年后,Meta教会了Transformer「显式思考」
机器之心· 2025-10-24 11:40
文章核心观点 - Meta公司提出名为Free Transformer的新架构,打破了自2017年以来GPT模型的核心规则 [4] - 新方法在解码器内部加入随机潜在变量,使模型在生成内容前能进行内部规划,类似于赋予模型“隐藏的心智” [4] - 在15亿和80亿参数模型上,该方法在代码生成、数学文字题和多选任务上取得明显性能提升 [6][27][31] 技术架构创新 - Free Transformer是一种新解码器Transformer扩展,使用无监督潜在变量来提高下游任务性能 [4] - 架构是在标准解码器结构的中间层注入噪声Z,允许与编码器共享一半的Transformer模块,显著减少计算开销 [9] - 编码器使用非因果结构和可学习的常数token嵌入,旨在捕捉序列全局特征,增强跨任务可迁移性 [14] - 通过二进制映射器将编码器输出的向量转化为独热向量表示,维度为2^H(H=16) [15][16] 实验验证与性能表现 - 在合成数据集上验证了模型确实利用潜在变量Z对生成过程进行条件化,不同KL散度值下模型表现出不同编码行为 [18][21] - 15亿参数模型在代码生成任务HumanEval+上最高提升55.56%(从0.055至0.085),数学推理任务GSM8K最高提升30.30%(从0.025至0.033) [26] - 80亿参数模型经过1万亿tokens训练后,在HumanEval+上提升11.36%(从0.268至0.299),MMLU提升5.20%(从0.592至0.623) [30][31] - 性能提升在需要推理能力的任务上尤为显著,包括代码生成、数学问题和多选常识问答 [27][31]