BERT
搜索文档
2017,制造奥本海默
创业邦· 2026-03-12 18:22
文章核心观点 - 2017年谷歌发布的Transformer架构论文是人工智能发展的关键转折点,但其革命性在当时被包括谷歌在内的全球科技公司严重低估 [6][9][10] - 唯一深刻认识到Transformer潜力的是OpenAI,其技术骨干Ilya Sutskever力排众议,集中资源开发GPT系列模型,最终通过Scaling Laws(规模定律)和ChatGPT引爆了全球AI革命 [12][34][35][40] - 人工智能的发展历程充满了技术路线的分歧(如谷歌的“判别式”BERT与OpenAI的“生成式”GPT)、巨头的战略误判、资本与安全的博弈,最终由OpenAI用谷歌发明的武器改变了行业格局 [28][33][48] 技术演进与关键突破 - **2012年计算机视觉突破**:Geoffrey Hinton团队使用卷积神经网络(CNN)在ImageNet比赛中以84%的准确率夺冠,推动了AI产业化,但其学生Ilya Sutskever后来成为OpenAI和GPT系列的核心 [16][18] - **自然语言处理(NLP)的早期困境**:在Transformer之前,NLP领域主流算法循环神经网络(RNN)存在计算效率低和“长距离依赖”问题,导致商业化前景黯淡 [20] - **2017年Transformer诞生**:谷歌研究人员为提升机器翻译效率,提出完全基于注意力机制(Attention)的Transformer架构,实现了并行计算,效率指数级提升 [24][25] - **预训练范式的确立**:2018年,ELMo模型证明了预训练思想的可行性,随后谷歌基于Transformer推出BERT模型,在斯坦福大学SQuAD1.1测试中全面超越人类表现 [26] - **Scaling Laws(规模定律)的实践**:OpenAI坚信模型能力随参数、数据、算力规模增长而提升,并在2020年发布拥有1750亿参数的GPT-3模型,验证了该定律,引发行业算力竞赛 [35][40][45] 主要公司动态与竞争格局 - **谷歌的战略起伏**:尽管拥有Transformer和BERT,但初期低估了其潜力,将BERT主要用于优化搜索,后因ChatGPT的冲击才加速AI布局 [10][27][46] - **OpenAI的专注与崛起**:自2018年发布1.17亿参数的GPT-1后,坚持“生成式”技术路线,凭借微软的资金支持,持续扩大模型规模,最终通过ChatGPT(上线5天用户破100万,两个月破1亿)取得颠覆性成功 [12][13][30][40] - **微软的关键角色**:向OpenAI投资10亿美元,获得GPT-3的排他性授权,并利用其为一万张英伟达V100 GPU构建的超算为自家云服务宣传 [40][45] - **英伟达的硬件红利**:其2017年5月推出的搭载Tensor Core的V100 GPU,无意中为Transformer架构提供了理想的算力基础,随后成为AI算力竞赛的核心受益者 [12][45] - **其他巨头的反应**:Meta推出开源大模型参与竞争;错失OpenAI的亚马逊投资了Hugging Face;特斯拉开发了D1芯片和Dojo超算;百度则推出了参数量达2600亿的ERNIE 3.0 Titan [46] - **Anthropic的成立**:因与Sam Altman在AI安全与商业化平衡上的分歧,OpenAI前研究副总裁Dario Amodei离职创办了Anthropic,成为OpenAI的直接竞争对手 [38][48] 产品化与安全对齐 - **从GPT-3到ChatGPT**:GPT-3虽能力强大,但存在幻觉和价值观问题;OpenAI通过人类反馈强化学习(RLHF)训练出更“对齐”的InstructGPT,为ChatGPT的诞生铺平道路 [49][52] - **ChatGPT的发布**:初衷是作为测试GPT-4前的技术预览产品,以收集人类反馈,内部并未预料到其引发的全球风暴 [12][52] - **RLHF的实践与争议**:为进行“对齐”训练,OpenAI以约20万美元合同雇佣肯尼亚外包公司Sama,员工时薪1.32至2美元,负责标注极端有害内容,该合作后因内容过于极端而破裂 [50][52]
2017,制造奥本海默
远川研究所· 2026-03-11 21:30
Transformer架构的诞生与革命性 - 2017年6月,谷歌的8位研究员发表《Attention Is All You Need》论文,提出了Transformer架构,该架构成为ChatGPT及几乎所有现代人工智能模型的底层基础[2] - Transformer架构的核心创新是抛弃了循环神经网络,引入自注意力机制,使模型能够并行处理所有输入词,并解决长距离依赖问题,计算效率得到指数级提升[13] - 该架构最初被设计用于提升机器翻译效率,但其革命性潜力在当时被谷歌及整个行业严重低估,被视为“一个不是秘密的秘密武器”[3] 行业早期格局与技术路线分歧 - 在Transformer之前,人工智能产业化的爆发始于2012年,杰夫·辛顿团队采用卷积神经网络在ImageNet比赛中以84%的准确率夺冠,推动了计算机视觉的商业化[7] - 同期,自然语言处理领域因主流算法循环神经网络效率低下且存在长距离依赖问题而发展缓慢,商业化前景黯淡[9][10] - Transformer问世后,行业出现两大技术路线分歧:OpenAI坚持“生成式”预训练路线,专注于训练模型预测下一个词;而谷歌则推崇“判别式”路线,其BERT模型通过上下文理解文本含义,并在2019年10月全面应用于英语搜索[14][18][19] OpenAI的关键决策与GPT系列发展 - OpenAI技术骨干Ilya Sutskever在Transformer出现后,坚信其潜力,并集中所有资源开发GPT系列生成式预训练模型[5] - OpenAI信奉Scaling Laws,认为模型能力随参数量、数据量和计算资源的增加而提升,这一理念在2020年发布的1750亿参数GPT-3模型上得到验证[21] - 为让模型输出更符合人类价值观,OpenAI在2022年1月发布InstructGPT模型,通过人类反馈强化学习技术对模型进行“对齐”处理,为ChatGPT的诞生铺平道路[28][30] 主要科技公司的竞争与战略布局 - 谷歌虽拥有Transformer和BERT的先发优势,但初期主要将其用于优化搜索,未能预见其在通用人工智能领域的颠覆性潜力[4][15] - 微软通过向OpenAI投资100亿美元并获得GPT-3的排他性授权,在AI竞赛中占据有利位置,并利用其为自家云服务宣传[23] - 英伟达的GPU硬件(如V100)及其CUDA生态,意外成为训练Transformer大模型的关键基础设施,深度受益于AI算力需求爆发[4][23] - 其他公司如Meta、亚马逊、特斯拉、百度等迅速加入竞争,分别通过开源模型、投资社区、自研芯片、推出大模型等方式构建护城河[26] ChatGPT的横空出世与行业影响 - 2022年,OpenAI基于GPT-3.5推出聊天机器人ChatGPT,旨在测试公众对AI的反馈并指导后续研究,其影响力远超团队预期[5][31] - ChatGPT上线5天用户突破100万,两个月突破1亿,打破了TikTok保持的互联网产品最快增长纪录,标志着AI新纪元的开启[6] - ChatGPT的爆发使技术路线竞争迅速演变为全面的“算力恐慌”,Scaling Laws成为行业共识,推动全球科技公司加大在算力和大模型上的投入[23][26] 行业生态与安全伦理争议 - AI模型的安全与伦理问题伴随其能力增长而凸显,OpenAI通过外包给肯尼亚公司Sama,以每小时1.32至2美元的薪酬雇佣工人标注有害内容,以实施RLHF进行模型对齐[29][32] - 公司内部对AI安全与商业化速度存在分歧,例如OpenAI联合创始人Dario Amodei因担忧安全问题与Sam Altman分道扬镳,后创立了竞争对手Anthropic[27][28] - 尽管面临安全与伦理挑战,但产业界普遍认为技术迷雾已被Scaling Laws驱散,各大公司均在算力、芯片、模型和生态上积极布局,以应对新时代的竞争[26]
烦人的内存墙
半导体行业观察· 2026-02-02 09:33
文章核心观点 - 人工智能模型,特别是大型语言模型(LLM)的训练和服务,正面临日益严重的“内存墙”瓶颈,其制约已超过计算能力本身[2][4] - 过去20年,服务器硬件峰值计算能力(FLOPS)增长6万倍,远超DRAM带宽(增长100倍)和互连带宽(增长30倍)的增速,导致内存成为主要性能瓶颈[8][10] - 解码器架构的Transformer模型(如GPT)因自回归推理特性,其内存操作量更大、算术强度更低,使得内存带宽瓶颈尤为突出[17] - 为应对挑战,需要在模型架构设计、训练算法、部署策略以及硬件设计等多个层面进行系统性重新思考和创新[18][31] 硬件性能增长趋势与“内存墙”问题 - 过去20年间,服务器硬件的峰值浮点运算能力(FLOPS)以每两年3.0倍的速度增长,而DRAM带宽和互连带宽的增速分别仅为每两年1.6倍和1.4倍[10] - 自1998年以来,服务器级AI硬件的峰值计算能力增长了6万倍,而DRAM峰值带宽仅增长100倍,互连带宽仅增长30倍,差距巨大[8] - “内存墙”问题涉及内存容量、带宽及延迟的限制,涵盖芯片内、芯片与DRAM间以及多处理器间的数据传输,其改进速度均落后于计算能力增长[6][8] - 内存带宽瓶颈不仅存在于单芯片内部,在分布式训练/服务中,加速器间的网络通信带宽也是更慢、效率更低的瓶颈[9] 大型语言模型(LLM)的发展趋势与挑战 - 2018年至2022年间,训练LLM所需的计算量(FLOPs)以每两年750倍的速度激增,而模型参数规模以每两年410倍的速度增长[4][9] - 模型规模的扩展速度(410倍/两年)已超过单个芯片的可用内存容量,迫使采用分布式内存并行,但面临更严峻的通信带宽挑战[9] - 即使模型能装入单芯片,芯片内部不同层级内存(如寄存器、缓存、全局内存)间的数据传输也日益成为保持计算单元利用率的关键瓶颈[10] Transformer模型案例研究:编码器 vs. 解码器 - 编码器模型(如BERT)并发处理所有token,涉及矩阵-矩阵运算;解码器模型(如GPT)以自回归方式运行,涉及重复的矩阵-向量乘法[13] - 算术强度(每字节内存操作可执行的FLOP数)是衡量性能瓶颈的关键指标,解码器模型因矩阵-向量运算而具有更低的算术强度[14][16] - 性能分析显示,在模型配置和总FLOPs相近的情况下,GPT-2的推理延迟显著高于BERT-Base,这归因于其更高的内存操作量和更低的算术强度[17] - 该案例清楚地表明,对于解码器模型(尤其是在小批量大小下),内存带宽而非计算能力是主要瓶颈[17] 突破内存瓶颈的潜在解决方案:模型与算法创新 - 需要重新思考人工智能模型的设计,当前基于简单扩展规则(如缩放基础Transformer架构)的方法效率有限[18] - 开发更高效的训练算法,如对超参数调优更具鲁棒性的二阶随机优化方法,但需解决其内存占用是其他方法3-4倍的问题[22] - 采用重物化(激活检查点)技术,通过增加约20%的计算量,可减少高达5倍的内存占用,使单芯片训练更大模型成为可能[23] - 设计对低精度训练鲁棒的算法,例如混合使用FP8、FP16甚至FP4精度,以更高效利用硬件并腾出芯片资源改善内存性能[24] 突破内存瓶颈的潜在解决方案:部署与硬件 - 通过量化、剪枝或设计小型语言模型来压缩模型,以利于高效部署[25] - 量化可将推理精度降至INT4,使模型占用空间和延迟最多降低8倍,但使用更低精度(如低于INT4)仍是挑战[27] - 剪枝可移除冗余参数,现有方法可剪枝高达30%的结构化稀疏神经元或高达80%的非结构化稀疏神经元,且对精度影响极小[27] - 小型语言模型若能完全集成到芯片上,可带来数个数量级的速度提升和能耗降低,是推动AI广泛应用的新方向[28] - 重新思考AI加速器设计,在峰值计算能力和内存带宽间寻求更好权衡,例如采用更高效的缓存层次结构和更高容量的DRAM[29]
LeCun预言成真?这有一份通往AGI的硬核路线图:从BERT到Genie,在掩码范式的视角下一步步构建真正的世界模型
量子位· 2026-01-01 10:13
文章核心观点 - 一篇题为《From Masks to Worlds: A Hitchhiker's Guide to World Models》的论文提出,构建真正的世界模型(True World Model)最有希望的技术路径是从掩码预训练出发,经过统一架构与可交互式闭环,并设计持久的记忆系统[3][4] - 论文认为,真正的世界模型并非单一模型,而是一个由生成系统、交互系统和记忆系统三大核心子系统合成的有机整体[6][8] - 掩码(Masking)是贯穿世界模型演进五个阶段的灵魂线索,它已从一个预训练技巧进化为跨模态通用的生成原则和优于自回归的“创世法则”[4][10][13] 世界模型的定义与构成 - 真正的世界模型需要是一个由三大核心子系统合成的有机整体[6] - **生成系统**:是世界的物理法则载体,负责预测下一帧、模拟世界状态演化、将隐变量映射为观测,并预测任务相关的回报[8] - **交互系统**:包含推断器和策略,是让世界“活”起来、实现可交互闭环的关键,没有它,模型只是视频而非模拟器[8] - **记忆系统**:负责通过循环状态更新确保世界在时间轴上的持久连贯,是对抗熵增的防线[8] 世界模型的演进阶段 - 论文将世界模型的演进划分为五个阶段,并用一张全景图串联起了从BERT到Genie-3的十年AI进化史[4][9] - **第一阶段:基于掩码的模型** - 确立了“Mask-Infill-Generalize(遮挡-补全-泛化)”作为构建世界模型的地基[23] - **第二阶段:统一模型** - 目标是用同一个骨干,在同一个范式下,处理和生成所有模态[24] - **第三阶段:交互式生成模型** - 模型开始响应用户动作,从“放映机”变成“模拟器”[36] - **第四阶段:记忆与一致性** - 解决长程推理中的“灾难性遗忘”和“状态漂移”问题[46][48] - **第五阶段:真正的世界模型** - 当生成、交互和记忆系统完美融合,模型将涌现出持久性、主体性和涌现性三大本质特征[51][52] 第一阶段:掩码范式的统治力 - 掩码被证明是跨模态通用的“生成原则”和优于自回归的“创世法则”[13] - **在语言领域**:以Google的Gemini Diffusion为例,离散扩散模型将掩码进化为迭代去噪过程,在生成质量和推理速度上可比肩甚至超越传统自回归基线[16][17] - **在视觉领域**:MAE通过高比例像素遮挡学习到了极强的语义表征;MaskGIT和MUSE利用掩码生成变换器实现了并行解码,在保持高保真度的同时带来极致效率;最新的Meissonic证明掩码生成变换器可在高分辨率文生图任务上与顶级扩散模型竞争[19] - **多模态普适性**:从VideoMAE的时空管道掩码到wav2vec 2.0的音频掩码,再到Point-BERT的3D点云掩码,掩码是能统一所有数据形态的通用语言[22] 第二阶段:统一架构的路径博弈 - 实现统一模型存在两大阵营的博弈:语言先验与视觉先验[25] - **语言先验建模**:主流是自回归路线,但存在处理图像全局结构的局限;新兴的掩码/离散扩散路线(如MMaDA、Lumina-DiMOO、LaviDa-O)在保持语言理解能力的同时,利用掩码的双向注意力提升视觉生成质量,被视为掩码范式在语言建模内部的一次胜利[26][28][30] - **视觉先验建模**:从视觉模型出发反向兼容文本,例如基于潜在扩散模型的UniDiffuser和基于掩码图像建模的Muddit[32][35] - Lumina-DiMOO和Muddit等工作证明,掩码/离散扩散架构能在双向上下文中实现更精细的生成控制,是让“语言逻辑”与“视觉生成”完美兼容的最大公约数[34] 第三阶段:交互式生成模型 - 此阶段模型开始响应用户动作,从预测下一帧变为可交互的模拟器[36] - **从GameGAN到Genie**:Genie-1基于MaskGIT的离散掩码生成架构,从互联网视频中无监督学习“潜在动作”,通过预测被掩码的未来帧学会物理规律[37][38] - **Genie-3的突破**:实现了720p分辨率、24fps帧率的实时交互,并能维持分钟级的连贯游玩[41] - **效率优势**:掩码架构的并行解码能力使得Genie等模型能在极短时间内生成高质量下一帧,从而闭合低延迟的“感知-行动”回路;相比之下,传统的自回归视频生成模型在实时性上捉襟见肘[42][43] - GameNGen和Matrix-Game等基于扩散的实时引擎共同证明,要造可玩的世界,掩码/扩散范式是目前最有希望的路线之一[43] 第四阶段:记忆与一致性的挑战 - 当前视频生成模型依赖隐式的KV Cache或有限的上下文窗口,在长程推理中容易导致“灾难性遗忘”和“状态漂移”[47][48] - 论文梳理了三类解决方案以构建持久的世界[49] - **外部化记忆**:如RAG和MemGPT,给模型外挂一个可读写的硬盘,让知识可编辑、可追溯[49] - **架构级持久化**:探讨Mamba这类线性时间状态空间模型以及Ring Attention等技术,试图从架构底层实现“无限上下文”[49] - **一致性治理**:针对视频生成中的漂移,利用FramePack、Mixture of Contexts以及VMem等技术,通过显式的3D结构或稀疏注意力为像素世界打上稳固的“时空桩”[49] 第五阶段:真正的世界模型与终极难题 - 当生成、交互和记忆系统完美融合,真正的世界模型将涌现出三大本质特征:持久性、主体性和涌现性[51][52] - 要到达此阶段,需攻克三大终极难题[53] - **连贯性/评估难题**:当世界是自生成的,需要新的评估体系来衡量虚构世界的逻辑自洽性[58] - **压缩/扩展难题**:世界模型必须学会“抽象记忆”,只保留因果相关的状态,否则计算量将导致系统崩溃[58] - **对齐/安全难题**:不仅要对齐世界的“物理法则”,还要对齐世界中涌现出的亿万智能体社会的“社会动态”,难度远超对齐一个ChatGPT[58] - 跨越此门槛后,世界模型将从娱乐工具升级为“科学仪器”,可用于运行经济、社会、认知等领域的虚拟实验[55]
NUS尤洋教授深度探讨智能增长的瓶颈:或许我们将这样实现AGI?
机器之心· 2025-12-31 12:09
文章核心观点 - 当前人工智能的发展已取得惊人成就,但正面临进一步增长的瓶颈[1] - 智能增长的核心矛盾在于如何将算力更有效地转化为智能,而非单纯的架构变革[6] - 现有以Transformer架构和超大算力为核心的范式,在进一步增长时难以充分消化持续增长的算力资源,导致“预训练红利递减”[6][33] - 未来突破的关键不在于工程优化,而在于底层范式的突破,以找到更高效的算力利用方式[8][42] - 尽管存在瓶颈,但通过更好的算力利用方式,人工智能的智能水平仍有巨大的发展空间,前景依然乐观[9][44] 智能的本质与现状 - 目前对于智能(AGI)尚无明确定义,其标准会随时代变化[15][16] - 智能的核心能力是预测和创作,预测未来的难度远高于解释过去[17][30] - 当前模型的智能主要来源于预训练(尤其是自监督方法),仅有少量来自微调或强化学习[20] - 预训练、微调、强化学习在计算本质上都是通过计算梯度(或其类似物)来更新模型参数[21] 当前智能增长瓶颈的根源 - 瓶颈的根源在于现有范式无法充分消化持续增长的算力[33] - 当前AI大模型的技术本质是将电力能源通过计算过程转化为可复用的智能,转化效率是关键[19] - 即使算力指数级增长,如果现有算法无法有效利用这些资源,智能提升仍将受限[7] - 衡量智能提升的根本指标是:使用同样的浮点数计算次数,能否获得一个更好的模型[34] 现有成功范式的分析 - Transformer架构能够胜出的核心原因在于其本质是一台并行计算机,完美匹配了GPU的并行计算单元[24][27] - OpenAI坚持的Next-Token Prediction损失函数,因其最小化人为干预且本质是预测未来,在实践中效果显著优于BERT的完形填空等损失函数[28][29][30] - 英伟达GPU设计的核心路线是在同样的物理空间里堆叠更多高带宽内存(HBM),这要求算法必须提供足够大的批处理量或并行度[22][23] 未来潜在的发展方向 - **硬件与基础设施层**:需要持续产生更大的绝对算力,可通过集群方式构建,核心目标是维持或提升“计算开销/通信开销”的比值[36][41] - **计算精度**:探索更高精度(如FP32、FP64)的计算能力,理论上应能带来更可靠的计算结果和智能提升[45] - **优化器**:采用更高阶的优化器,理论上能在学习过程中为模型提供更好的指导,计算出更优的梯度[45] - **模型架构与损失函数**:需要扩展性更好的架构或损失函数,以更高效地整合和利用算力[45] - **训练策略**:在参数与数据匹配的前提下,探索更多的训练轮次和更优的超参数,以“吃下”更多能源并转化为智能[45] - **并行计算**:通过增加模型每层的参数量(Tensor Parallelism)和序列长度(Sequence Parallelism)来提高并行度,从而利用更多算力[37] 对未来的展望 - 智能增长归根结底是算力利用问题,随着问题规模的不断扩大,行业终将找到更高效的算力使用方式[42][44] - 预训练可能才刚刚开始,大模型智能仍有巨大的发展空间[9] - 人工智能发展的历史经验表明,依托计算能力的通用方法最终将占据压倒性优势[44]
Transformer能否支撑下一代Agent?
钛媒体APP· 2025-12-22 15:39
文章核心观点 - 多位AI领域顶尖专家和学者认为,当前主导AI发展的Transformer架构存在根本性局限,无法支撑下一代智能体(Agent)和通用人工智能(AGI)的发展,行业正从依赖算力与数据规模扩张的“规模化时代”,回归到底层创新的“研究时代”[1][11][15] Transformer架构的成就与当前地位 - 自2017年Google论文《Attention Is All You Need》提出后,Transformer架构凭借其自注意力机制和并行计算能力,成为过去七年AI模型(如BERT、GPT系列、DeepSeek)的基石,并推动了以英伟达GPU和Scaling Law为核心的AI浪潮[2][3] - 该架构与GPU的结合被比喻为“内燃机遇上了石油”,直接引爆了第三次工业革命级的人工智能浪潮[3] 专家对Transformer局限性的批判 - **缺乏因果推理与物理理解**:Transformer本质上是基于海量数据的概率预测(下一个Token预测),擅长发现统计相关性,但无法理解背后的因果逻辑和物理规律[4][5] - **类比为死记硬背的优等生**:前OpenAI联合创始人Ilya Sutskever比喻当前模型像练习了一万小时、背下所有考题的学生,缺乏真正的泛化能力和深刻直觉,遇到新领域表现会大打折扣[4][5] - **长上下文处理存在“退化”问题**:阶跃星辰张祥雨指出,当前Transformer模型在处理长文本(如超过8万个Token)时,智商(性能)会快速下降,因为其信息流单向、思考深度固定,无法进行“慢思考”[6] - **视觉与物理世界的理解无力**:李飞飞指出,仅靠语言不足以构建AGI,将预测下一个词移植为预测下一帧视频的方法,导致生成的视频缺乏时空一致性[8] - **样本效率低下**:相比人类依靠先验知识和本能快速学习(如十几小时学会开车),AI需要海量数据训练,试图通过穷举数据来掩盖对物理规律认知的匮乏[9][10] 对未来AI架构发展的展望 - **行业进入“研究时代”**:Ilya Sutskever判断,行业正告别“规模化时代”(2020-2025),重新回到注重底层创新的“研究时代”(2012-2020),利用现有巨大算力寻找新配方[11] - **新架构将是系统性重构**:未来架构可能是一种混合体,内核是高度抽象的因果逻辑,接口是丰富的感官世界[12] - **具体技术方向**:包括李飞飞World Labs致力于构建具有“空间智能”的模型;张祥雨透露了“非线性RNN”方向,支持内部循环、反刍和推理;以及发展更高效的强化学习范式,让AI具备持续学习和内部价值函数[12] - **新架构需要新的数据与硬件**:视频数据、物理世界传感器数据、机器人交互数据价值将重估;硬件基础设施可能面临洗牌,专用芯片或受挑战,通用GPU的灵活性可能再次成为优势[13][14] 对行业的影响与结论 - Transformer是一座丰碑但非终点,其在因果推理、物理理解和无限上下文上的缺陷,注定只是通往AGI道路上的垫脚石[15] - 未来五年,Transformer可能逐渐退居幕后成为子模块,一种融合空间智能、具身交互和深度逻辑推理的新架构将走上台前,这对科技公司既是巨大挑战也是难得机遇[15][16]
谷歌AI往事:隐秘的二十年,与狂奔的365天
36氪· 2025-11-27 20:13
公司近期业绩与产品表现 - Gemini应用月活跃用户从上一季度的4.5亿大幅提升至6.5亿[2] - Gemini 3在各类主流基准上展现统治级表现,Nano Banana Pro模型将AI生图精度与想象力提升到新高度[2][43] - 公司进入罕见的产品加速期,接连发布视频模型Veo 3、虚拟世界生成模型Genie 3等“王炸”产品[43][44] 公司AI技术发展历史与积淀 - 公司二十多年间的AI投资贯穿现代深度学习绝大部分关键节点,从拉里·佩奇对“终极搜索引擎”的想象,到“猫论文”、DeepMind、TPU[4][6] - 在Transformer论文发表前十年,世界上几乎所有知名AI人才都曾在公司工作过[5] - 公司首次语言模型实验始于2000年左右,开发出拼写纠错功能,并进化出内部昵称为PHIL的概率语言模型[10][11] 关键技术突破与商业影响 - 2012年“猫论文”使用16000个CPU核心训练九层神经网络,通过无监督学习识别YouTube视频中的猫,证明无监督学习可行性[14][15] - “猫论文”技术催生推荐系统机制,被应用于YouTube并奠定其全球最大视频平台基础,后续被Facebook、Instagram、字节跳动效仿,创造数千亿美元收入[15][17] - 公司开发出Transformer架构,其模型彻底碾压基于LSTM的谷歌翻译方案,证明模型规模越大效果越好[34] 重要收购与人才战略 - 2014年以5.5亿美元收购DeepMind,获得最豪华AI研究团队,但收购间接导致OpenAI、Anthropic、xAI等公司诞生[22][23][24] - 收购DeepMind后,公司向英伟达订购4万块GPU,订单价值1.3亿美元,后继续花费数亿美元购买GPU[25][27] - 为应对ChatGPT威胁,公司将Google Brain和DeepMind合并为Google DeepMind,并召回谢尔盖·布林等顶级人才参与Gemini项目[42] 自研芯片与基础设施 - 为解决GPU成本过高和算力不足问题,公司自研TPU芯片,专门针对神经网络矩阵乘法进行优化,效率远高于当时GPU[28][29][30] - TPU通过降低计算精度提高效率,避免公司向英伟达支付高额溢价(英伟达GPU系统毛利率高达75%至80%)[31] - 自研TPU使公司建立规模几乎与英伟达相当的芯片研发体系,服务于自身和谷歌云客户[30] 战略误判与危机应对 - 公司早期已开发出与ChatGPT接近的聊天机器人Mina,但因失控风险、收入模式冲突和法律风险未发布[36][37] - ChatGPT的出现使公司意识到AI从持续性创新转变为颠覆性创新,对构成生存威胁,内部发布红色警报[41][42] - 公司决定结束多模型并存局面,集中资源打造多模态旗舰模型Gemini,并于2023年5月宣布计划后,同年12月发布公共测试版本[42][43]
扩散不死,BERT永生,Karpathy凌晨反思:自回归时代该终结了?
36氪· 2025-11-05 12:44
文章核心观点 - 基于RoBERTa的掩码语言模型可通过引入动态掩码率改造为文本扩散模型,实现从表示学习到文本生成的转变 [1][13][26] - 实验证明改造后的RoBERTa Diffusion能生成视觉连贯的文本,表明BERT系模型本质上是固定掩码率训练的文本扩散模型 [21][24][26] - 文本扩散模型采用在整个Token画布上迭代重采样的双向注意力机制,与自回归模型的单向生成机制形成对比 [27][28] 技术原理与实验 - 文本扩散通过在前向过程逐步添加<MASK>噪声,在反向过程训练模型迭代去噪,将掩码语言建模目标扩展为生成过程 [11][13] - 实验使用10个扩散步骤,每个训练批次随机采样从1.0到0.1的掩码比例,推理时从240个<MASK>开始逐步减少掩码比例 [17][18] - 在H200显卡上训练30分钟后,模型基于256长度提示词生成了连贯文本,尽管存在数据集格式化导致的异常 [21][22] 行业影响与前景 - 该方法表明生成领域仍存在优化创新空间,结合AR-Diffusion等技术可进一步提升生成质量与推理速度 [25][28] - 谷歌DeepMind已发布实验性Gemini Diffusion模型,业界认为扩散语言模型在速度上有优势且是下一代AI发展方向 [30] - 扩散模型采用双向注意力机制迭代更新整个Token画布,与自回归模型的单向追加机制形成技术路径差异 [28]
前阿里、字节大模型带头人杨红霞创业:大模型预训练,不是少数顶尖玩家的算力竞赛|智能涌现独家
搜狐财经· 2025-10-30 16:35
公司概况与战略定位 - 创始人杨红霞在阿里和字节拥有近7年大模型研发经验,曾带领团队开发通义千问前身M6大模型[1] - 新AI公司InfiX.ai于2024年7月成立,选择香港作为总部,快速组建40人团队[1][3] - 公司获得香港理工大学支持,通过RAISe+计划获得政府100亿元资助,并在算力上获得90%减免折扣[73][74][76] 核心技术:低资源训练与去中心化 - 开源全球首个FP8训练"全家桶",在模型性能几乎无损下,最高提升训练速度22%,节省显存14%[6][7][9] - 提出模型融合技术InfiFusion,可将不同尺寸和结构的领域专家模型融合,避免重复训练造成的资源浪费[6][10] - 专注于异构模型融合,突破同构模型限制,在18个推理基准测试中平均得分从77分提升至79分,最新方法逼近88分[50][51][60][61][63][64] 技术应用与领域突破 - 推出医疗多模态大模型训练框架InfiMed,基于36K RLV小规模数据训练的3B模型在七大医疗基准测试中平均准确率达59.2%,超越谷歌MedGemma-4B-IT[11][12] - 多智能体系统InfiAgent在需要多步推理的复杂任务DROP上领先最佳基线3.6%[13][14] - 选择癌症领域作为技术验证场景,因其数据多模态特性复杂,能更好区分模型能力[39][41] 行业趋势与融资进展 - "去中心化"训练范式获市场认可,前OpenAI CTO新公司Thinking Machines Lab种子轮融资20亿美元,估值120亿美元[15][34] - InfiX.ai第二轮Pre-A融资仅用两周完成,目前处于超募状态,估值达数亿美元[15][37][38] - 小语言模型被MIT Tech Review列为2025年十大突破性技术,验证公司技术方向正确性[27] 研发理念与团队建设 - 公司坚持技术驱动,认为技术断崖式领先是商业化基础,不急于追求短期商业化成果[86][88][89] - 团队规模约40人,强调成员代码能力、好奇心和合作态度,实行端到端研发模式[79][80][81] - 研发节奏聚焦三大顶级AI会议,但对重大成果会立即发布,如医疗模型7B参数规模超过GPT-5的成果[67][68]
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
量子位· 2025-10-21 17:05
文章核心观点 - GRACE框架是一种创新的可解释生成式Embedding框架,其核心思想是“让模型先解释,再学Embedding”,将对比学习信号从惩罚式损失转变为奖励信号,通过强化学习驱动模型生成解释性推理链后再进行表征学习 [1][6][7] - 该方法解决了传统文本表征模型将大语言模型视为“哑巴编码器”的黑箱缺陷,使得Embedding过程从纯粹统计结果转变为可审查的透明表征,在保持甚至提升性能的同时获得了高可解释性 [4][5][27] - 在MTEB基准测试的56个数据集上,GRACE在多个骨干模型上均实现了性能全面提升,特别是在检索、配对分类和聚类任务上表现显著领先,且未损害模型原有的通用任务能力 [20][22][23] 技术框架与方法 - GRACE框架包含三个核心模块:生成式思维链模块首先生成输入文本的解释性推理链;可解释表征模块将“输入+推理链”拼接后通过Masked Mean Pooling得到Embedding;奖励驱动学习模块将对比学习目标重新定义为奖励函数进行强化学习优化 [8][9][11] - 训练流程采用有监督与无监督统一的框架,有监督阶段基于包含150万样本的E5训练集学习语义关系,无监督阶段借鉴SimCSE思路对同一文本生成多个推理链作为正样本,该双模式设计使GRACE可适配任何预训练大语言模型而无需大规模新标注数据 [12][13][17][18] - 奖励函数设计包含三个关键部分:对比奖励用于提升查询与正样本相似度并惩罚负样本;一致性奖励确保不同生成的推理链保持相似性以防止不稳定;困难负样本奖励重点区分最容易混淆的负样本 [16] 性能表现与实验结果 - 在MTEB全套56个数据集的综合评测中,GRACE在平均得分上全面超越所有基线模型,以Qwen3-4B模型为例,GRACE版本平均得分达51.03,显著高于基线模型的45.49和SimCSE增强版的50.11,在检索任务上从37.42提升至43.67,重排序任务从48.16提升至52.34 [22] - 对通用领域任务的测试表明GRACE避免了传统对比学习导致的灾难性遗忘问题,Qwen3-4B模型在GRACE监督训练下通用任务平均性能从60.73提升至61.13,而非GRACE的对比学习训练则导致性能暴跌至8.51,差异达52.22 [23][24] - 实验覆盖了四类主流大语言模型骨干网络,包括Qwen2.5-1.5B/3B、LLaMA-3.2-3B和Qwen3-4B,GRACE在所有模型上都表现出稳定的性能提升和可解释性优势,验证了框架的普适性 [21][22]