Workflow
BERT
icon
搜索文档
烦人的内存墙
半导体行业观察· 2026-02-02 09:33
文章核心观点 - 人工智能模型,特别是大型语言模型(LLM)的训练和服务,正面临日益严重的“内存墙”瓶颈,其制约已超过计算能力本身[2][4] - 过去20年,服务器硬件峰值计算能力(FLOPS)增长6万倍,远超DRAM带宽(增长100倍)和互连带宽(增长30倍)的增速,导致内存成为主要性能瓶颈[8][10] - 解码器架构的Transformer模型(如GPT)因自回归推理特性,其内存操作量更大、算术强度更低,使得内存带宽瓶颈尤为突出[17] - 为应对挑战,需要在模型架构设计、训练算法、部署策略以及硬件设计等多个层面进行系统性重新思考和创新[18][31] 硬件性能增长趋势与“内存墙”问题 - 过去20年间,服务器硬件的峰值浮点运算能力(FLOPS)以每两年3.0倍的速度增长,而DRAM带宽和互连带宽的增速分别仅为每两年1.6倍和1.4倍[10] - 自1998年以来,服务器级AI硬件的峰值计算能力增长了6万倍,而DRAM峰值带宽仅增长100倍,互连带宽仅增长30倍,差距巨大[8] - “内存墙”问题涉及内存容量、带宽及延迟的限制,涵盖芯片内、芯片与DRAM间以及多处理器间的数据传输,其改进速度均落后于计算能力增长[6][8] - 内存带宽瓶颈不仅存在于单芯片内部,在分布式训练/服务中,加速器间的网络通信带宽也是更慢、效率更低的瓶颈[9] 大型语言模型(LLM)的发展趋势与挑战 - 2018年至2022年间,训练LLM所需的计算量(FLOPs)以每两年750倍的速度激增,而模型参数规模以每两年410倍的速度增长[4][9] - 模型规模的扩展速度(410倍/两年)已超过单个芯片的可用内存容量,迫使采用分布式内存并行,但面临更严峻的通信带宽挑战[9] - 即使模型能装入单芯片,芯片内部不同层级内存(如寄存器、缓存、全局内存)间的数据传输也日益成为保持计算单元利用率的关键瓶颈[10] Transformer模型案例研究:编码器 vs. 解码器 - 编码器模型(如BERT)并发处理所有token,涉及矩阵-矩阵运算;解码器模型(如GPT)以自回归方式运行,涉及重复的矩阵-向量乘法[13] - 算术强度(每字节内存操作可执行的FLOP数)是衡量性能瓶颈的关键指标,解码器模型因矩阵-向量运算而具有更低的算术强度[14][16] - 性能分析显示,在模型配置和总FLOPs相近的情况下,GPT-2的推理延迟显著高于BERT-Base,这归因于其更高的内存操作量和更低的算术强度[17] - 该案例清楚地表明,对于解码器模型(尤其是在小批量大小下),内存带宽而非计算能力是主要瓶颈[17] 突破内存瓶颈的潜在解决方案:模型与算法创新 - 需要重新思考人工智能模型的设计,当前基于简单扩展规则(如缩放基础Transformer架构)的方法效率有限[18] - 开发更高效的训练算法,如对超参数调优更具鲁棒性的二阶随机优化方法,但需解决其内存占用是其他方法3-4倍的问题[22] - 采用重物化(激活检查点)技术,通过增加约20%的计算量,可减少高达5倍的内存占用,使单芯片训练更大模型成为可能[23] - 设计对低精度训练鲁棒的算法,例如混合使用FP8、FP16甚至FP4精度,以更高效利用硬件并腾出芯片资源改善内存性能[24] 突破内存瓶颈的潜在解决方案:部署与硬件 - 通过量化、剪枝或设计小型语言模型来压缩模型,以利于高效部署[25] - 量化可将推理精度降至INT4,使模型占用空间和延迟最多降低8倍,但使用更低精度(如低于INT4)仍是挑战[27] - 剪枝可移除冗余参数,现有方法可剪枝高达30%的结构化稀疏神经元或高达80%的非结构化稀疏神经元,且对精度影响极小[27] - 小型语言模型若能完全集成到芯片上,可带来数个数量级的速度提升和能耗降低,是推动AI广泛应用的新方向[28] - 重新思考AI加速器设计,在峰值计算能力和内存带宽间寻求更好权衡,例如采用更高效的缓存层次结构和更高容量的DRAM[29]
LeCun预言成真?这有一份通往AGI的硬核路线图:从BERT到Genie,在掩码范式的视角下一步步构建真正的世界模型
量子位· 2026-01-01 10:13
文章核心观点 - 一篇题为《From Masks to Worlds: A Hitchhiker's Guide to World Models》的论文提出,构建真正的世界模型(True World Model)最有希望的技术路径是从掩码预训练出发,经过统一架构与可交互式闭环,并设计持久的记忆系统[3][4] - 论文认为,真正的世界模型并非单一模型,而是一个由生成系统、交互系统和记忆系统三大核心子系统合成的有机整体[6][8] - 掩码(Masking)是贯穿世界模型演进五个阶段的灵魂线索,它已从一个预训练技巧进化为跨模态通用的生成原则和优于自回归的“创世法则”[4][10][13] 世界模型的定义与构成 - 真正的世界模型需要是一个由三大核心子系统合成的有机整体[6] - **生成系统**:是世界的物理法则载体,负责预测下一帧、模拟世界状态演化、将隐变量映射为观测,并预测任务相关的回报[8] - **交互系统**:包含推断器和策略,是让世界“活”起来、实现可交互闭环的关键,没有它,模型只是视频而非模拟器[8] - **记忆系统**:负责通过循环状态更新确保世界在时间轴上的持久连贯,是对抗熵增的防线[8] 世界模型的演进阶段 - 论文将世界模型的演进划分为五个阶段,并用一张全景图串联起了从BERT到Genie-3的十年AI进化史[4][9] - **第一阶段:基于掩码的模型** - 确立了“Mask-Infill-Generalize(遮挡-补全-泛化)”作为构建世界模型的地基[23] - **第二阶段:统一模型** - 目标是用同一个骨干,在同一个范式下,处理和生成所有模态[24] - **第三阶段:交互式生成模型** - 模型开始响应用户动作,从“放映机”变成“模拟器”[36] - **第四阶段:记忆与一致性** - 解决长程推理中的“灾难性遗忘”和“状态漂移”问题[46][48] - **第五阶段:真正的世界模型** - 当生成、交互和记忆系统完美融合,模型将涌现出持久性、主体性和涌现性三大本质特征[51][52] 第一阶段:掩码范式的统治力 - 掩码被证明是跨模态通用的“生成原则”和优于自回归的“创世法则”[13] - **在语言领域**:以Google的Gemini Diffusion为例,离散扩散模型将掩码进化为迭代去噪过程,在生成质量和推理速度上可比肩甚至超越传统自回归基线[16][17] - **在视觉领域**:MAE通过高比例像素遮挡学习到了极强的语义表征;MaskGIT和MUSE利用掩码生成变换器实现了并行解码,在保持高保真度的同时带来极致效率;最新的Meissonic证明掩码生成变换器可在高分辨率文生图任务上与顶级扩散模型竞争[19] - **多模态普适性**:从VideoMAE的时空管道掩码到wav2vec 2.0的音频掩码,再到Point-BERT的3D点云掩码,掩码是能统一所有数据形态的通用语言[22] 第二阶段:统一架构的路径博弈 - 实现统一模型存在两大阵营的博弈:语言先验与视觉先验[25] - **语言先验建模**:主流是自回归路线,但存在处理图像全局结构的局限;新兴的掩码/离散扩散路线(如MMaDA、Lumina-DiMOO、LaviDa-O)在保持语言理解能力的同时,利用掩码的双向注意力提升视觉生成质量,被视为掩码范式在语言建模内部的一次胜利[26][28][30] - **视觉先验建模**:从视觉模型出发反向兼容文本,例如基于潜在扩散模型的UniDiffuser和基于掩码图像建模的Muddit[32][35] - Lumina-DiMOO和Muddit等工作证明,掩码/离散扩散架构能在双向上下文中实现更精细的生成控制,是让“语言逻辑”与“视觉生成”完美兼容的最大公约数[34] 第三阶段:交互式生成模型 - 此阶段模型开始响应用户动作,从预测下一帧变为可交互的模拟器[36] - **从GameGAN到Genie**:Genie-1基于MaskGIT的离散掩码生成架构,从互联网视频中无监督学习“潜在动作”,通过预测被掩码的未来帧学会物理规律[37][38] - **Genie-3的突破**:实现了720p分辨率、24fps帧率的实时交互,并能维持分钟级的连贯游玩[41] - **效率优势**:掩码架构的并行解码能力使得Genie等模型能在极短时间内生成高质量下一帧,从而闭合低延迟的“感知-行动”回路;相比之下,传统的自回归视频生成模型在实时性上捉襟见肘[42][43] - GameNGen和Matrix-Game等基于扩散的实时引擎共同证明,要造可玩的世界,掩码/扩散范式是目前最有希望的路线之一[43] 第四阶段:记忆与一致性的挑战 - 当前视频生成模型依赖隐式的KV Cache或有限的上下文窗口,在长程推理中容易导致“灾难性遗忘”和“状态漂移”[47][48] - 论文梳理了三类解决方案以构建持久的世界[49] - **外部化记忆**:如RAG和MemGPT,给模型外挂一个可读写的硬盘,让知识可编辑、可追溯[49] - **架构级持久化**:探讨Mamba这类线性时间状态空间模型以及Ring Attention等技术,试图从架构底层实现“无限上下文”[49] - **一致性治理**:针对视频生成中的漂移,利用FramePack、Mixture of Contexts以及VMem等技术,通过显式的3D结构或稀疏注意力为像素世界打上稳固的“时空桩”[49] 第五阶段:真正的世界模型与终极难题 - 当生成、交互和记忆系统完美融合,真正的世界模型将涌现出三大本质特征:持久性、主体性和涌现性[51][52] - 要到达此阶段,需攻克三大终极难题[53] - **连贯性/评估难题**:当世界是自生成的,需要新的评估体系来衡量虚构世界的逻辑自洽性[58] - **压缩/扩展难题**:世界模型必须学会“抽象记忆”,只保留因果相关的状态,否则计算量将导致系统崩溃[58] - **对齐/安全难题**:不仅要对齐世界的“物理法则”,还要对齐世界中涌现出的亿万智能体社会的“社会动态”,难度远超对齐一个ChatGPT[58] - 跨越此门槛后,世界模型将从娱乐工具升级为“科学仪器”,可用于运行经济、社会、认知等领域的虚拟实验[55]
NUS尤洋教授深度探讨智能增长的瓶颈:或许我们将这样实现AGI?
机器之心· 2025-12-31 12:09
文章核心观点 - 当前人工智能的发展已取得惊人成就,但正面临进一步增长的瓶颈[1] - 智能增长的核心矛盾在于如何将算力更有效地转化为智能,而非单纯的架构变革[6] - 现有以Transformer架构和超大算力为核心的范式,在进一步增长时难以充分消化持续增长的算力资源,导致“预训练红利递减”[6][33] - 未来突破的关键不在于工程优化,而在于底层范式的突破,以找到更高效的算力利用方式[8][42] - 尽管存在瓶颈,但通过更好的算力利用方式,人工智能的智能水平仍有巨大的发展空间,前景依然乐观[9][44] 智能的本质与现状 - 目前对于智能(AGI)尚无明确定义,其标准会随时代变化[15][16] - 智能的核心能力是预测和创作,预测未来的难度远高于解释过去[17][30] - 当前模型的智能主要来源于预训练(尤其是自监督方法),仅有少量来自微调或强化学习[20] - 预训练、微调、强化学习在计算本质上都是通过计算梯度(或其类似物)来更新模型参数[21] 当前智能增长瓶颈的根源 - 瓶颈的根源在于现有范式无法充分消化持续增长的算力[33] - 当前AI大模型的技术本质是将电力能源通过计算过程转化为可复用的智能,转化效率是关键[19] - 即使算力指数级增长,如果现有算法无法有效利用这些资源,智能提升仍将受限[7] - 衡量智能提升的根本指标是:使用同样的浮点数计算次数,能否获得一个更好的模型[34] 现有成功范式的分析 - Transformer架构能够胜出的核心原因在于其本质是一台并行计算机,完美匹配了GPU的并行计算单元[24][27] - OpenAI坚持的Next-Token Prediction损失函数,因其最小化人为干预且本质是预测未来,在实践中效果显著优于BERT的完形填空等损失函数[28][29][30] - 英伟达GPU设计的核心路线是在同样的物理空间里堆叠更多高带宽内存(HBM),这要求算法必须提供足够大的批处理量或并行度[22][23] 未来潜在的发展方向 - **硬件与基础设施层**:需要持续产生更大的绝对算力,可通过集群方式构建,核心目标是维持或提升“计算开销/通信开销”的比值[36][41] - **计算精度**:探索更高精度(如FP32、FP64)的计算能力,理论上应能带来更可靠的计算结果和智能提升[45] - **优化器**:采用更高阶的优化器,理论上能在学习过程中为模型提供更好的指导,计算出更优的梯度[45] - **模型架构与损失函数**:需要扩展性更好的架构或损失函数,以更高效地整合和利用算力[45] - **训练策略**:在参数与数据匹配的前提下,探索更多的训练轮次和更优的超参数,以“吃下”更多能源并转化为智能[45] - **并行计算**:通过增加模型每层的参数量(Tensor Parallelism)和序列长度(Sequence Parallelism)来提高并行度,从而利用更多算力[37] 对未来的展望 - 智能增长归根结底是算力利用问题,随着问题规模的不断扩大,行业终将找到更高效的算力使用方式[42][44] - 预训练可能才刚刚开始,大模型智能仍有巨大的发展空间[9] - 人工智能发展的历史经验表明,依托计算能力的通用方法最终将占据压倒性优势[44]
Transformer能否支撑下一代Agent?
钛媒体APP· 2025-12-22 15:39
文章核心观点 - 多位AI领域顶尖专家和学者认为,当前主导AI发展的Transformer架构存在根本性局限,无法支撑下一代智能体(Agent)和通用人工智能(AGI)的发展,行业正从依赖算力与数据规模扩张的“规模化时代”,回归到底层创新的“研究时代”[1][11][15] Transformer架构的成就与当前地位 - 自2017年Google论文《Attention Is All You Need》提出后,Transformer架构凭借其自注意力机制和并行计算能力,成为过去七年AI模型(如BERT、GPT系列、DeepSeek)的基石,并推动了以英伟达GPU和Scaling Law为核心的AI浪潮[2][3] - 该架构与GPU的结合被比喻为“内燃机遇上了石油”,直接引爆了第三次工业革命级的人工智能浪潮[3] 专家对Transformer局限性的批判 - **缺乏因果推理与物理理解**:Transformer本质上是基于海量数据的概率预测(下一个Token预测),擅长发现统计相关性,但无法理解背后的因果逻辑和物理规律[4][5] - **类比为死记硬背的优等生**:前OpenAI联合创始人Ilya Sutskever比喻当前模型像练习了一万小时、背下所有考题的学生,缺乏真正的泛化能力和深刻直觉,遇到新领域表现会大打折扣[4][5] - **长上下文处理存在“退化”问题**:阶跃星辰张祥雨指出,当前Transformer模型在处理长文本(如超过8万个Token)时,智商(性能)会快速下降,因为其信息流单向、思考深度固定,无法进行“慢思考”[6] - **视觉与物理世界的理解无力**:李飞飞指出,仅靠语言不足以构建AGI,将预测下一个词移植为预测下一帧视频的方法,导致生成的视频缺乏时空一致性[8] - **样本效率低下**:相比人类依靠先验知识和本能快速学习(如十几小时学会开车),AI需要海量数据训练,试图通过穷举数据来掩盖对物理规律认知的匮乏[9][10] 对未来AI架构发展的展望 - **行业进入“研究时代”**:Ilya Sutskever判断,行业正告别“规模化时代”(2020-2025),重新回到注重底层创新的“研究时代”(2012-2020),利用现有巨大算力寻找新配方[11] - **新架构将是系统性重构**:未来架构可能是一种混合体,内核是高度抽象的因果逻辑,接口是丰富的感官世界[12] - **具体技术方向**:包括李飞飞World Labs致力于构建具有“空间智能”的模型;张祥雨透露了“非线性RNN”方向,支持内部循环、反刍和推理;以及发展更高效的强化学习范式,让AI具备持续学习和内部价值函数[12] - **新架构需要新的数据与硬件**:视频数据、物理世界传感器数据、机器人交互数据价值将重估;硬件基础设施可能面临洗牌,专用芯片或受挑战,通用GPU的灵活性可能再次成为优势[13][14] 对行业的影响与结论 - Transformer是一座丰碑但非终点,其在因果推理、物理理解和无限上下文上的缺陷,注定只是通往AGI道路上的垫脚石[15] - 未来五年,Transformer可能逐渐退居幕后成为子模块,一种融合空间智能、具身交互和深度逻辑推理的新架构将走上台前,这对科技公司既是巨大挑战也是难得机遇[15][16]
谷歌AI往事:隐秘的二十年,与狂奔的365天
36氪· 2025-11-27 20:13
公司近期业绩与产品表现 - Gemini应用月活跃用户从上一季度的4.5亿大幅提升至6.5亿[2] - Gemini 3在各类主流基准上展现统治级表现,Nano Banana Pro模型将AI生图精度与想象力提升到新高度[2][43] - 公司进入罕见的产品加速期,接连发布视频模型Veo 3、虚拟世界生成模型Genie 3等“王炸”产品[43][44] 公司AI技术发展历史与积淀 - 公司二十多年间的AI投资贯穿现代深度学习绝大部分关键节点,从拉里·佩奇对“终极搜索引擎”的想象,到“猫论文”、DeepMind、TPU[4][6] - 在Transformer论文发表前十年,世界上几乎所有知名AI人才都曾在公司工作过[5] - 公司首次语言模型实验始于2000年左右,开发出拼写纠错功能,并进化出内部昵称为PHIL的概率语言模型[10][11] 关键技术突破与商业影响 - 2012年“猫论文”使用16000个CPU核心训练九层神经网络,通过无监督学习识别YouTube视频中的猫,证明无监督学习可行性[14][15] - “猫论文”技术催生推荐系统机制,被应用于YouTube并奠定其全球最大视频平台基础,后续被Facebook、Instagram、字节跳动效仿,创造数千亿美元收入[15][17] - 公司开发出Transformer架构,其模型彻底碾压基于LSTM的谷歌翻译方案,证明模型规模越大效果越好[34] 重要收购与人才战略 - 2014年以5.5亿美元收购DeepMind,获得最豪华AI研究团队,但收购间接导致OpenAI、Anthropic、xAI等公司诞生[22][23][24] - 收购DeepMind后,公司向英伟达订购4万块GPU,订单价值1.3亿美元,后继续花费数亿美元购买GPU[25][27] - 为应对ChatGPT威胁,公司将Google Brain和DeepMind合并为Google DeepMind,并召回谢尔盖·布林等顶级人才参与Gemini项目[42] 自研芯片与基础设施 - 为解决GPU成本过高和算力不足问题,公司自研TPU芯片,专门针对神经网络矩阵乘法进行优化,效率远高于当时GPU[28][29][30] - TPU通过降低计算精度提高效率,避免公司向英伟达支付高额溢价(英伟达GPU系统毛利率高达75%至80%)[31] - 自研TPU使公司建立规模几乎与英伟达相当的芯片研发体系,服务于自身和谷歌云客户[30] 战略误判与危机应对 - 公司早期已开发出与ChatGPT接近的聊天机器人Mina,但因失控风险、收入模式冲突和法律风险未发布[36][37] - ChatGPT的出现使公司意识到AI从持续性创新转变为颠覆性创新,对构成生存威胁,内部发布红色警报[41][42] - 公司决定结束多模型并存局面,集中资源打造多模态旗舰模型Gemini,并于2023年5月宣布计划后,同年12月发布公共测试版本[42][43]
扩散不死,BERT永生,Karpathy凌晨反思:自回归时代该终结了?
36氪· 2025-11-05 12:44
文章核心观点 - 基于RoBERTa的掩码语言模型可通过引入动态掩码率改造为文本扩散模型,实现从表示学习到文本生成的转变 [1][13][26] - 实验证明改造后的RoBERTa Diffusion能生成视觉连贯的文本,表明BERT系模型本质上是固定掩码率训练的文本扩散模型 [21][24][26] - 文本扩散模型采用在整个Token画布上迭代重采样的双向注意力机制,与自回归模型的单向生成机制形成对比 [27][28] 技术原理与实验 - 文本扩散通过在前向过程逐步添加<MASK>噪声,在反向过程训练模型迭代去噪,将掩码语言建模目标扩展为生成过程 [11][13] - 实验使用10个扩散步骤,每个训练批次随机采样从1.0到0.1的掩码比例,推理时从240个<MASK>开始逐步减少掩码比例 [17][18] - 在H200显卡上训练30分钟后,模型基于256长度提示词生成了连贯文本,尽管存在数据集格式化导致的异常 [21][22] 行业影响与前景 - 该方法表明生成领域仍存在优化创新空间,结合AR-Diffusion等技术可进一步提升生成质量与推理速度 [25][28] - 谷歌DeepMind已发布实验性Gemini Diffusion模型,业界认为扩散语言模型在速度上有优势且是下一代AI发展方向 [30] - 扩散模型采用双向注意力机制迭代更新整个Token画布,与自回归模型的单向追加机制形成技术路径差异 [28]
前阿里、字节大模型带头人杨红霞创业:大模型预训练,不是少数顶尖玩家的算力竞赛|智能涌现独家
搜狐财经· 2025-10-30 16:35
公司概况与战略定位 - 创始人杨红霞在阿里和字节拥有近7年大模型研发经验,曾带领团队开发通义千问前身M6大模型[1] - 新AI公司InfiX.ai于2024年7月成立,选择香港作为总部,快速组建40人团队[1][3] - 公司获得香港理工大学支持,通过RAISe+计划获得政府100亿元资助,并在算力上获得90%减免折扣[73][74][76] 核心技术:低资源训练与去中心化 - 开源全球首个FP8训练"全家桶",在模型性能几乎无损下,最高提升训练速度22%,节省显存14%[6][7][9] - 提出模型融合技术InfiFusion,可将不同尺寸和结构的领域专家模型融合,避免重复训练造成的资源浪费[6][10] - 专注于异构模型融合,突破同构模型限制,在18个推理基准测试中平均得分从77分提升至79分,最新方法逼近88分[50][51][60][61][63][64] 技术应用与领域突破 - 推出医疗多模态大模型训练框架InfiMed,基于36K RLV小规模数据训练的3B模型在七大医疗基准测试中平均准确率达59.2%,超越谷歌MedGemma-4B-IT[11][12] - 多智能体系统InfiAgent在需要多步推理的复杂任务DROP上领先最佳基线3.6%[13][14] - 选择癌症领域作为技术验证场景,因其数据多模态特性复杂,能更好区分模型能力[39][41] 行业趋势与融资进展 - "去中心化"训练范式获市场认可,前OpenAI CTO新公司Thinking Machines Lab种子轮融资20亿美元,估值120亿美元[15][34] - InfiX.ai第二轮Pre-A融资仅用两周完成,目前处于超募状态,估值达数亿美元[15][37][38] - 小语言模型被MIT Tech Review列为2025年十大突破性技术,验证公司技术方向正确性[27] 研发理念与团队建设 - 公司坚持技术驱动,认为技术断崖式领先是商业化基础,不急于追求短期商业化成果[86][88][89] - 团队规模约40人,强调成员代码能力、好奇心和合作态度,实行端到端研发模式[79][80][81] - 研发节奏聚焦三大顶级AI会议,但对重大成果会立即发布,如医疗模型7B参数规模超过GPT-5的成果[67][68]
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
量子位· 2025-10-21 17:05
文章核心观点 - GRACE框架是一种创新的可解释生成式Embedding框架,其核心思想是“让模型先解释,再学Embedding”,将对比学习信号从惩罚式损失转变为奖励信号,通过强化学习驱动模型生成解释性推理链后再进行表征学习 [1][6][7] - 该方法解决了传统文本表征模型将大语言模型视为“哑巴编码器”的黑箱缺陷,使得Embedding过程从纯粹统计结果转变为可审查的透明表征,在保持甚至提升性能的同时获得了高可解释性 [4][5][27] - 在MTEB基准测试的56个数据集上,GRACE在多个骨干模型上均实现了性能全面提升,特别是在检索、配对分类和聚类任务上表现显著领先,且未损害模型原有的通用任务能力 [20][22][23] 技术框架与方法 - GRACE框架包含三个核心模块:生成式思维链模块首先生成输入文本的解释性推理链;可解释表征模块将“输入+推理链”拼接后通过Masked Mean Pooling得到Embedding;奖励驱动学习模块将对比学习目标重新定义为奖励函数进行强化学习优化 [8][9][11] - 训练流程采用有监督与无监督统一的框架,有监督阶段基于包含150万样本的E5训练集学习语义关系,无监督阶段借鉴SimCSE思路对同一文本生成多个推理链作为正样本,该双模式设计使GRACE可适配任何预训练大语言模型而无需大规模新标注数据 [12][13][17][18] - 奖励函数设计包含三个关键部分:对比奖励用于提升查询与正样本相似度并惩罚负样本;一致性奖励确保不同生成的推理链保持相似性以防止不稳定;困难负样本奖励重点区分最容易混淆的负样本 [16] 性能表现与实验结果 - 在MTEB全套56个数据集的综合评测中,GRACE在平均得分上全面超越所有基线模型,以Qwen3-4B模型为例,GRACE版本平均得分达51.03,显著高于基线模型的45.49和SimCSE增强版的50.11,在检索任务上从37.42提升至43.67,重排序任务从48.16提升至52.34 [22] - 对通用领域任务的测试表明GRACE避免了传统对比学习导致的灾难性遗忘问题,Qwen3-4B模型在GRACE监督训练下通用任务平均性能从60.73提升至61.13,而非GRACE的对比学习训练则导致性能暴跌至8.51,差异达52.22 [23][24] - 实验覆盖了四类主流大语言模型骨干网络,包括Qwen2.5-1.5B/3B、LLaMA-3.2-3B和Qwen3-4B,GRACE在所有模型上都表现出稳定的性能提升和可解释性优势,验证了框架的普适性 [21][22]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 13:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 09:42
语义压缩研究 - 人类具备将不同事物归类到高级概念(如"水果")的语义压缩能力,即使面对新词汇也能通过语义线索快速分类 [1][2][3] - 图灵奖得主LeCun团队提出信息论框架,对比人类与LLM在语义压缩中的策略差异:LLM偏向统计压缩,人类更注重细节与语境 [4][5][17] 研究框架设计 - 构建包含1049个项目、34个语义类别的人类概念分类基准,整合认知科学经典研究数据,包含典型性评分以反映人类概念结构 [5][6][7] - 选取30+种LLM(参数规模3亿至720亿),包括BERT、LlamA、Gemma等,从嵌入层提取静态词元表示以确保与人类分类实验基准一致 [8] - 引入信息论框架,结合速率失真理论和信息瓶颈原理分析压缩效率与语义保真度的权衡 [9][12] 核心研究发现 - LLM概念分类与人类语义分类的对齐度显著高于随机水平,验证其基本语义组织能力 [10][11] - LLM难以处理细粒度语义差异,其内部概念结构与人类直觉不符,典型性判断与余弦相似度的相关系数较弱且大多不显著 [14][16] - 关键差异:LLM追求最小化冗余信息的统计压缩,人类则保持适应性与上下文完整性 [17] 研究团队背景 - 由斯坦福大学与纽约大学联合开展,第一作者为斯坦福博士后Chen Shani,Yann LeCun作为合著者参与 [19][20][22] - LeCun是Meta首席AI科学家、CNN架构先驱,与Hinton、Bengio共获2018图灵奖,推动深度学习工业应用与自监督学习发展 [24][25][26][27][28] 补充信息 - 论文发布于arXiv(编号2505.17117),研究引发AI社区广泛讨论 [29]