Workflow
长上下文建模
icon
搜索文档
告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?
机器之心· 2026-01-02 09:55
文章核心观点 - 由Astera研究所、英伟达、斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校联合提出的TTT-E2E(端到端测试时训练)技术,是迈向AGI(通用人工智能)持续学习能力的重要一步[2] - TTT-E2E打破了传统模型在推理时静态不变的局限,将长上下文建模从“架构设计”问题转变为“学习问题”,使模型能在推理阶段通过在线优化(梯度下降)来学习和压缩信息[2][9][10] - 该方法采用“以计算换存储”的思路,旨在实现像RNN一样的恒定推理延迟,同时保持像Transformer一样的长距离性能,为处理无限长上下文提供了新路径[8][29] 长上下文建模的现有困境 - 当前长上下文建模面临“召回与效率的永恒博弈”:Transformer的全注意力机制性能优异,但推理成本随上下文长度线性增长,在处理128K或更长文本时延迟压力巨大[5] - 为提升效率而采用的循环神经网络(RNN)或状态空间模型(SSM,如Mamba),虽然拥有恒定每token计算成本,但在处理超长文本时性能大幅下降,无法有效利用远距离信息[5] - 传统RNN性能下降的根源在于“压缩率的固定”,即将无限序列压缩进固定大小的状态向量会导致信息丢失[6][7] TTT-E2E的核心机制 - 核心思想是将模型在测试阶段(推理阶段)的行为定义为一个在线优化过程,模型在读取长上下文时,不仅进行前向传播,还同步进行梯度下降[9][10] - 模型将上下文视为学习资料,在预测下一个token前,先在已读过的token上进行自监督学习,从而将信息编码进模型权重W中,而非存储在外部的KV Cache里[11] - 为实现这一构想,引入了两大核心技术支撑:1) 元学习,通过外层循环优化模型初始化参数,让模型“学会如何学习”;2) 混合架构,结合固定大小(如8K)的滑动窗口注意力处理短期记忆,由TTT更新后的MLP层承担长期记忆[13] 工程实现与架构设计 - 为平衡计算开销,仅针对最后四分之一的Transformer块进行测试时训练(TTT)[14] - 为这些块设计了双MLP结构:一个保持静态以锁定预训练知识,另一个作为“快速权重”在测试时动态更新,以解决知识遗忘问题[15] - 该设计模仿了生物记忆系统的层级结构:滑动窗口如同瞬时感官记忆,动态更新的权重则如同长期经验[13] 实验结果:性能与效率 - 在3B参数规模的模型上进行实验,TTT-E2E展现出与全注意力Transformer几乎一致的性能扩展曲线[18][21] - 当上下文长度从8K扩展到128K时,其他RNN基准模型(如Mamba和Gated DeltaNet)的测试损失在达到32K后显著回升,而TTT-E2E的损失持续下降,始终追赶甚至在某些指标上优于Transformer[21] - 在推理效率上,由于无需存储海量KV Cache,TTT-E2E的推理延迟不随上下文长度增加,在128K上下文测试中,处理速度比全注意力Transformer快了2.7倍[22] 技术局限性与未来方向 - TTT-E2E的训练成本目前较高,由于需要计算“梯度的梯度”(二阶导数),其在短上下文下的训练速度比传统模型慢得多[23] - 团队提出可通过从预训练好的Transformer节点开始微调,或开发专门的CUDA内核来弥补训练速度的短板[24] - 在极度依赖精确召回的任务(如大海捞针NIAH)中,全注意力模型仍是霸主,这印证了TTT的本质是压缩和理解,而非逐字暴力存储[24] 行业意义与未来展望 - TTT-E2E标志着大模型正从静态模型转变为动态个体,模型处理长文档的过程本质上是微型的自我进化[27] - 该“以计算换存储”的思路描绘了未来愿景:模型可在阅读海量资料(如一万本书)过程中不断调整自身,将大量信息浓缩进参数矩阵,而无需担心硬件缓存限制[29]
用视觉压缩文本,清华、智谱推出Glyph框架:通过视觉-文本压缩扩展上下文窗口
36氪· 2025-10-22 07:10
核心技术突破 - 提出名为Glyph的创新框架,通过将长文本渲染为图像,利用视觉语言模型进行处理,实现文本压缩[1] - 该方法摒弃了基于token的序列扩展范式,转向基于视觉上下文扩展的新视角[1] - 在保持与前沿大语言模型相当精度的同时,实现了3-4倍的token压缩,大幅提高内存效率和训练推理速度[3] 技术实现路径 - 框架包含持续预训练、LLM驱动渲染搜索和后训练优化三个主要阶段[8] - 持续预训练阶段将大规模长文本数据渲染为多种视觉风格,构建OCR识别等任务使模型学习视觉形态与语义含义[8] - 采用LLM驱动的遗传搜索算法自动评估不同渲染方案性能,通过多轮迭代收敛到最优渲染策略[9] - 后训练阶段进行监督微调与强化学习优化,并引入OCR辅助任务强化文字识别能力[10] 性能表现 - 在LongBench基准测试中,Glyph平均性能达50.56%,与Qwen3-8B(47.46%)、GLM-4-9B-Chat-1M(49.27%)等主流模型精度相当[14] - 在MRCR基准测试的4-needle任务中平均性能达25.81%,在8-needle任务中达18.14%,多数设置下位于前两名[15] - 相比文本基准模型,推理速度提升4倍,训练速度提升2倍,且优势随上下文长度增加而增强[16] - 在极端压缩场景下(8倍压缩比),有潜力利用128k上下文长度处理百万级上下文任务[17] 应用潜力与行业影响 - 以经典长篇小说《简·爱》(约240k文本token)为例,Glyph将其内容呈现为紧凑图像(约80k视觉token),使128k上下文的VLM能够正确回答需要通篇考虑的问题[3] - 在MMLongBench-Doc文档理解任务上,Glyph总体准确率达45.57%,显著优于原始视觉语言基线GLM-4.1V-9B-Base(29.18%)[20] - 提高token信息密度为长上下文建模提供了新范式,未来大语言模型输入token或将从百万级扩展到千万级[5]
DeepSeek V4 借实习生获奖论文“起飞”?梁文峰剑指上下文:处理速度提10倍、要“完美”准确率
AI前线· 2025-07-31 13:02
中国作者在ACL获奖论文中的表现 - 2025年ACL获奖论文中中国作者比例超过51% 美国作者占比仅为14% [1] - DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获得Best Paper奖 [1] - 论文第一作者袁境阳在撰写论文时仅为DeepSeek实习生 [1] NSA技术创新与设计 - 提出NSA(Natively trainable Sparse Attention)机制 结合算法创新与硬件优化以实现高效长上下文建模 [4] - NSA采用动态分层稀疏策略 结合粗粒度token压缩和细粒度token选择 保留全局上下文感知和局部精度 [4] - 引入两项核心创新:算术强度平衡的算法设计实现显著加速 高效算法和反向算子实现稳定端到端训练 [6] NSA性能表现 - 在270亿参数Transformer骨干网络上预训练 使用2600亿token 激活参数为30亿 [8] - 在9项指标中的7项上超过全注意力模型在内的所有基线 DROP提升0.042 GSM8K提升0.034 [8] - 在64k上下文"大海捞针"测试中实现完美检索准确率 解码、前向传播和反向传播速度显著提升 [9] - 在多跳问答任务(HPQ和2Wiki)上比全注意力模型分别提升0.087和0.051 代码理解任务(LCC)超出基线0.069 [10] 计算效率优势 - 在64k上下文长度下 前向速度提升高达9.0倍 反向速度提升高达6.0倍 [15] - 解码长度增加时延迟显著降低 64k上下文长度下提速高达11.6倍 [15] DeepSeek下一代模型规划 - 论文成果将应用于DeepSeek下一代前沿模型 支持100万tokens上下文长度 [1][17] - DeepSeek R2发布计划可能与V4相关 创始人梁文锋对当前模型性能不满意导致推迟 [17]