长上下文建模 - 财报，业绩电话会，研报，新闻

长上下文建模

搜索文档

36氪· 2025-10-22 07:10

核心技术突破 - 提出名为Glyph的创新框架，通过将长文本渲染为图像，利用视觉语言模型进行处理，实现文本压缩[1] - 该方法摒弃了基于token的序列扩展范式，转向基于视觉上下文扩展的新视角[1] - 在保持与前沿大语言模型相当精度的同时，实现了3-4倍的token压缩，大幅提高内存效率和训练推理速度[3] 技术实现路径 - 框架包含持续预训练、LLM驱动渲染搜索和后训练优化三个主要阶段[8] - 持续预训练阶段将大规模长文本数据渲染为多种视觉风格，构建OCR识别等任务使模型学习视觉形态与语义含义[8] - 采用LLM驱动的遗传搜索算法自动评估不同渲染方案性能，通过多轮迭代收敛到最优渲染策略[9] - 后训练阶段进行监督微调与强化学习优化，并引入OCR辅助任务强化文字识别能力[10] 性能表现 - 在LongBench基准测试中，Glyph平均性能达50.56%，与Qwen3-8B（47.46%）、GLM-4-9B-Chat-1M（49.27%）等主流模型精度相当[14] - 在MRCR基准测试的4-needle任务中平均性能达25.81%，在8-needle任务中达18.14%，多数设置下位于前两名[15] - 相比文本基准模型，推理速度提升4倍，训练速度提升2倍，且优势随上下文长度增加而增强[16] - 在极端压缩场景下（8倍压缩比），有潜力利用128k上下文长度处理百万级上下文任务[17] 应用潜力与行业影响 - 以经典长篇小说《简·爱》（约240k文本token）为例，Glyph将其内容呈现为紧凑图像（约80k视觉token），使128k上下文的VLM能够正确回答需要通篇考虑的问题[3] - 在MMLongBench-Doc文档理解任务上，Glyph总体准确率达45.57%，显著优于原始视觉语言基线GLM-4.1V-9B-Base（29.18%）[20] - 提高token信息密度为长上下文建模提供了新范式，未来大语言模型输入token或将从百万级扩展到千万级[5]

长上下文建模

视觉 - 文本压缩

Artificial Intelligence

Glyph框架

长上下文建模

视觉 - 文本压缩

Artificial Intelligence

Glyph框架

DeepSeek V4 借实习生获奖论文“起飞”？梁文峰剑指上下文：处理速度提10倍、要“完美”准确率

AI前线· 2025-07-31 13:02

中国作者在ACL获奖论文中的表现 - 2025年ACL获奖论文中中国作者比例超过51% 美国作者占比仅为14% [1] - DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获得Best Paper奖 [1] - 论文第一作者袁境阳在撰写论文时仅为DeepSeek实习生 [1] NSA技术创新与设计 - 提出NSA（Natively trainable Sparse Attention）机制结合算法创新与硬件优化以实现高效长上下文建模 [4] - NSA采用动态分层稀疏策略结合粗粒度token压缩和细粒度token选择保留全局上下文感知和局部精度 [4] - 引入两项核心创新：算术强度平衡的算法设计实现显著加速高效算法和反向算子实现稳定端到端训练 [6] NSA性能表现 - 在270亿参数Transformer骨干网络上预训练使用2600亿token 激活参数为30亿 [8] - 在9项指标中的7项上超过全注意力模型在内的所有基线 DROP提升0.042 GSM8K提升0.034 [8] - 在64k上下文"大海捞针"测试中实现完美检索准确率解码、前向传播和反向传播速度显著提升 [9] - 在多跳问答任务（HPQ和2Wiki）上比全注意力模型分别提升0.087和0.051 代码理解任务（LCC）超出基线0.069 [10] 计算效率优势 - 在64k上下文长度下前向速度提升高达9.0倍反向速度提升高达6.0倍 [15] - 解码长度增加时延迟显著降低 64k上下文长度下提速高达11.6倍 [15] DeepSeek下一代模型规划 - 论文成果将应用于DeepSeek下一代前沿模型支持100万tokens上下文长度 [1][17] - DeepSeek R2发布计划可能与V4相关创始人梁文锋对当前模型性能不满意导致推迟 [17]

稀疏注意力机制

长上下文建模

Artificial Intelligence

Artificial Intelligence

NSA（可原生训练的稀疏注意力机制）

DeepSeek V4

DeepSeek R2