稀疏注意力 - 财报，业绩电话会，研报，新闻 - Reportify

稀疏注意力

搜索文档

DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装了

机器之心· 2025-10-21 11:43

技术突破与核心优势 - 全新模型DeepSeek-OCR实现技术突破，将1000字文章压缩为100个视觉token，压缩率达十倍，精度高达97% [1] - 单块英伟达A100每天可处理20万页数据，极大提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍，例如1万英文单词原本对应15000个文本token，现仅需约1500个视觉token即可完整表示 [9] - 该方法可能解决大模型领域的长上下文效率问题，并为大幅扩展模型有效上下文长度（如一千万至两千万token级别）提供潜力路径 [1][12] 行业影响与社区反响 - 模型开源后迅速获得AI社区关注，GitHub项目一晚收获超过4000个Star [1] - OpenAI联合创始成员Andrej Karpathy肯定其作为OCR模型的价值，并引发对“像素是否比文本更适合作为LLM输入”的范式转变思考 [3][5] - 研究者认为该方法颠覆了传统多模态LLM中视觉token效率低下的观念，使视觉表示文本成为更高效的选择 [9] - 技术思路被与谷歌Gemini模型可能采用的核心技术相联系，但DeepSeek-OCR的可贵之处在于完全开源模型权重与方法细节 [12] 潜在应用场景 - 高压缩效率使将公司所有关键内部文档塞进提示词前缀并缓存成为可能，实现快速且经济地查询而无需搜索工具 [12] - 可将整个代码库放入上下文中缓存，每次修改仅需追加差异部分内容，提升开发效率 [13] - 技术若与DeepSeek早前发布的稀疏注意力机制DSA结合使用，前景将更加令人兴奋 [11] - 已有开发者成功在英伟达Spark硬件和Mac上部署该模型，例如Django框架联合创建者使用4个提示词在40分钟内完成部署 [14][15] 技术渊源与学界评价 - 核心方法思路并非首创，早在2022年哥本哈根大学等机构的论文《Language Modelling with Pixels》已提出类似思想，其PIXEL模型通过渲染文本为图像解决词汇瓶颈问题 [18][20] - 后续有多篇研究成果对此思路进行发展和改进，包括CVPR 2023的CLIPPO模型和NeurIPS 2024、2025的相关论文 [21][24] - 有批评声音指出该方法不存在渐进性，不像人类，例如Meta研究者Lucas Beyer的评论 [25] - 纽约大学助理教授谢赛宁对Karpathy的评论深感共鸣，其本人曾将Transformer架构与扩散模型结合提出DiT，为文生视频开辟新道路 [5][8]

大模型范式转变

视觉 - 文本任务

稀疏注意力

Artificial Intelligence

大模型范式转变

视觉 - 文本任务

稀疏注意力

Artificial Intelligence

人工智能专题：DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能

中原证券· 2025-10-16 19:46

报告行业投资评级 - 行业投资评级：强于大市（维持）[1] 报告核心观点 - DeepSeek的稀疏注意力机制（特别是NSA和DSA）通过提升计算效率和拓展模型上下文，为AI产业释放了更大的发展潜能，将成为推动模型能力不断突破的重要支撑[8][37] 注意力机制与大模型发展的关系 - 注意力机制模仿人类选择性关注关键信息的能力，解决了长序列遗忘问题[11] - 稀疏注意力将计算复杂度从O(L²)降至亚平方级（如O(L*log L)、O(L*k)），突破内存与算力瓶颈[11] - 经过多代技术迭代，大模型上下文已扩充到128K甚至是1M的长度水平[11] DeepSeek在注意力机制方面的技术改进 - MLA：DeepSeek在V2中引入多头潜在注意力，将注意力分数的显存占用减少约90%，成为R1成本显著低于头部模型的重要因素[12][16] - NSA：2025年2月提出的原生稀疏注意力，通过算法和硬件协同优化，将长文本处理速度提升11倍，可实现与全注意力模型相当或更优的性能[8][18] - DSA：2025年9月V3.2-Exp引入的稀疏注意力机制，带来训练推理效率大幅提升，API价格大幅降价超50%[8][23] DSA和NSA的技术特点对比 - NSA参与整个预训练过程，DSA基于V3.1-Terminus基座继续预训练而来，可低成本进行稀疏注意力探索[27] - DSA通过TileLang实现，NSA选用OpenAI开源的Triton，TileLang可实现更多深度优化，更有利于国产芯片生态适配[27] - DSA通过"闪电索引器"逐词判断找出重要词汇（2048个）进行细粒度稀疏计算，NSA将文本分成"块"分三层挑重点[30] 稀疏注意力对AI产业的影响 - 稀疏注意力带来的计算效率提升和模型上下文拓展，将为后训练释放更大的发展潜能[37] - V3.2-Exp的API调用价格显著降低：输入缓存命中时价格为R1的20%（0.2元/百万Tokens），输入缓存未命中时为R1的50%（2元/百万Tokens），输出价格为R1的19%（3元/百万Tokens）[23] - 成本的下降意味着模型具有更好的性价比和可推广性，将促进应用端实现更多功能落地[23]

注意力机制

稀疏注意力

Artificial Intelligence

NSA（原生稀疏注意力）

DSA（DeepSeek稀疏注意力机制）

注意力机制

稀疏注意力

Artificial Intelligence

NSA（原生稀疏注意力）

DSA（DeepSeek稀疏注意力机制）

第二代InfLLM开源，同尺寸快三倍，零参数，可训练稀疏注意力

36氪· 2025-10-09 20:12

InfLLM-V2是一种可高效处理长文本的稀疏注意力模型，仅需少量长文本数据即可训练，且性能接近传统稠密模型。通过动态切换短长文本处理模式，显著提升长上下文任务的效率与质量。从短到长低成本「无缝切换」，预填充与解码双阶段加速，释放长上下文的真正生产力。长序列高效处理已成为大模型应用的关键。传统稠密注意力在序列变长时计算开销极速增长，直接限制了产品可用性与成本可控性。为解决这一痛点，清华、OpenBMB 和哈工大提出 InfLLM-V2：一种零额外参数、训练高效的原生稀疏注意力框架。 InfLLM在短文本场景保持原生高效率，在长文本场景则切换为稀疏模式，带来端到端的显著加速。该方法仅用5B的长文本词元，即可完成稀疏注意力的训练（而DeepSeek-V3.2-Exp训练了近 1T 词元的数据，才完成稀疏注意力的训练）。具体而言，InfLLM-V2相比于稠密注意力机制可以实现4倍的速度提升，在长文本理解任务上保持98.1%的稠密模型性能，在深思考任务上保持99.7%的稠密模型性能。 InfLLM有三个核心优势 1. 低成本训练：仅需5B长文本数据即可完成稀疏注意力能力的训练，训练成本低，适配周期短。 ...

稀疏注意力

Artificial Intelligence

稀疏注意力

Artificial Intelligence

万亿的OpenAI，涨疯的Memory和新出炉的DeepSeek

傅里叶的猫· 2025-09-29 23:11

万亿的OpenAI - 英伟达与OpenAI的合作涉及四个领域：持续推进微软Azure数据中心建设、与甲骨文及软银合作搭建OCI算力设施、支持CoreWeave的算力需求、以及助力OpenAI自建AI基础设施[2] - OpenAI预测到2029年公司营收将达到1250亿美元，并计划斥资1万亿美元在全球建设数据中心以满足20GW以上计算能力需求，每GW成本预计高达500亿美元[3][4] - OpenAI计算能力储备将超过得州数据中心的13倍以上，支持下一代AI所需的能源规模相当于为超过1300万美国家庭供电，相当于17座核电站级别的电力需求[3][4] - 英伟达计划向OpenAI投入高达1000亿美元用于建设由10GW英伟达系统驱动的超级数据中心，该设施相当于400万到500万台英伟达GPU，总成本预计达5000亿至6000亿美元[4][5] - CoreWeave等基础设施提供商与OpenAI签署了价值65亿美元的协议，使其总合作金额达224亿美元，微软也宣布将在英国投资300亿美元增强AI基础设施[4] 涨疯的Memory - 服务器生意因DDR涨价导致预留利润空间被吃掉，需与客户重新谈价，DDR5和NAND Flash价格因AI基础设施建设需求推动而上涨[6][10] - 2025年4月开始三星和SK海力士逐步减少DDR4产能转向DDR5、LPDDR5和HBM，9月闪迪和美光宣布存储产品价格上涨10%-30%[10] - 2025年服务器DRAM ASP预计全年同比增长18%，2026年预计同比增长36%；2025年NAND ASP预计全年同比增长15%，2026年预计同比增长31%[11][13] - 2025年DDR4 64GB RDIMM价格从139美元上涨至251美元，全年涨幅29%；DDR5 64GB RDIMM价格从253美元上涨至278美元，全年涨幅7%[12] - 2026年DDR5 64GB RDIMM价格预计从295美元上涨至360美元，全年涨幅30%，DDR5渗透率预计从90%提升至92%[12] - 随着推理需求增加，Memory需求将持续增长，此轮涨价可能并非短期现象[14] 新出炉的DeepSeek - DeepSeek V3.2-Exp实现对华为、寒武纪芯片的Day 0级别适配，暗示存在深度联合开发基础，夯实了国产化三层架构根基[18] - 从V3.1到V3.2的迭代周期仅耗时1个月，展现出高效开发节奏，按此进度V4有望在不久后推出[19] - 团队开源V3.2版本的CUDA算子，同时引入TileLang新编程范式，采用"成熟方案+新兴探索"组合保障开发者体验[21] - V3.2通过引入稀疏注意力机制实现算力利用效率优化，官方同步宣布API服务价格下调50%，延续"高性能+低成本"开发理念[22] - 在各项评估指标上V3.2-Exp表现大多与前版相当，Codeforces测试分数提高75分，BrowseComp-zh提升2.9分，但HMMT测试下降2.5分[29] - DeepSeek为V3.2-Exp提供多种内核实现：TileLang内核适合研究用途，DeepGEMM针对生产环境优化，FlashMLA专注于稀疏注意力性能[31][32] - V3.2-Exp代表一种中间实验步骤，目前尚未准备好用于所有部署，但在结构化长文件推理如代码任务上显示出有前景的方向[34]

稀疏注意力

稀疏注意力

反直觉: MoE混合专家模型和场景没什么关系

理想TOP2· 2025-08-29 00:01

混合专家模型(MoE)的核心机制 - MoE本质是稀疏注意力手段旨在提高计算效率实现小算力运行大模型的目标[1] - 通过提前选取对数据结果起决定作用的少量参数进行计算近似实现全部参数计算效果对最终输出影响极小[2] - 专家分配并非基于场景划分而是数据驱动下的参数优化过程[1] 传统场景划分方式的局限性 - 固定场景对应专家模型会导致场景限制问题遇到未见场景时无法处理[1] - 若按场景划分多个小模型分别训练不符合MoE结构的本质设计[1] - 专人专用方式会造成参数利用率低下部分专家可能永远无法被激活[2] 专家激活与分配机制 - 工作应均匀分配给每个专家避免低触发率专家造成的参量浪费[2] - 每次可激活不同数量专家实现算力动态分配[2] - 更难的问题可分配更多算力同时提升效率和最终效果[2] 实际应用中的表现特征 - 不同专家可能自然形成特定场景偏好但这是训练结果而非设计原因[3] - 高速场景可能频繁使用某子模型超车场景可能使用另一子模型这是数据驱动的自然分布[3] - 专家特长分化是模型训练的"果"而非主观设计的"因"[3]

稀疏注意力

MoE混合专家模型

稀疏注意力

MoE混合专家模型

R2还没来，但DeepSeek的秘密武器已经“剧透”了

虎嗅· 2025-07-31 15:58

行业技术突破 - DeepSeek与北京大学联合研发的"原生稀疏注意力(NSA)"技术获ACL最佳论文奖该会议被公认为自然语言处理领域顶级风向标 [2][3][4] - NSA技术首次实现稀疏注意力在完整训练流程的应用突破仅能用于推理阶段的限制在27B模型上实现训练前向计算加速9倍反向传播加速6倍 [5][23][44] - 该技术显著提升长文本处理效率在64k上下文长度下推理速度提升11.6倍同时保持模型性能不降反升 [5][16][45][46] 技术原理创新 - NSA采用三重机制模拟人类阅读行为：Token Compression压缩早期文本为摘要块 Token Selection精准选择相关原文细节 Sliding Window保留最近上下文精细注意力 [26][27][28] - 通过门控机制动态平衡三种阅读策略实现硬件对齐优化兼容GQA架构和FlashAttention-2内核基于Triton重写关键kernel [30][31][52] - 原生可训练特性使稀疏模式与模型协同优化在MMLU、GSM8K等9项基准测试中7项超越全注意力模型 DROP测试推理能力提升显著 [32][33][35][37] 性能表现数据 - 在64k长度(约8万字)"大海捞针"测试中实现100%信息检索准确率 LongBench评测平均分0.469超越全注意力基线的0.437 [38][40][41] - 上下文长度与加速比呈正相关：8192长度加速4倍 16384长度加速6.4倍 32768长度加速9.1倍 65536长度加速11.6倍 [46] - 传统注意力机制在64k上下文长度下占据70%-80%推理延迟 NSA通过稀疏化计算有效降低延迟 [18][43] 行业应用前景 - 技术已通过27B及MoE架构完整预训练验证具备商业化落地条件将应用于下一代DeepSeek大模型 [51][52][53] - 突破性提升长文本处理能力支持整本书籍、多份财报、完整代码库的直接分析无需人工拆分 [49][54] - 计算效率提升将传导至API成本降低加速AI应用生态发展 [55][58][59]

Seek .(US:SKLTY)

稀疏注意力

大语言模型

Artificial Intelligence

DeepSeek系列大模型

NSA（Natively Sparse Attention

原生稀疏注意力）

稀疏注意力

大语言模型

Artificial Intelligence

DeepSeek系列大模型

NSA（Natively Sparse Attention

原生稀疏注意力）

知乎平台已沉淀858万个AI相关问题、2088万个AI专业回答丨聚焦WAIC 2025

国际金融报· 2025-07-27 20:23

知乎平台AI生态发展 - 知乎已成为AI开发者首发项目、首谈方向、首秀成果的核心阵地，聚集1600万科技与AI领域持续学习者和356万深度创作者，沉淀858万个AI相关问题和2088万个专业回答 [1] - 平台吸引DeepSeek、智元机器人、宇树等明星公司发布技术文章或新品动态，例如DeepSeek发布《DeepSeek-V3/R1推理系统概览》、稚晖君发布人形机器人灵犀X2、王兴兴分享宇树研发进展 [3] - AI创业者夕小瑶在知乎首发全球首个多Agent协作平台Teamo，字节跳动Trae 2.0核心开发者天猪分享AI结对编程技术 [3] WAIC 2025大会参与 - 知乎通过展位多维互动展示AI生态全景，包括硬核技术讨论和"知识王者PK"等趣味环节，知乎直答NFC装置成为人气焦点 [4] - 组织地平线研究员林天威、创伴智能创始人图灵的猫等数十位一线开发者组成"答主探展团"，结合线上圆桌实时输出技术解读 [4] - 联合阿里云、百度、科大讯飞等14家AI企业发布《AI世界通行手册》，涵盖大模型到具身智能的科技全景 [4] AI技术前沿动态 - 月之暗面研发人员在知乎"团建式"分享技术进展，包括开源MoBA框架、Agent产品Kimi-researcher及MoE架构模型Kimi K2的研发历程 [3] - PNP机器人创始人包文涛指出大模型推动具身智能实质性突破，详解PNP机器人能力特点 [5] - AI Next联合创始人德里克文提出人类与AI共同创作新时代，曾合作AI艺术短片《花满渚》 [5] 创新活动形式 - 知乎在WAIC期间举办"开发者回血之夜"盐沙龙，数十位AI开发者通过开放麦形式分享前沿思考，融合技术与人文互动 [5]

稀疏注意力

DeepSeek-V3/R1推理系统

人形机器人灵犀X2

稀疏注意力

DeepSeek-V3/R1推理系统

人形机器人灵犀X2

3700 次预训练寻找 “线性注意力” 非共识，MiniMax-01 开发者讲述 4 年探索

晚点LatePost· 2025-03-09 20:00

线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索，当时被视为"看起来很美好的泡泡"，但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer，但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构，在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性，长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性，涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时，线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向，2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高，未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识，部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发，视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型，预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01，但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题，通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决，测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案，以快速验证效果 [48]

线性注意力

稀疏注意力

Artificial Intelligence

Lightning Attention

线性注意力

稀疏注意力

Artificial Intelligence

Lightning Attention