Workflow
稀疏注意力机制
icon
搜索文档
AGI 新技术路线:下一代稀疏注意力机制 Monte Carlo Attention 开源
AI科技大本营· 2025-11-10 09:03
文章核心观点 - 超对称技术公司在新版基座模型 BigBang-Proton 中引入了创新的 Monte Carlo 注意力机制,该机制通过二进制块编码和块间代表交流机制,实现了线性计算复杂度,并兼具稀疏注意力、状态空间和线性注意力的优点,同时规避了它们的缺点 [1] - Monte Carlo 注意力机制旨在解决宇宙尺度科学建模所需的超长上下文长度问题,其有效上下文长度可随层数呈指数级增长,理论上可达 10¹⁵⁰ 级别,远超当前大语言模型 10⁵-10⁶ 的限制 [2][3][30] - 该技术突破了传统 Transformer 的 O(L²) 计算复杂度瓶颈,降低至 O(L),并消除了训练中对 GPU 内存的依赖,可能减少收敛所需训练步数,对现有预训练技术和硬件设计具有深远影响 [3][4] 技术架构与核心组件 - BigBang-Proton 架构由三个核心组件构成:Binary Patch Encoding 的嵌入输入、Monte Carlo Attention 以及前馈时序卷积网络 [7][8] - Binary Patch Encoding 的输入词汇表包含 0-255 的字节值和三个特殊 token,总大小为 259,每个输入 token 通过 one-hot 编码转换为 259 维稀疏向量后投影到稠密嵌入空间 [8] - 前馈时序卷积网络取代了传统的前馈全连接网络,以捕捉局部空间和时间模式,其固有的卷积特性使模型无需使用显式位置嵌入 [8][37] Monte Carlo 注意力机制原理 - 核心创新是块间代表交流机制:输入嵌入被分组为特定大小的块,每个块随机或选择性地指定一个字节作为代表,与其他块交换信息 [12] - 通过 Delegate 操作和序列重组,信息在全局范围内流动,而计算复杂度仅取决于块大小的平方 O(P²),而非序列总长度 [12][13] - 有效上下文长度的递归关系为 C(N) = (P-1) × P^N + C(N-1),当块大小 P=32 时,第 1 层上下文长度可达 992,第 2 层可达 32,736,层数加深后呈指数增长 [14][15][30] 与传统注意力机制的对比优势 - 与稀疏注意力相比,Monte Carlo 注意力通过基于重组的机制避免了信息丢失和选择偏差问题,实现了更优的上下文长度复杂度 [40][42] - 与状态空间模型相比,该方法通过直接的全局信息交换避免了线性时不变性约束、低秩近似相关的精度损失以及数值不稳定问题 [43][44] - 与线性注意力相比,Monte Carlo 注意力在增强的局部-全局上下文中进行精确计算,保持了完整的注意力表达能力,避免了核函数映射导致的信息丢失 [44][45] 性能与效率提升 - 计算复杂度从 O(L²) 降低到 O(L),对于 10⁸ 的上下文长度,在块大小为 4 时,计算量减少 99.99%,速度提升高达 195,313 倍 [4][34] - 该方法无须分阶段训练即可实现理论上无限的上下文长度,并能训练比设备内存容量长多个数量级的序列,缓解了传统的批次处理约束 [3][4] - 引入了循环 Monte Carlo Attention 来解决迭代表征传播过程中可能的信息退化问题 [33][41]
国产芯片厂商争相认领新版DeepSeek
21世纪经济报道· 2025-10-01 23:00
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性地引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率[1] - 新模型发布后,公司官方App、网页端、小程序同步更新,并全面下调API价格,降幅在50%到75%不等[1] - 新版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本的训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月发表论文中的原创机制[7] 国产芯片生态协同 - DeepSeek-V3.2-Exp发布几乎零时差引发华为、寒武纪、海光等国产芯片厂商“认领”,标志着国产AI软硬件生态协同初具雏形[1] - 寒武纪在新模型发布后4分钟率先宣布适配,开源大模型推理引擎vLLM-MLU源代码[1] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp的0day支持,并向开发者开源所有推理代码和算子实现[2] - 海光信息表示其DCU已实现对DeepSeek-V3.2-Exp的无缝适配和深度调优,新模型在海光DCU上展现出优异性能[2] 行业标准与生态建设 - DeepSeek几乎已获得国产推理模型大部分份额,成为国产开源模型标杆,由深度求索公司来定义国产芯片或组建国产芯片生态更为合适[4] - 行业专家认为顺序应该是DeepSeek先去定义国产芯片标准,让国产芯片厂商跟进,让DeepSeek定义行业,而非DeepSeek模型去适配国产芯片[5] - 深度求索公司在8月下旬发布DeepSeek-V3.1版本,明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向[7] 技术开发与工具创新 - 深度求索模型在兼容CUDA基础上,使用高级语言“TileLang”进行快速原型开发,TileLang作为精度基线逐步使用底层语言实现更高效版本[8] - TileLang是专为AI算子开发设计的编程语言,由北京大学计算机学院杨智团队主导开发,TileAI社区发起人王磊博士团队于2025年1月开源[9] - 公司CEO梁文锋位列相关论文作者名单,显示公司深度参与核心技术研发[8] 云计算与产业应用 - 腾讯云于9月16日宣布已全面适配主流国产芯片,并积极参与开源社区建设[9] - 阿里云在云栖大会表示推动“一云多芯”战略,验证并深度适配多家国产AI芯片,将其纳入自身算力底座[9] - 相比英伟达用二十年建立生态,DeepSeek几乎用了不到一年时间飞速完成初步生态追赶[9]
DeepSeek 与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 20:13
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 得益于技术创新,公司官方App、网页端、小程序同步更新为新模型,并全面下调API价格,降幅在50%到75%不等 [1] - 新版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月发表论文中的原创机制 [5] 国产芯片生态协同 - V3.2-Exp版本发布后几乎零时差引发华为昇腾、寒武纪、海光等国产芯片厂商“认领”适配,标志着国产AI软硬件生态协同初具雏形 [1][2] - 寒武纪在模型发布后4分钟即宣布同步完成适配并开源大模型推理引擎vLLM-MLU源代码,华为昇腾表示基于vLLM/SGLang等框架完成0day支持并开源所有推理代码和算子实现,海光信息称其DCU实现无缝适配加深度调优 [2] - 深度求索已成为新的生态建设者,其模型获得国产推理模型大部分份额,成为国产开源模型标杆,由公司定义国产芯片标准或组建生态被视为更合适做法 [2][3] 技术路线与生态发展 - 公司模型在兼容CUDA基础上,使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [5][6] - 8月下旬发布的V3.1版本明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向,尽管当时未有企业认领此格式 [4] - 中国本土AI行业对DeepSeek模型形成高度共识,腾讯云、阿里巴巴等云计算大厂积极适配国产芯片并参与开源社区建设,推动“一云多芯”战略 [6] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶,业界认为2025年国产芯片发展迅速归功于DeepSeek的横空出世 [3][6]
AI日报丨再套现超4000万美元!黄仁勋持续减持英伟达,看好OpenAI称其或成为下一个万亿美元巨头
美股研究社· 2025-09-30 20:06
AI技术进展 - 智谱旗舰模型GLM-4.6上线,代码能力比前代GLM-4.5提升27%,在74个真实编程任务中超越其他国产模型[5] - DeepSeek在下一代AI模型中首次引入"稀疏注意力"机制DSA,可在长上下文中进行更快、更高效的训练和推理[5] - Anthropic推出Claude Sonnet 4.5模型,号称"全球最佳编码模型",在SWE-bench Verified等编码基准测试中展现出顶尖性能,能构建可投入生产使用的应用程序[6] 行业生态与商业应用 - OpenAI在ChatGPT中推出与Etsy和Shopify的即时结账功能,允许用户直接通过AI聊天机器人购物,目前仅支持单件商品购买[7] - OpenAI的Sora AI视频生成器默认使用受版权保护内容,但影视工作室可选择"退出"该机制,新版本将采用与图像生成工具类似的版权保护机制[12][13] 公司动态与高管观点 - 英伟达CEO黄仁勋于9月25日至29日售出22.5万股公司股票,套现超4000万美元(约2.85亿元人民币)[7] - 黄仁勋预测OpenAI极有可能成为世界上下一个价值数万亿美元的超大规模公司,其"双重指数级增长"可能推动公司估值创下行业历史上最快的增长速度[7][8]
DeepSeek,与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 19:52
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性地引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 新模型在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月论文中的原创机制 [6] - 公司同步更新官方App、网页端、小程序至新模型,并全面下调API价格,降幅在50%到75%不等 [1] 国产芯片生态协同 - 新版模型发布后迅速获得寒武纪、华为昇腾、海光信息等国产芯片厂商适配,寒武纪在4分钟内率先宣布适配并开源大模型推理引擎vLLM-MLU源代码 [2] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现0day支持并向开发者开源所有推理代码和算子实现 [2] - 海光信息表示其DCU已实现对模型的无缝适配和深度调优,验证了海光DCU高通用性、高生态兼容度及自主可控的技术优势 [2] 行业标准与生态建设 - DeepSeek已获得国产推理模型大部分份额,成为国产开源模型标杆,行业认为由深度求索定义国产芯片标准或组建国产芯片生态更为合适 [2] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶,腾讯云、阿里巴巴等云厂商积极适配国产芯片并参与开源社区建设 [7] - 公司模型在兼容CUDA基础上使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [6] 技术发展路径 - DeepSeek-V3.1版本明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向,但当时未有企业主动认领该格式 [5] - 业内专家认为发展顺序应是DeepSeek先定义国产芯片标准,让芯片厂商跟进,而非让模型去适配芯片 [3] - 国产芯片行业本质是“Know-How”行业,只要业界形成共识,芯片与算力生态围绕标准发展的进度将会异常快捷 [3]
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 18:19
模型发布与核心技术创新 - 公司于9月29日正式发布DeepSeek-V3.2-Exp模型,该模型是在V3.1-Terminus基础上的探索性版本 [1] - 新模型首次引入自研的DeepSeek Sparse Attention稀疏注意力机制,旨在优化长文本的训练和推理效率 [1] - DSA机制能够自适应选择关键注意力头与局部上下文窗口,相比传统稠密注意力机制,在处理长文本时计算量呈指数级增长的问题得到解决,方案更高效且成本更低 [7][1] 性能表现与成本优势 - 通过引入DSA机制,V3.2-Exp实现了长文本训练和推理效率的大幅提升,同时在各项核心能力上与V3.1-Terminus保持基本持平 [7] - 得益于新模型服务成本大幅降低,DeepSeek API价格下调50%以上,显著降低了开发者的调用成本 [2][10] 开源策略与生态协同 - 公司将DeepSeek-V3.2-Exp模型在Huggingface和ModelScope平台上全面开源,相关论文也已同步公开 [5] - 新模型发布后,华为昇腾、寒武纪和海光信息第一时间宣布完成适配,显示出国产AI软硬件生态的协同发展 [11] - 公司开源了TileLang版本算子,该国产编程语言由北京大学团队开发,能将FlashAttention算子代码量从超500行减少至80行并保持性能,显著提升AI算子开发效率 [11][3] 版本状态与行业影响 - DeepSeek-V3.2-Exp定位为实验版本,公司认识到新模型仍需在更广泛用户真实场景中进行大规模测试 [4] - 公司为方便用户对比测试,为V3.1-Terminus临时保留额外API访问接口至10月15日,调用价格与V3.2-Exp一致 [4] - 华为计算宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现,表明国产模型、编程语言与算力正深度协同共进 [12]
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 18:13
模型发布与核心特性 - DeepSeek-V3.2-Exp模型于9月29日正式发布,是在V3.1-Terminus基础上的实验版本[1] - 新模型首次引入自研的DeepSeek Sparse Attention稀疏注意力机制,针对长文本训练和推理效率进行优化验证[1] - DSA机制能够自适应选择关键注意力头与局部上下文窗口,相比传统稠密注意力机制计算更高效、成本更低[1][3][4] 技术优势与性能表现 - 传统Transformer全连接注意力机制计算复杂度随文本长度呈指数级增长,DSA针对长文本处理的主要计算瓶颈实现细粒度稀疏注意力机制[2][4] - V3.2-Exp在长文本训练和推理效率上实现大幅提升,同时在与V3.1-Terminus的严格对齐比较中各项核心能力保持基本持平水准[4] - 模型已在Huggingface和ModelScope平台全面开源,相关论文同步公开[2] 成本优化与市场策略 - 得益于新模型服务成本大幅降低,DeepSeek API价格下调50%以上[1][5] - 为方便用户对比测试,DeepSeek为V3.1-Terminus临时保留额外API访问接口,开放至10月15日,调用价格与V3.2-Exp一致[2] - 公司认识到新模型仍需在更广泛用户真实场景中进行大规模测试,以排除某些场景下效果欠佳的可能[2] 生态合作与国产化进展 - DeepSeek V3.2-Exp发布后,华为昇腾、寒武纪和海光信息第一时间宣布完成适配,显示国产AI软硬件生态协同发展[6][7] - 公司开源新模型研究中设计的GPU算子,包括TileLang和CUDA两种版本,建议研究性实验使用基于TileLang版本方便调试和快速迭代[7] - TileLang是由北京大学团队主导开发的开源AI算子编程语言,专门为简化复杂GPU算子开发而设计,实现FlashAttention算子代码量从超500行减少至80行并保持性能持平[7] - 华为计算宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现,表明国产模型、编程语言与算力深度协同共进[8][10]
DeepSeek新模型降价:优化推理效率,API价格降超50%
YOUNG财经 漾财经· 2025-09-30 14:25
新模型发布与技术升级 - DeepSeek正式发布实验性版本DeepSeek-V3.2-Exp模型 [3] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [3] - 新模型针对长文本训练和推理效率进行探索性优化和验证 [3] - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制 [4] - 新机制在几乎不影响模型输出效果前提下实现长文本训练和推理效率大幅提升 [4] - 新模型研究过程中使用高级语言TileLang进行快速原型开发 [4] - 开源算子包含TileLang与CUDA两种版本 [4] API价格调整与成本优化 - DeepSeek API价格降低50%以上 [2][4] - 输入缓存命中价格从0.5元降至0.2元/百万tokens [4] - 输入缓存未命中价格从4元降至2元/百万tokens [4] - 输出价格由12元降至3元/百万tokens [4] - 价格下调得益于新模型服务成本大幅降低 [4] - 官方App、网页端、小程序均已同步更新为新模型 [3] 模型性能与评估 - DeepSeek-V3.2-Exp训练设置与V3.1-Terminus严格对齐 [4] - 在各领域公开评测集上新模型表现与V3.1-Terminus基本持平 [4] - 新模型作为迈向新一代架构的中间步骤 [3] 行业竞争动态 - 国内大模型厂商智谱新一代旗舰模型GLM-4.6即将发布 [6] - 智谱Z.ai官网显示GLM-4.5标识为上一代旗舰模型 [6] 学术研究突破 - DeepSeek-R1研究成果登上《自然》期刊封面 [7] - 研究揭示如何在极少人工输入下训练模型进行推理 [7] - DeepSeek-R1模型采用强化学习进行训练 [7] - 模型正确解答数学问题获高分奖励答错受惩罚 [7] - 训练出能够规划解决问题步骤的大模型能更好解决问题 [7]
DeepSeek新版本API价格下调 寒武纪:对新模型DeepSeek
中国证券报· 2025-09-30 08:09
模型更新与性能优化 - DeepSeek发布实验性版本DeepSeek-V3.2-Exp 引入稀疏注意力机制以提升长文本训练和推理效率 [1] - 新模型服务成本大幅降低 API价格下调超过50% [1] - DeepSeek-V3.2-Exp已在App、网页端和小程序同步更新 [1] 硬件厂商适配与生态支持 - 寒武纪同步适配DeepSeek-V3.2-Exp并开源大模型推理引擎vLLM-MLU源代码 [1] - 寒武纪通过Triton算子开发和BangC融合算子实现快速适配及性能优化 达成业界领先计算效率水平 [2] - 华为昇腾基于vLLM/SGLang推理框架完成DeepSeek-V3.2-Exp的0day支持 并开源所有推理代码和算子实现 [3] - 华为昇腾在CANN平台完成优化适配 在128K长序列下实现TTFT低于2秒、TPOT低于30毫秒的推理性能 [3] 模型迭代历程 - DeepSeek于8月21日发布V3.1版本 并于9月22日更新至Terminus版本 改进语言一致性问题 [3] - Terminus版本针对用户反馈优化 缓解中英文混杂及异常字符情况 [3]
DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
36氪· 2025-09-30 07:39
模型发布与技术升级 - DeepSeek发布最新实验性模型DeepSeek-V3.2-Exp,该模型基于DeepSeek-V3.1-Terminus开发 [1][3] - 模型首次引入以DeepSeek品牌命名的关键技术“DeepSeek稀疏注意力”(DSA),这是首个用DeepSeek品牌命名的关键技术 [3][5] - DSA是此前与北大合作ACL 2025最佳论文中原生稀疏注意力(NSA)的改进版本 [3] 技术创新与效率提升 - DSA实现了细粒度稀疏注意力机制,通过“闪电索引器”高效判断哪些历史Token最重要,仅对少量关键Token(如2048个)进行精细计算 [5][8] - 新技术使核心注意力计算复杂度从O(L²)大幅降低至O(Lk),其中k为远小于L的固定值,在处理长文本时带来巨大效率提升 [8] - 训练过程包含“密集预热”初始化闪电索引器、“稀疏训练”适应新稀疏模式,以及沿用专家蒸馏和混合强化学习的后训练流程 [10] 性能表现评估 - 在严格对齐的训练设置下,DeepSeek-V3.2-Exp与V3.1-Terminus相比未出现实质性性能下降 [12][14] - 具体基准测试显示:MMLU-Pro保持85.0分,GPQA-Diamond从80.7略降至79.9,Codeforces-Div1从2046提升至2121,AIME 2025从88.4提升至89.3 [15] - 实际部署推理测试中端到端加速效果和成本节约非常显著,实现“性能不降、成本骤减”的特性 [14][18] 商业应用与定价策略 - 得益于新模型服务成本大幅降低,官方API价格同步下调50%以上 [1][19] - 新价格政策即刻生效,当前API模型版本为DeepSeek-V3.2-Exp,访问方式保持不变 [19] - 此次技术突破为大模型突破长文本瓶颈指明了充满希望的工程路径 [18]