稀疏注意力机制

搜索文档
国产芯片厂商争相认领新版DeepSeek
21世纪经济报道· 2025-10-01 23:00
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性地引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率[1] - 新模型发布后,公司官方App、网页端、小程序同步更新,并全面下调API价格,降幅在50%到75%不等[1] - 新版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本的训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月发表论文中的原创机制[7] 国产芯片生态协同 - DeepSeek-V3.2-Exp发布几乎零时差引发华为、寒武纪、海光等国产芯片厂商“认领”,标志着国产AI软硬件生态协同初具雏形[1] - 寒武纪在新模型发布后4分钟率先宣布适配,开源大模型推理引擎vLLM-MLU源代码[1] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp的0day支持,并向开发者开源所有推理代码和算子实现[2] - 海光信息表示其DCU已实现对DeepSeek-V3.2-Exp的无缝适配和深度调优,新模型在海光DCU上展现出优异性能[2] 行业标准与生态建设 - DeepSeek几乎已获得国产推理模型大部分份额,成为国产开源模型标杆,由深度求索公司来定义国产芯片或组建国产芯片生态更为合适[4] - 行业专家认为顺序应该是DeepSeek先去定义国产芯片标准,让国产芯片厂商跟进,让DeepSeek定义行业,而非DeepSeek模型去适配国产芯片[5] - 深度求索公司在8月下旬发布DeepSeek-V3.1版本,明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向[7] 技术开发与工具创新 - 深度求索模型在兼容CUDA基础上,使用高级语言“TileLang”进行快速原型开发,TileLang作为精度基线逐步使用底层语言实现更高效版本[8] - TileLang是专为AI算子开发设计的编程语言,由北京大学计算机学院杨智团队主导开发,TileAI社区发起人王磊博士团队于2025年1月开源[9] - 公司CEO梁文锋位列相关论文作者名单,显示公司深度参与核心技术研发[8] 云计算与产业应用 - 腾讯云于9月16日宣布已全面适配主流国产芯片,并积极参与开源社区建设[9] - 阿里云在云栖大会表示推动“一云多芯”战略,验证并深度适配多家国产AI芯片,将其纳入自身算力底座[9] - 相比英伟达用二十年建立生态,DeepSeek几乎用了不到一年时间飞速完成初步生态追赶[9]
DeepSeek 与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 20:13
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 得益于技术创新,公司官方App、网页端、小程序同步更新为新模型,并全面下调API价格,降幅在50%到75%不等 [1] - 新版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月发表论文中的原创机制 [5] 国产芯片生态协同 - V3.2-Exp版本发布后几乎零时差引发华为昇腾、寒武纪、海光等国产芯片厂商“认领”适配,标志着国产AI软硬件生态协同初具雏形 [1][2] - 寒武纪在模型发布后4分钟即宣布同步完成适配并开源大模型推理引擎vLLM-MLU源代码,华为昇腾表示基于vLLM/SGLang等框架完成0day支持并开源所有推理代码和算子实现,海光信息称其DCU实现无缝适配加深度调优 [2] - 深度求索已成为新的生态建设者,其模型获得国产推理模型大部分份额,成为国产开源模型标杆,由公司定义国产芯片标准或组建生态被视为更合适做法 [2][3] 技术路线与生态发展 - 公司模型在兼容CUDA基础上,使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [5][6] - 8月下旬发布的V3.1版本明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向,尽管当时未有企业认领此格式 [4] - 中国本土AI行业对DeepSeek模型形成高度共识,腾讯云、阿里巴巴等云计算大厂积极适配国产芯片并参与开源社区建设,推动“一云多芯”战略 [6] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶,业界认为2025年国产芯片发展迅速归功于DeepSeek的横空出世 [3][6]
AI日报丨再套现超4000万美元!黄仁勋持续减持英伟达,看好OpenAI称其或成为下一个万亿美元巨头
美股研究社· 2025-09-30 20:06
A I 快 报 1 . 智谱旗舰模型GLM-4.6上线 寒武纪、摩尔线程已完成适配。 据智谱消息,最新的GLM-4.6模 型上线,其代码能力比前代GLM-4.5提升27%,在真实编程、长上下文处理、推理能力等多方面 表现优异。GLM-4.6在公开基准测试中达到国内最高水准,并在74个真实编程任务中超越其他国 产模型。 整理 | 美股研究社 在这个快速 变 化的 时代, 人工 智能技术正以前所未有的速度发展,带来了广泛的机会 。 《AI 日 报 》 致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的行 业 洞察和 价 值 分析。 2. DeepSeek在下一代AI模型中首次引入"稀疏注意力"机制。 9月29日,DeepSeek更新了一个 实验性的人工智能(AI)模型,并称之为迈向新一代架构的中间步骤。DeekSeek在Hugging Face上发布帖子,概述了DeepSeek-V3.1-Exp平台,并解释说该平台引入一种名为DeepSeek Sparse Attention(DSA)的"稀疏注意力机制",DSA可以在长上下文中进行更快、更高效的训 练和推理。 3. Anthropic推出最新AI模型 ...
DeepSeek,与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 19:52
21世纪经济报道记者 赵云帆 9月29日晚间,深度求索公司发布了 DeepSeek-V3.2-Exp 模型,其宛如再次向国产芯片江湖投入一枚巨 石。 官方公告显示,新版本模型实验性地引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),其显 著降低计算资源消耗并提升推理效率。 而得益于这一技术创新,深度求索宣布其官方App、网页端、小程序均已同步更新为新模型,并全面下 调API价格,降幅在50%到75%不等。 值得注意的是,不同于上次发布 DeepSeek-V3.1版本时"犹抱琵琶半遮面"的状态,此次 V3.2 EXP 版本 的发布,几乎零时差引发数个国产芯片厂商——华为、寒武纪、海光等的"认领"。 而这也标志着,国产AI软硬件生态的协同,已经在 DeepSeek 横空出世之后初具雏形。 争相"认领" 就在 DeepSeek 新版放出之后仅仅4分钟,寒武纪就对新模型适配的国产芯片进行"率先认领"。 该公司宣布,已同步实现对深度求索公司最新模型 DeepSeek-V3.2-Exp 的适配,并开源大模型推理引擎 vLLM-MLU源代码。 紧随其后的则是华为昇腾,其表示,基于vLLM/S ...
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 18:19
9月29日,DeepSeek-V3.2-Exp模型正式发布。 V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的DeepSeek Sparse Attention (一种稀疏注意力机制,DSA),针对 长文本的训练和推理效率进行了探索性的优化和验证。 DSA是一种针对Transformer架构的优化技术。在大语言模型的技术机制中,注意力机制是一个核心组件,决定了模型如何 在文本序列中聚焦关键信息,实现语义理解与生成。 简单对比来看,在Transformer架构中,传统的注意力机制是"稠密的",处理长文本时计算量会呈指数级增长。DSA则是一 种"稀疏"方案,更高效,成本也更低。 得益于新模型服务成本的大幅降低,DeepSeek API的价格也大幅下调50%以上。 除技术创新与价格"腰斩"外, DeepSeek此次开源TileLang版本算子,同样引发业内高度关注。 实验版本 当日更早时候,有不少业内人士注意到,DeepSeek将 v3.2-base 上传至DeepSeek在社区平台HuggingFace的官方页面,但很 快被删除。此后,DeepSeek正式公告新版本DeepSeek-V3. ...
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道· 2025-09-30 18:13
模型发布与核心特性 - DeepSeek-V3.2-Exp模型于9月29日正式发布,是在V3.1-Terminus基础上的实验版本[1] - 新模型首次引入自研的DeepSeek Sparse Attention稀疏注意力机制,针对长文本训练和推理效率进行优化验证[1] - DSA机制能够自适应选择关键注意力头与局部上下文窗口,相比传统稠密注意力机制计算更高效、成本更低[1][3][4] 技术优势与性能表现 - 传统Transformer全连接注意力机制计算复杂度随文本长度呈指数级增长,DSA针对长文本处理的主要计算瓶颈实现细粒度稀疏注意力机制[2][4] - V3.2-Exp在长文本训练和推理效率上实现大幅提升,同时在与V3.1-Terminus的严格对齐比较中各项核心能力保持基本持平水准[4] - 模型已在Huggingface和ModelScope平台全面开源,相关论文同步公开[2] 成本优化与市场策略 - 得益于新模型服务成本大幅降低,DeepSeek API价格下调50%以上[1][5] - 为方便用户对比测试,DeepSeek为V3.1-Terminus临时保留额外API访问接口,开放至10月15日,调用价格与V3.2-Exp一致[2] - 公司认识到新模型仍需在更广泛用户真实场景中进行大规模测试,以排除某些场景下效果欠佳的可能[2] 生态合作与国产化进展 - DeepSeek V3.2-Exp发布后,华为昇腾、寒武纪和海光信息第一时间宣布完成适配,显示国产AI软硬件生态协同发展[6][7] - 公司开源新模型研究中设计的GPU算子,包括TileLang和CUDA两种版本,建议研究性实验使用基于TileLang版本方便调试和快速迭代[7] - TileLang是由北京大学团队主导开发的开源AI算子编程语言,专门为简化复杂GPU算子开发而设计,实现FlashAttention算子代码量从超500行减少至80行并保持性能持平[7] - 华为计算宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现,表明国产模型、编程语言与算力深度协同共进[8][10]
DeepSeek新模型降价:优化推理效率,API价格降超50%
YOUNG财经 漾财经· 2025-09-30 14:25
新模型发布与技术升级 - DeepSeek正式发布实验性版本DeepSeek-V3.2-Exp模型 [3] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [3] - 新模型针对长文本训练和推理效率进行探索性优化和验证 [3] - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制 [4] - 新机制在几乎不影响模型输出效果前提下实现长文本训练和推理效率大幅提升 [4] - 新模型研究过程中使用高级语言TileLang进行快速原型开发 [4] - 开源算子包含TileLang与CUDA两种版本 [4] API价格调整与成本优化 - DeepSeek API价格降低50%以上 [2][4] - 输入缓存命中价格从0.5元降至0.2元/百万tokens [4] - 输入缓存未命中价格从4元降至2元/百万tokens [4] - 输出价格由12元降至3元/百万tokens [4] - 价格下调得益于新模型服务成本大幅降低 [4] - 官方App、网页端、小程序均已同步更新为新模型 [3] 模型性能与评估 - DeepSeek-V3.2-Exp训练设置与V3.1-Terminus严格对齐 [4] - 在各领域公开评测集上新模型表现与V3.1-Terminus基本持平 [4] - 新模型作为迈向新一代架构的中间步骤 [3] 行业竞争动态 - 国内大模型厂商智谱新一代旗舰模型GLM-4.6即将发布 [6] - 智谱Z.ai官网显示GLM-4.5标识为上一代旗舰模型 [6] 学术研究突破 - DeepSeek-R1研究成果登上《自然》期刊封面 [7] - 研究揭示如何在极少人工输入下训练模型进行推理 [7] - DeepSeek-R1模型采用强化学习进行训练 [7] - 模型正确解答数学问题获高分奖励答错受惩罚 [7] - 训练出能够规划解决问题步骤的大模型能更好解决问题 [7]
DeepSeek新版本API价格下调 寒武纪:对新模型DeepSeek
中国证券报· 2025-09-30 08:09
模型更新与性能优化 - DeepSeek发布实验性版本DeepSeek-V3.2-Exp 引入稀疏注意力机制以提升长文本训练和推理效率 [1] - 新模型服务成本大幅降低 API价格下调超过50% [1] - DeepSeek-V3.2-Exp已在App、网页端和小程序同步更新 [1] 硬件厂商适配与生态支持 - 寒武纪同步适配DeepSeek-V3.2-Exp并开源大模型推理引擎vLLM-MLU源代码 [1] - 寒武纪通过Triton算子开发和BangC融合算子实现快速适配及性能优化 达成业界领先计算效率水平 [2] - 华为昇腾基于vLLM/SGLang推理框架完成DeepSeek-V3.2-Exp的0day支持 并开源所有推理代码和算子实现 [3] - 华为昇腾在CANN平台完成优化适配 在128K长序列下实现TTFT低于2秒、TPOT低于30毫秒的推理性能 [3] 模型迭代历程 - DeepSeek于8月21日发布V3.1版本 并于9月22日更新至Terminus版本 改进语言一致性问题 [3] - Terminus版本针对用户反馈优化 缓解中英文混杂及异常字符情况 [3]
DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
36氪· 2025-09-30 07:39
DeepSeek最新模型V3.2-Exp发布,推出全新注意力机制DeepSeek Sparse Attention(DSA),训练推理提效的同时,API同步降价达50%以上! 值得注意的是,这是第一个用「DeepSeek」品牌命名的关键技术(注意力机制)! 全新注意力机制 我们注意到,DSA正是此前与北大合作、梁文锋署名的那篇ACL 2025最佳论文中,原生稀疏注意力(Native Sparse Attention,NSA)的改进。 刚刚,DeepSeek最新模型上线! 代号DeepSeek-V3.2-Exp,被DeepSeek誉为最新的实验性模型! 这次V3.2主要基于DeepSeek-V3.1-Terminus,并且首次引入「DeepSeek稀疏注意力」(DeepSeek Sparse Attention,DSA),在长上下文上实现更快、更 高效的训练与推理。 技术报告里的引用 DeepSeek-V3.2-Exp的核心武器「DeepSeek稀疏注意力」,首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练 和推理效率的大幅提升。 论文地址:https://github.com ...
DeepSeek-V3.2-Exp发布 API成本将降低50%以上
凤凰网· 2025-09-29 22:07
凤凰网科技讯 9月29日,DeepSeek-V3.2-Exp模型发布,V3.2-Exp在V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化 和验证。 在各领域的公开评测集上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。 目前,官方App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时API大幅度降价。在新的价 格政策下,开发者调用DeepSeek API的成本将降低50%以上。 ...