Sparse Attention Mechanism

搜索文档
DeepSeek-V3.2上线国家超算互联网 开发者可免费下载
搜狐财经· 2025-09-30 19:58
IT时报记者 孙妍 9月29日,DeepSeek正式发布DeepSeek-V3.2-Exp模型,这是一个实验性的版本。作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了 DeepSeekSparseAttention(DSA,一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。 DeepSeekSparseAttention首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。 目前,超算互联网AI社区已汇聚700余款国内外优质开源模型,包括DeepSeek-V3.1-Terminus、DeepSeek-R1-0528、DeepSeek-R1、DeepSeek-V3等DeepSeek 系列,开发者可登录超算互联网AI社区,实现API调用、Chatbot在线推理对话、国产大模型分布式训练、微调等功能于一体的MaaS服务。 9月30日,依托国产深算智能加速卡以及全国一体化算力网,DeepSeek-V3.2-Exp上线国家超算互联网AI社区,企业和开发者均可在AI社区免费下载 DeepSeek-V3.2-E ...
DeepSeek-V3.2-Exp来了,API价格再度大幅下调
凤凰网· 2025-09-29 22:03
摘要: 在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。 2025年9月29日,DeepSeek-V3.2-Exp模型发布,V3.2-Exp在V3.1-Terminus 的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文 本的训练和推理效率进行了探索性的优化和验证。 DeepSeek Sparse Attention的核心创新在于首次实现了细粒度的稀疏注意力机制,这一机制能够在几乎不影响模型输出质量的前提下,大幅提高长文本的处 理效率。 并且,为了确保优化效果的可验证性,V3.2-Exp的训练设置与V3.1-Terminus进行了严格对比,结果显示,V3.2-Exp在各大公开评测集上的表现与V3.1- Terminus几乎持平。 | | Benchmark | DeepSeek-V3.1- | DeepSeek-V3.2-Exp | | --- | --- | --- | --- | | | | Terminus | | | General | MMLU-Pro GPQA-Diamond | 85.0 | 85.0 | | | | 80 ...
国庆前放大招!DeepSeek-V3.2-Exp发布并开源,API成本将降低50%以上
华尔街见闻· 2025-09-29 19:12
国庆长假在即,Deepseek又放大招了! 9月29日,DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。 该版本作为迈向下一代架构的重要中间步骤,在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力机制,旨在对 长文本的训练和推理效率 进行探索性优化与验证,这种架构能够降低计算资源消耗并提升模型推理效率。 DeepSeek 现已将 DeepSeek-V3.2-Exp 模型在 Huggingface 和 ModelScope 平台上全面开源,相关论文也已同步公开。 目前,华为云已完成对 DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。 DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制。DeepSeek 方面表示,这项技术 在几乎不影响模型输出效果的前提下,大幅提升了 长文本场景下的训练和推理效率 。 为了确保评估的严谨性,DeepSeek-V3.2-Exp 的训练设置与前代 V3.1-Terminus 进行了严格对齐。 ...