DeepSeek Sparse Attention

搜索文档
DeepSeek新模型开源,新架构亮了,国产AI芯片集体狂欢
36氪· 2025-09-30 09:15
DeepSeek离下一代架构,又近了一步! 智东西9月30日报道,昨日,DeepSeek宣布开源DeepSeek-V3.2-Exp实验版模型。该模型首次引入了DeepSeek Sparse Attention稀疏注意力机制,并在几乎 不影响模型输出效果的前提下,大幅度提升了长文本训练和推理效率,被DeepSeek定义为"迈向新一代架构的中间步骤"。 HuggingFace地址: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp 魔搭社区地址: 除模型本体外,DeepSeek还开源了相关技术报告及代码,并提供TileLang与CUDA双版本GPU算子,以便研究者在不同层级进行实验和优化。 https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp 这一改进还降低了DeepSeek新模型的服务成本,DeepSeek因此执行了新的价格政策,让开发者调用DeepSeek API的成本降低50%以上。 降价幅度最大的为输出token的价格:DeepSeek-V3.2-Exp模型输出100万个token的价格 ...
DeepSeek-V3.2-Exp 发布,训练推理提效,API成本降50%以上
新浪科技· 2025-09-29 18:27
目前,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp,同时API大幅度降价。在新的价 格政策下,开发者调用DeepSeek API的成本将降低50%以上。DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源。 责任编辑:刘万里 SF014 在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。(文猛) 新浪科技讯 9月29日晚间消息,DeepSeek发布DeepSeek-V3.2-Exp模型。据悉,这是一个实验性 (Experimental)的版本,作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化 和验证。 ...