Workflow
华为昇腾、寒武纪宣布适配DeepSeek最新模型
21世纪经济报道·2025-09-30 18:13

记者丨 陈归辞 编辑丨卜羽勤 9月29日,DeepSeek-V3.2-Exp模型正式发布。 V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的DeepSeek Sparse Attention (一种 稀疏注意力机制,DSA),针对长文本的训练和推理效率进行了探索性的优化和验证。 DSA是一种针对Transformer架构的优化技术。在大语言模型的技术机制中,注意力机制是一 个核心组件,决定了模型如何在文本序列中聚焦关键信息,实现语义理解与生成。 简单对比来看,在Transformer架构中,传统的注意力机制是"稠密的",处理长文本时计算量 会呈指数级增长。DSA则是一种"稀疏"方案,更高效,成本也更低。 得益于新模型服务成本的大幅降低,DeepSeek API的价格也大幅下调50%以上。 除技术创新与价格"腰斩"外, DeepSeek此次开源TileLang版本算子,同样引发业内高度关 注。 实验版本 当日更早时候,有不少业内人士注意到,DeepSeek将 v3.2-base 上传至DeepSeek在社区平台 HuggingFace的官方页面,但很快被删除。此后,DeepSeek正式公 ...