华为昇腾、寒武纪宣布适配DeepSeek最新模型

模型发布与核心特性 - DeepSeek-V3.2-Exp模型于9月29日正式发布，是在V3.1-Terminus基础上的实验版本[1] - 新模型首次引入自研的DeepSeek Sparse Attention稀疏注意力机制，针对长文本训练和推理效率进行优化验证[1] - DSA机制能够自适应选择关键注意力头与局部上下文窗口，相比传统稠密注意力机制计算更高效、成本更低[1][3][4] 技术优势与性能表现 - 传统Transformer全连接注意力机制计算复杂度随文本长度呈指数级增长，DSA针对长文本处理的主要计算瓶颈实现细粒度稀疏注意力机制[2][4] - V3.2-Exp在长文本训练和推理效率上实现大幅提升，同时在与V3.1-Terminus的严格对齐比较中各项核心能力保持基本持平水准[4] - 模型已在Huggingface和ModelScope平台全面开源，相关论文同步公开[2] 成本优化与市场策略 - 得益于新模型服务成本大幅降低，DeepSeek API价格下调50%以上[1][5] - 为方便用户对比测试，DeepSeek为V3.1-Terminus临时保留额外API访问接口，开放至10月15日，调用价格与V3.2-Exp一致[2] - 公司认识到新模型仍需在更广泛用户真实场景中进行大规模测试，以排除某些场景下效果欠佳的可能[2] 生态合作与国产化进展 - DeepSeek V3.2-Exp发布后，华为昇腾、寒武纪和海光信息第一时间宣布完成适配，显示国产AI软硬件生态协同发展[6][7] - 公司开源新模型研究中设计的GPU算子，包括TileLang和CUDA两种版本，建议研究性实验使用基于TileLang版本方便调试和快速迭代[7] - TileLang是由北京大学团队主导开发的开源AI算子编程语言，专门为简化复杂GPU算子开发而设计，实现FlashAttention算子代码量从超500行减少至80行并保持性能持平[7] - 华为计算宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持，并面向开发者开源所有推理代码和算子实现，表明国产模型、编程语言与算力深度协同共进[8][10]