第一时间，寒武纪原生适配DeepSeek-V4！两大国产之光再次强强联合

DeepSeek-V4模型发布与适配 - AI圈高度关注的国产大模型DeepSeek-V4于今日上午正式上线[1] - 模型发布两个版本：285B参数的DeepSeek-V4-flash和1.6T参数的DeepSeek-V4-pro[1] 寒武纪的技术适配与成果 - 寒武纪在模型发布当日（Day 0）即完成了对DeepSeek-V4两个版本的适配，适配代码已开源至GitHub社区[1] - 本次适配从“快速模型迁移”与“极致性能优化”两个维度展现了公司的核心技术实力[6] - 公司对DeepSeek系列模型进行了深入的软硬件协同性能优化，达到了业界领先的算力利用率水平[4] - DeepSeek-V4能够原生运行在寒武纪芯片上，这对中国人工智能产业具有里程碑意义[4] 快速模型迁移能力 - 寒武纪NeuWare软件栈全面拥抱开源社区，原生支持PyTorch、vLLM、Diffusers等主流AI框架，新模型可快速迁移至寒武纪平台[8] - 在国产软件生态层面，公司与众智FlagOS生态持续深度合作，解耦模型与不同架构芯片之间的生态壁垒，降低模型适配迁移成本[8] - 公司利用Triton良好的社区兼容性和易用性进行快速算子开发适配，缩短功能适配周期[8] - 公司研发了代码生成智能体CNAgent，实现算子生成、模型迁移的全流程加速[8] - 公司芯片原生支持主流低精度数据格式，无需额外转换即可快速完成功能适配与精度验证[8] - 通过软硬件协同，公司在模型发布当日即可实现稳定运行，真正做到Day 0适配[8] 极致性能优化技术 - 针对DeepSeek-V4的新结构，公司通过自研高性能融合算子库Torch-MLU-Ops，对Compressor、mHC等模块进行专项加速[10] - 公司利用BangC高性能编程语言，编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel，充分释放硬件底层性能[10] - 在推理框架优化层面，公司在vLLM中全面支持TP/PP/SP/DP/EP 5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术[10] - 通过策略优化，在满足延时约束下达到最佳的词元吞吐能力，显著提升端到端推理效率[10] - 公司深度挖掘硬件特性：利用MLU访存与排序加速能力，有效加速稀疏Attention、Indexer等结构[10] - 利用高互联带宽与低通信延时，将Prefill和Decode两种不同工作负载场景下的通信占比降至最低，最大化分布式推理的利用率[10] - 这种软硬件一体化的设计思路，使得公司能够在大模型部署中持续降低算力成本，提升性能上限[10] 行业合作与生态意义 - 连同去年DeepSeek-V3.2的发布，寒武纪连续两次都是第一时间发布适配的国产芯片[4] - 双方的紧密合作得益于寒武纪长期积累的自研NeuWare软件生态与芯片设计技术，也是公司对芯片与算法联合创新持续投入的延续[4]