第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合

DeepSeek-V4模型发布与适配 - AI圈高度关注的国产大模型DeepSeek-V4于今日上午正式上线[1] - 模型发布两个版本:285B参数的DeepSeek-V4-flash和1.6T参数的DeepSeek-V4-pro[1] 寒武纪的技术适配与成果 - 寒武纪在模型发布当日(Day 0)即完成了对DeepSeek-V4两个版本的适配,适配代码已开源至GitHub社区[1] - 本次适配从“快速模型迁移”与“极致性能优化”两个维度展现了公司的核心技术实力[6] - 公司对DeepSeek系列模型进行了深入的软硬件协同性能优化,达到了业界领先的算力利用率水平[4] - DeepSeek-V4能够原生运行在寒武纪芯片上,这对中国人工智能产业具有里程碑意义[4] 快速模型迁移能力 - 寒武纪NeuWare软件栈全面拥抱开源社区,原生支持PyTorch、vLLM、Diffusers等主流AI框架,新模型可快速迁移至寒武纪平台[8] - 在国产软件生态层面,公司与众智FlagOS生态持续深度合作,解耦模型与不同架构芯片之间的生态壁垒,降低模型适配迁移成本[8] - 公司利用Triton良好的社区兼容性和易用性进行快速算子开发适配,缩短功能适配周期[8] - 公司研发了代码生成智能体CNAgent,实现算子生成、模型迁移的全流程加速[8] - 公司芯片原生支持主流低精度数据格式,无需额外转换即可快速完成功能适配与精度验证[8] - 通过软硬件协同,公司在模型发布当日即可实现稳定运行,真正做到Day 0适配[8] 极致性能优化技术 - 针对DeepSeek-V4的新结构,公司通过自研高性能融合算子库Torch-MLU-Ops,对Compressor、mHC等模块进行专项加速[10] - 公司利用BangC高性能编程语言,编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,充分释放硬件底层性能[10] - 在推理框架优化层面,公司在vLLM中全面支持TP/PP/SP/DP/EP 5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术[10] - 通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率[10] - 公司深度挖掘硬件特性:利用MLU访存与排序加速能力,有效加速稀疏Attention、Indexer等结构[10] - 利用高互联带宽与低通信延时,将Prefill和Decode两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率[10] - 这种软硬件一体化的设计思路,使得公司能够在大模型部署中持续降低算力成本,提升性能上限[10] 行业合作与生态意义 - 连同去年DeepSeek-V3.2的发布,寒武纪连续两次都是第一时间发布适配的国产芯片[4] - 双方的紧密合作得益于寒武纪长期积累的自研NeuWare软件生态与芯片设计技术,也是公司对芯片与算法联合创新持续投入的延续[4]

第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合 - Reportify