R1一周年,DeepSeek Model 1悄然现身
机器之心·2026-01-21 08:32

模型发布与市场影响 - 2025年1月20日,DeepSeek正式发布DeepSeek-R1模型,开启了新的开源LLM时代[2] - 在Hugging Face发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1是该平台上获赞最多的模型[2] - 一年后,DeepSeek的新模型在GitHub代码库中悄然现身,一个名为Model1的模型引起广泛关注[4][5] 代码库与项目状态 - Model1出现在DeepSeek的FlashMLA代码库更新中,该代码库名为“FlashMLA: Efficient Multi-head Latent Attention Kernels”[6] - 该项目在GitHub上拥有12k stars,102 watching,938 forks[6] - 项目采用MIT许可证,最近一次更新在7小时前[6] 技术架构分析 - 根据代码分析,Model1是DeepSeek下一代旗舰模型DeepSeek-V4的内部开发代号或首个工程版本[9] - 核心架构回归512维标准,而DeepSeek-V3.2沿用d_qk=576的非对称MLA设计(128维RoPE + 448维Latent)[9] - Model1切换到512维,表明在MLA架构上进行了“标准化”回归,可能是为了更好地匹配Blackwell架构的算力对齐或优化了Latent压缩比例[9] 硬件优化与性能 - 代码库出现大量针对NVIDIA下一代Blackwell GPU的专门优化[9] - 新增SM100接口(FMHACutlassSM100FwdRun),直接指向Blackwell架构的核心指令集优化[9] - 在B200上运行需要CUDA 12.9[9] - 在B200上,尚未完全优化的Sparse MLA算子能达到350 TFlops[10] - 在H800上,Dense MLA的计算吞吐量高达660 TFlops[10] 新特性与算子演进 - 引入“Token-level Sparse MLA”,这是Model1相比V3系列最显著的算子演进[11] - 测试脚本中同时出现test_flash_mla_sparse_decoding.py和test_flash_mla_dense_decoding.py,支持Sparse与Dense并行[12] - 采用FP8 KV Cache混合精度,Sparse算子使用FP8存储KV Cache,但在计算矩阵乘法时使用bfloat16以保证精度[12] - 引入新机制:Value Vector Position Awareness与Engram机制[11] - VVPA可能解决传统MLA在长文本下位置信息衰减的问题[12] - Engram机制被认为是公司在分布式存储或KV压缩上的新突破,用于配合Model1的高吞吐需求[12] 模型定位与命名推断 - 在代码中,MODEL1的定位是一个与V32并列且独立的分支,说明它不是V3系列的补丁,而是一个采用了不同架构参数的全新模型[11] - 按照公司的命名惯例,在V3.2之后的旗舰级架构跨越,逻辑上即为V4[11]

R1一周年,DeepSeek Model 1悄然现身 - Reportify