炸锅了!DeepSeek MODEL1 引发全网大猜测,R2 or V4?
程序员的那些事·2026-01-21 12:21

就在 DeepSeek-R1 发布一周年的节骨眼上,国产大模型圈突然炸了! 1 月 21 日凌晨,有开发者发现 DeepSeek 官方 GitHub 仓库更新代码时,意外曝光了一个名为「MODEL1」的全新模型。 (参考:微博、机器之心等,本文由 AI 优化) 大家觉得 MODEL1 到底是谁?是迟到的 R2 还是全新的 V4? 欢迎在评论区留言讨论,有任何疑问都可以 @元宝 来问,咱们一起蹲官方后续! | - For sparse fp8 decoding kernel on F3, k cache.stride(0) must be a | 78 + | | --- | --- | | multiple of 656B (for V32) or 576B (for MODEL1). Padding is needed sometimes. | IMMILIAL TO BREAT THE THE WE WITH THE CHILIT WE CHILITER PHONE COLLECT PROPERTY PROPERTY | 从泄露的细节来看,MODEL1 藏了不少黑科技:优化了 KV 缓存布局、支持 FP8 ...