Workflow
DeepSeek MODEL1
icon
搜索文档
DeepSeek新模型真的要来了?“MODEL1”曝光
第一财经资讯· 2026-01-21 15:00
新模型“MODEL1”的发现与推测 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处提及此前未公开的“MODEL1”大模型标识符 [1] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在项目中被并列提及 [2] - 根据代码上下文,行业认为“MODEL1”很可能代表一个不同于现有架构的新模型,具体可能是V4模型、推理模型R2或V3系列的终极版 [2] 新模型的技术特征与进展 - “MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面 [3] - 这些技术差异表明新架构可能在内存优化和计算效率上进行了针对性设计 [3] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [3] DeepSeek的技术发展背景与行业影响 - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [4] - 在近一个月里,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立强大综合性能基础,随后在2025年1月发布了在复杂推理任务上表现卓越的推理模型R1 [4] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [7] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [7] - 全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [7]
DeepSeek新模型曝光!AI主线强势回归!澜起科技领涨超10%,科创人工智能ETF汇添富(589560)涨超3%,AI应用成开年主线,后续催化怎么看?
搜狐财经· 2026-01-21 14:54
全球及中国AI产业发展态势 - 全球大模型仍处于加速迭代周期,中国AI发展具备强劲竞争力[2] - 中国智能算力规模已达1590 EFLOPS,行业高质量数据集加速涌现,国内大模型引领全球开源生态[3] - 2025年中国人工智能企业数量预计超过6000家,核心产业规模预计突破1.2万亿元人民币[3] AI产业链结构分析 - AI产业可分为基础层、技术层与应用层三大板块[4] - 基础层为硬件算力,涵盖AI芯片、服务器、光模块、液冷设备及数据中心能源与配套基建[4] - 技术层聚焦大模型、算法框架等技术创新[4] - 应用层是技术落地载体,包括各行业内的垂直领域解决方案[4] AI产业链各环节前景与催化 - 基础层业绩兑现确定性高,技术与应用层潜在上行空间更大[4] - 半导体等领域因基础层资本开支及国产替代战略,仍有需求和政策支持的确定性[4] - 技术层主要关注大模型的技术进展,中美大模型领域的进展可能对彼此形成催化[5] - 应用侧的催化来自各行业垂类场景的进展,C端商业模式和需求的兑现可能带来更大上行空间,并可能拉动技术层[7] 近期AI模型与技术进展 - DeepSeek新模型“MODEL1”曝光,或为高效推理模型,内存占用相比V3.2更低,适合边缘设备或成本敏感场景[1] - DeepSeek新模型“MODEL1”亦可能为针对16K+序列优化的长序列专家模型,适合文档理解、代码分析等长上下文任务[1] - 业内机构爆料称,DeepSeek计划在2026年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4,其代码能力在内部测试中显示有望超越包括GPT和Claude在内的行业领先产品[1] - 头部科技企业资本支出持续提升,为模型能力升级提供算力支撑[2] AI应用落地与市场表现 - AI应用板块成为2026年开年主线,年初以来涨幅19%,位居A股首位[7] - AI应用已覆盖钢铁、有色、电力、通信等重点行业,逐渐深入到产品研发、质量检测、客户服务等重点环节[3] - AI手机、AI电脑、AI眼镜等人工智能终端产品加快普及,2025年前三季度智能眼镜市场出货量超过178万副,其中近八成是AI眼镜[3] - 硬件侧,AI正渗透日常生活,入口形态日趋多元,涵盖汽车、机器人、眼镜、智能家居及可穿戴设备等[7] - 软件侧,模型推理能力升级带来企业级Agentic AI加速落地,下一代硬件平台有望带动token和推理成本大幅下降,加速应用落地[7] - 中国在应用落地节奏与用户规模方面具备优势,AI应用仍具备较大成长空间[7] 资本市场相关动态 - 上证科创板人工智能指数(950180)强势上涨[6] - 成分股澜起科技上涨10.92%,恒玄科技上涨7.63%,芯原股份上涨4.60%,复旦微电上涨1.98%[1][6] - 成分股金山办公下跌0.39%,中科星图下跌1.78%,合合信息下跌1.10%[1]
DeepSeek新模型曝光
财联社· 2026-01-21 14:34
专注科创板和科技创新,上海报业集团主管主办,界面财联社出品。 2025年1月,DeepSeek-R1上线,此时正值R1模型发布一周年之际,DeepSeek新模型"MODEL1"曝光。 北京时间1月21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码,借助AI对全部总代码文件数:114个(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)进行分析,发现了一个此前未公开的模型架构标识"MODEL1",共被提及31次。 FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型"推理生成"这一环节。该算法的实现基 础MLA(多层注意力机制),是DeepSeek模型(如V2、V3)实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用, 最大化地利用GPU硬件。 MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2。据推测, MODEL1很可能是一个高效推理 模型,相比V3.2,内存占用更低,适合边缘设备或成本敏感场景。 它也可能是一个长序列专家 ...
炸锅了!DeepSeek MODEL1 引发全网大猜测,R2 or V4?
程序员的那些事· 2026-01-21 12:21
就在 DeepSeek-R1 发布一周年的节骨眼上,国产大模型圈突然炸了! 1 月 21 日凌晨,有开发者发现 DeepSeek 官方 GitHub 仓库更新代码时,意外曝光了一个名为「MODEL1」的全新模型。 (参考:微博、机器之心等,本文由 AI 优化) 大家觉得 MODEL1 到底是谁?是迟到的 R2 还是全新的 V4? 欢迎在评论区留言讨论,有任何疑问都可以 @元宝 来问,咱们一起蹲官方后续! | - For sparse fp8 decoding kernel on F3, k cache.stride(0) must be a | 78 + | | --- | --- | | multiple of 656B (for V32) or 576B (for MODEL1). Padding is needed sometimes. | IMMILIAL TO BREAT THE THE WE WITH THE CHILIT WE CHILITER PHONE COLLECT PROPERTY PROPERTY | 从泄露的细节来看,MODEL1 藏了不少黑科技:优化了 KV 缓存布局、支持 FP8 ...