Workflow
DeepSeek MODEL1
icon
搜索文档
DeepSeek新模型真的要来了?“MODEL1”曝光
第一财经资讯· 2026-01-21 15:00
新模型“MODEL1”的发现与推测 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处提及此前未公开的“MODEL1”大模型标识符 [1] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在项目中被并列提及 [2] - 根据代码上下文,行业认为“MODEL1”很可能代表一个不同于现有架构的新模型,具体可能是V4模型、推理模型R2或V3系列的终极版 [2] 新模型的技术特征与进展 - “MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面 [3] - 这些技术差异表明新架构可能在内存优化和计算效率上进行了针对性设计 [3] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [3] DeepSeek的技术发展背景与行业影响 - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [4] - 在近一个月里,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立强大综合性能基础,随后在2025年1月发布了在复杂推理任务上表现卓越的推理模型R1 [4] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [7] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [7] - 全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [7]
DeepSeek新模型曝光!AI主线强势回归!澜起科技领涨超10%,科创人工智能ETF汇添富(589560)涨超3%,AI应用成开年主线,后续催化怎么看?
搜狐财经· 2026-01-21 14:54
全球及中国AI产业发展态势 - 全球大模型仍处于加速迭代周期,中国AI发展具备强劲竞争力[2] - 中国智能算力规模已达1590 EFLOPS,行业高质量数据集加速涌现,国内大模型引领全球开源生态[3] - 2025年中国人工智能企业数量预计超过6000家,核心产业规模预计突破1.2万亿元人民币[3] AI产业链结构分析 - AI产业可分为基础层、技术层与应用层三大板块[4] - 基础层为硬件算力,涵盖AI芯片、服务器、光模块、液冷设备及数据中心能源与配套基建[4] - 技术层聚焦大模型、算法框架等技术创新[4] - 应用层是技术落地载体,包括各行业内的垂直领域解决方案[4] AI产业链各环节前景与催化 - 基础层业绩兑现确定性高,技术与应用层潜在上行空间更大[4] - 半导体等领域因基础层资本开支及国产替代战略,仍有需求和政策支持的确定性[4] - 技术层主要关注大模型的技术进展,中美大模型领域的进展可能对彼此形成催化[5] - 应用侧的催化来自各行业垂类场景的进展,C端商业模式和需求的兑现可能带来更大上行空间,并可能拉动技术层[7] 近期AI模型与技术进展 - DeepSeek新模型“MODEL1”曝光,或为高效推理模型,内存占用相比V3.2更低,适合边缘设备或成本敏感场景[1] - DeepSeek新模型“MODEL1”亦可能为针对16K+序列优化的长序列专家模型,适合文档理解、代码分析等长上下文任务[1] - 业内机构爆料称,DeepSeek计划在2026年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4,其代码能力在内部测试中显示有望超越包括GPT和Claude在内的行业领先产品[1] - 头部科技企业资本支出持续提升,为模型能力升级提供算力支撑[2] AI应用落地与市场表现 - AI应用板块成为2026年开年主线,年初以来涨幅19%,位居A股首位[7] - AI应用已覆盖钢铁、有色、电力、通信等重点行业,逐渐深入到产品研发、质量检测、客户服务等重点环节[3] - AI手机、AI电脑、AI眼镜等人工智能终端产品加快普及,2025年前三季度智能眼镜市场出货量超过178万副,其中近八成是AI眼镜[3] - 硬件侧,AI正渗透日常生活,入口形态日趋多元,涵盖汽车、机器人、眼镜、智能家居及可穿戴设备等[7] - 软件侧,模型推理能力升级带来企业级Agentic AI加速落地,下一代硬件平台有望带动token和推理成本大幅下降,加速应用落地[7] - 中国在应用落地节奏与用户规模方面具备优势,AI应用仍具备较大成长空间[7] 资本市场相关动态 - 上证科创板人工智能指数(950180)强势上涨[6] - 成分股澜起科技上涨10.92%,恒玄科技上涨7.63%,芯原股份上涨4.60%,复旦微电上涨1.98%[1][6] - 成分股金山办公下跌0.39%,中科星图下跌1.78%,合合信息下跌1.10%[1]
DeepSeek新模型曝光
财联社· 2026-01-21 14:34
DeepSeek新模型“MODEL1”架构曝光 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,其中发现一个此前未公开的模型架构标识“MODEL1”,在114个总代码文件中被提及31次[4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型推理生成环节,其实现基础MLA是公司模型实现低成本、高性能的关键技术之一[4] - MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2[5] MODEL1的技术特性与市场定位推测 - 推测MODEL1很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景[5] - 推测MODEL1也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务[5] - MODEL1的硬件实现跨越多个GPU架构,在英伟达H100/H200上有64头和128头两个版本,在最新的B200上有专门的Head64内核实现,且SM100的Head128实现仅支持MODEL1,不支持V3.2[5] - 有人猜测公司为适配英伟达新一代GPU,专门优化了MODEL1的架构[5] DeepSeek现有产品线梳理 - 公司已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”[6] - 2024年12月推出的V3是公司的重要里程碑,其高效的MoE架构确立了强大的综合性能基础[6] - 公司在V3基础上快速迭代,发布了强化推理与Agent能力的V3.1,并于2025年12月推出了最新正式版V3.2,同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale[6] - 2025年1月发布的R1通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式[7] 公司未来产品与技术动向 - 科技媒体The Information月初爆料称,公司将在2025年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力[7] - 公司研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接”的新训练方法,以及一种受生物学启发的“AI记忆模块”[7] - 这一举动引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果[7]
炸锅了!DeepSeek MODEL1 引发全网大猜测,R2 or V4?
程序员的那些事· 2026-01-21 12:21
公司动态:DeepSeek新模型“MODEL1”意外曝光 - 在DeepSeek-R1发布一周年之际,公司官方GitHub仓库更新代码时意外曝光了一个名为“MODEL1”的全新模型 [1] - 该模型在114个文件中被提及近30次,并与现有主力模型V3.2并列成为独立分支,表明这不是一次简单的版本迭代 [1] 技术细节:新模型的技术特征与优化 - 泄露的代码细节显示,“MODEL1”优化了KV缓存布局并支持FP8稀疏解码内核 [2] - 新模型适配了最新的英伟达Blackwell架构,预计将大幅提升推理效率并减少显存占用 [2] - “MODEL1”整合了长上下文优化机制,旨在解决大模型“记不住长文本”的行业痛点 [2] 市场猜测:新模型的身份与发布时间 - 市场猜测“MODEL1”可能是传闻中因芯片短缺而延迟发布的R2模型,该模型早在2025年就传出研发消息 [3] - 另一种猜测认为,按照命名惯例,V3.2之后的全新架构逻辑上应为V4模型 [3] - 有消息称新模型可能于春节前后发布,但公司官方尚未对此作出回应 [3]