Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek新模型“MODEL1”曝光
第一财经资讯· 2026-01-21 17:05
新模型“MODEL1”的技术线索与进展 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处此前未公开的“MODEL1”大模型标识符 [2] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在代码中被并列提及,行业根据代码上下文认为其很可能代表一个不同于现有架构的新模型 [3] - 根据开发者分析,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别,表明新架构可能在内存优化和计算效率上进行了针对性设计 [5] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [5] 新模型的技术背景与市场传闻 - 近一个月内,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [6] - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型,此次项目曝光或许印证了该传闻 [6] - 行业对于“MODEL1”的具体定位有不同看法,有观点认为是V4模型或推理模型R2,也有开发者认为可能是V3系列的终极版 [3] DeepSeek的技术基础与历史产品 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是公司模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化利用GPU硬件 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础,随后在2025年1月发布了基于强化学习的推理模型R1,在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] DeepSeek-R1的行业影响与中国AI开源生态 - 海外开源社区Hugging Face发布博客回顾“DeepSeek时刻”一周年,指出中国AI力量在过去一年重塑了全球开源生态 [7] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源不仅降低了推理技术、生产部署与心理三个门槛,更推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [9] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [9] - 尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [9]
传DeepSeek曝新模型,梁文锋再放“王炸”?
新浪财经· 2026-01-21 15:55
来源:深网 在R1发布一周年之际,DeepSeek 在全球AI圈再次掀起波澜。 需要指出的是,截至目前,DeepSeek 官网及微信公众号尚未披露任何关于Model1 的相关信息,其最新 一篇推送仍停留在 2025年12月1日发布的 DeepSeek-V3.2正式版公告。 在过去一年中,DeepSeek 以"小步快跑"的方式持续推进 V3 模型的迭代,重点围绕复杂推理、编程能力 和工具调用等方向进行深度优化与架构创新,同时将 R1 作为稳定基线持续赋能生态。 业界之所以猜测DeepSeek会在今天春节复刻去年R1的"核爆",主要基于两条线索。一是有外媒称, DeepSeek预计将于2月中旬推出其下一代人工智能模型V4。 近日,DeepSeek在FlashMLA代码库更新中意外曝光了一个名为 Model1 的新模型,这一发现迅速在技 术社区引发热议。 神秘的 Model1不仅出现在代码和注释中,还拥有与 DeepSeek-V3.2 并列的独立文件。这或意味着其并 未沿用 V3 系列的参数配置或基础架构,或是一条全新的技术路径。 对此,不少网友推测这可能是DeepSeek蓄势已久、即将投向全球AI赛场的下一枚"王 ...
DeepSeek新模型真的要来了?“MODEL1”曝光
第一财经资讯· 2026-01-21 15:00
新模型“MODEL1”的发现与推测 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处提及此前未公开的“MODEL1”大模型标识符 [1] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在项目中被并列提及 [2] - 根据代码上下文,行业认为“MODEL1”很可能代表一个不同于现有架构的新模型,具体可能是V4模型、推理模型R2或V3系列的终极版 [2] 新模型的技术特征与进展 - “MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面 [3] - 这些技术差异表明新架构可能在内存优化和计算效率上进行了针对性设计 [3] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [3] DeepSeek的技术发展背景与行业影响 - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [4] - 在近一个月里,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立强大综合性能基础,随后在2025年1月发布了在复杂推理任务上表现卓越的推理模型R1 [4] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [7] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [7] - 全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [7]
DeepSeek新模型“Model 1”曝光,疑似“高效推理模型”
新浪财经· 2026-01-21 14:58
责任编辑:杨赐 新浪科技讯 1月21日下午消息,DeepSeek于官方GitHub仓库更新了一系列FlashMLA代码,在这些更新 中,一个名为"Model 1"的模型引起了广泛关注。 新浪科技讯 1月21日下午消息,DeepSeek于官方GitHub仓库更新了一系列FlashMLA代码,在这些更新 中,一个名为"Model 1"的模型引起了广泛关注。 据悉,目前这个还很神秘的Model1不仅出现在了代码与注释中,甚至还有与DeepSeek-V3.2并驾齐驱的 文件。这也不禁引发广大网友猜测,认为Model 1很可能就是传闻中DeepSeek将于春节前后发布的新模 型代号。 据悉,目前这个还很神秘的Model1不仅出现在了代码与注释中,甚至还有与DeepSeek-V3.2并驾齐驱的 文件。这也不禁引发广大网友猜测,认为Model 1很可能就是传闻中DeepSeek将于春节前后发布的新模 型代号。 最新消息显示,Model1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek- V3.2。这很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景。此外 ...
AI视频迎来了它的DeepSeek时刻
经济观察网· 2026-01-21 14:39
你是一个非常有创意的普通人,你曾经有一个梦想,希望把自己脑海中的点子都用视觉形态展示,比如 拍成动画、电影、电视剧等等。但你苦于资金和资源,无法实现。直到看到PixVerse R1后,你感觉到, 自己的梦想好像要成真了。 1月13日,国内AI视频初创公司爱诗科技发布了一款通用实时世界模型PixVerse R1;本周,该模型已升 级支持HD画质。众多关注AI视频的大咖惊叹:AI视频行业的DeepSeek时刻到了。 PixVerse R1改变了视频生成的逻辑。之前,用户需要输入文字或图片生成视频,还需要等待几秒钟甚至 几分钟。但使用PixVerse R1,用户即使不输入提示词,PixVerse R1也会自动生成视频,它就像一个能无 限生成内容的数字世界,可以让人沉浸遨游。在这个世界里,用户的提示词有一种言出法随的效果,输 入的指令有多快,PixVerse R1画面的改变就有多快。 在YouTube上,已经有普通用户用它生成了一部90分钟的电影。看到PixVerse R1价值的影视公司已经开 始行动。1月19日,中国儒意战略投资爱诗科技,双方也宣布进行版权共享,建立包括影视、游戏、流 媒体等多方面的战略合作伙伴关系 ...
DeepSeek AI新模型曝光:搭载 MODEL1 全新架构,最快2月上线
环球网资讯· 2026-01-21 14:37
来源:环球网 【环球网科技综合报道】1月21日消息,据ITPro报道,DeepSeek计划于今年2月中旬农历新年期间,推 出新一代旗舰AI模型DeepSeek V4。该模型将搭载全新技术架构,写代码能力有望实现显著提升,引发 行业广泛关注。 1月20日,恰逢DeepSeek-R1模型发布一周年,有开发者在GitHub平台发现,DeepSeek更新了一系列 FlashMLA相关代码。在涉及的114个文件中,28处明确提及未知的"MODEL1"大模型标识符,且该标识 符与现有模型"V32"(即DeepSeek-V3.2)被并列或区分引用。通过代码上下文分析,技术人士推 测,"MODEL1"大概率对应一款采用全新架构的AI模型,其核心技术特征与现有模型存在明显差异。 具体来看,新架构在键值(KV)缓存布局、稀疏性处理方式以及FP8数据格式解码支持等关键技术环 节进行了优化调整。这些技术革新针对性解决了模型运行中的内存占用与计算效率问题,为模型性能提 升奠定了基础。 值得关注的是,DeepSeek研究团队此前已连续发布两篇技术论文,分别提出"优化残差连接 (mHC)"的创新训练方法,以及受生物学启发研发的"AI记忆模 ...
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
新浪财经· 2026-01-21 12:05
DeepSeek已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列"全能助手"和专注于复 杂推理的R系列"解题专家"。 2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架构确立了强大的综合性能 基础。此后,DeepSeek在V3基础上快速迭代,发布了强化推理与Agent(智能体)能力的 V3.1,并于2025年12月推出了最新正式版V3.2。同时,还推出了一个专注于攻克高难度数学 和学术问题的特殊版本V3.2-Speciale。 2025年1月发布的R1,则通过强化学习,在解决数学问题、代码编程等复杂推理任务上表现 卓越,并首创了"深度思考"模式。 科技媒体The Information月初爆料称,DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型 ——DeepSeek V4,将具备更强的写代码能力。 此前,DeepSeek研究团队陆续发布了两篇技术论文,分别介绍了名为"优化残差连接(mHC)"的新训 练方法,以及一种受生物学启发的"AI记忆模块(Engram)"。这一举动不禁引起用户猜测,DeepSeek 正在开发中的新模型有可能会整合这些最新的研究成果。 ...
Hugging Face回看“DeepSeek时刻”:过去一年,中国AI如何改变全球开源格局?
华尔街见闻· 2026-01-21 10:41
文章核心观点 - 全球最大AI开源社区Hugging Face发布文章,回顾“DeepSeek时刻”一周年,认为中国AI力量在过去一年重塑了全球开源生态 [1] - DeepSeek R-1的发布是重要分水岭,降低了技术与应用门槛,成为中国AI发展的转折点,并在全球引发开源模式深刻变革 [1] - 中国AI开发模式发生根本转变,从早期闭源为主迅速转向开源主导,中国模型在下载量和影响力上全面崛起,并已深度嵌入全球供应链 [1][5] “DeepSeek时刻”的意义与影响 - DeepSeek R-1发布前,中国AI产业主要集中在闭源模型,开源并非默认选择 [3] - R-1的真正意义在于降低了三个关键壁垒:技术壁垒(将高级推理能力转化为可下载、可微调的工程资产)、采用壁垒(MIT许可证促快速部署)、心理壁垒(问题从“能否做”转向“如何做好”) [3] - 此次发布证明即使在资源有限情况下,通过开源和快速迭代仍可取得快速进步,为中国AI发展赢得了宝贵时间 [3] - R-1的发布使“开源”从战术选择转变为科技公司的长期战略 [5] 中国AI行业格局与战略转变 - 开源进入主流后,中国AI格局呈现新模式:大型科技公司带头,初创公司紧随其后,垂直行业公司也越来越多进入 [6] - 百度、字节跳动、腾讯等巨头及Moonshot等初创企业纷纷入局,导致Hugging Face上排名前列的模型不再由美国开发者垄断 [6] - 百度在Hugging Face上的发布量从2024年的零增加到2025年的100多个 [6] - 字节跳动和腾讯的发布量增加了八到九倍 [6] - Moonshot发布的Kimi K2被视为“另一个DeepSeek时刻” [6] - 竞争焦点已从单一的模型性能转向生态系统、应用场景和基础设施的比拼 [6] - 中国AI产业已从模型参数竞赛,进化为更具商业落地潜力的系统级工程能力比拼 [10] 市场表现与崛起动因 - 中国AI玩家的集体崛起源于在共享的技术、经济和监管压力下的对齐,而非协议协同 [8] - 在算力受限和成本控制的共同压力下,各公司在相似的技术基础和工程路径上竞争,这种同构性使生态系统具备自我复制和扩张能力 [8] - 在新建模型(<1年)中,中国模型的下载量已经超过了包括美国在内的任何其他国家 [8] - Hugging Face热图数据显示,从2025年2月到7月,中国公司的开源发布明显更加活跃 [8] - 过去一年,中国模型在Hugging Face上的下载量已超越美国 [1] 全球影响与行业反应 - 全球使用开放权重模型的初创公司和研究人员,往往默认甚至依赖于中国开发的模型作为基础 [11] - 举例:2025年11月发布的美国领先开放权重模型Deep Cogito v2.1,实际上是DeepSeek-V3的微调版本 [11] - DeepSeek在东南亚和非洲等全球市场被大量采用,其多语言支持和成本优势成为企业使用的关键因素 [11] - 尽管美国和法国等地机构加速推出开源模型以保持竞争力,但中国模型的影响力已渗透至底层 [11] - 美国推出ATOM项目,明确引用DeepSeek和中国模型的势头作为动力,呼吁在开放权重模型开发方面进行协调努力 [11] - 展望2026年,预计将有更多来自中国和美国的重大发布,架构趋势和硬件选择将成为下一阶段关注焦点 [11]
DeepSeek新模型MODEL1曝光,瑞士百达持续投资科技股
每日经济新闻· 2026-01-21 09:21
市场表现 - 科创人工智能ETF华夏(589010)于1月20日下跌1.14%,报1.567元,其跟踪指数成分股表现分化,30只成分股中22只下跌,寒武纪以5.40%领跌,全天成交额为1亿元,换手率为3.88% [1] - 机器人ETF(562500)于同日下跌1.35%,报1.097元,其成分股中66只有51只下跌,弘讯科技以9.20%领跌,全天成交额达14.88亿元,交投维持高活跃度 [1] - 机器人ETF(562500)是全市场唯一规模超两百亿、流动性最佳、覆盖中国机器人产业链最全的机器人主题ETF [3] - 科创人工智能ETF华夏(589010)被描述为机器人的大脑,具有20%涨跌幅和中小盘弹性,旨在捕捉AI产业“奇点时刻” [3] 行业动态与预测 - DeepSeek在发布新模型DeepSeek-R1一周年之际,疑似有新模型“MODEL1”架构曝光,代码显示其在KV缓存布局、稀疏性处理和FP8解码方面与V32模型存在差异 [1] - 德勤报告预测,AI正在重新定义硬件、软件、电信与传媒行业的基础,全球工业机器人装机量预计将在2026年达到550万台,突破每年100万台的关键节点预计要到2030年之后 [2] - 瑞士百达多元资产香港区主管观点认为,美国科技市场专注于“现在交付”,而中国市场在机器人等领域的购买行为更偏长期,目前该市场尚未出现过度繁荣 [2] 公司进展与产品 - 震裕科技的模具业务经营稳中有增,铁芯板块新产品开始放量,结构件业务经营如期反转并有望加快增长,其培育的机器人板块在国内市场进展顺利,后续海外大客户体系有望突破 [2] - 机器人ETF(562500)跟踪的中证机器人指数在成分股调整后,其人形机器人含量提升至近70%,此次调仓实现了“去弱留强” [3]
DeepSeek新模型MODEL1曝光
金融界· 2026-01-21 07:59
DeepSeek-R1发布一周年之际,新模型"MODEL1"曝光。DeepSeek在GitHub更新FlashMLA代码,横跨 114个文件中有28处提到MODEL1,与V32作为不同的模型出现。已知V32是DeepSeek-V3.2,MODEL1 很可能是新的架构。代码中的具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化 上有多处不同。此前有消息称DeepSeek将在2月中旬春节前后发布下一代旗舰模型。 ...