Seek .(SKLTY)
搜索文档
DeepSeek新模型“MODEL1”曝光
第一财经资讯· 2026-01-21 17:05
新模型“MODEL1”的技术线索与进展 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处此前未公开的“MODEL1”大模型标识符 [2] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在代码中被并列提及,行业根据代码上下文认为其很可能代表一个不同于现有架构的新模型 [3] - 根据开发者分析,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别,表明新架构可能在内存优化和计算效率上进行了针对性设计 [5] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [5] 新模型的技术背景与市场传闻 - 近一个月内,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [6] - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型,此次项目曝光或许印证了该传闻 [6] - 行业对于“MODEL1”的具体定位有不同看法,有观点认为是V4模型或推理模型R2,也有开发者认为可能是V3系列的终极版 [3] DeepSeek的技术基础与历史产品 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是公司模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化利用GPU硬件 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础,随后在2025年1月发布了基于强化学习的推理模型R1,在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] DeepSeek-R1的行业影响与中国AI开源生态 - 海外开源社区Hugging Face发布博客回顾“DeepSeek时刻”一周年,指出中国AI力量在过去一年重塑了全球开源生态 [7] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源不仅降低了推理技术、生产部署与心理三个门槛,更推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [9] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [9] - 尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [9]
传DeepSeek曝新模型,梁文锋再放“王炸”?
新浪财经· 2026-01-21 15:55
下一代模型发布预期与线索 - 在R1发布一周年之际,DeepSeek的代码库更新中意外曝光了一个名为“Model1”的新模型,该模型拥有与DeepSeek-V3.2并列的独立文件,可能意味着其未沿用V3系列架构,是一条全新的技术路径[1][6] - 业界推测公司可能在今年春节复刻去年发布R1的“核爆”式发布,主要线索包括:外媒报道称DeepSeek预计将于2月中旬推出下一代人工智能模型V4[3][8],以及2025年底至2026年初公司发表了两篇关键论文为下一代模型扫清技术障碍[5][10] - 根据The Information报道,有DeepSeek员工的内部测试表明,V4在编码任务方面可以胜过Anthropic的Claude和OpenAI的GPT系列等竞争对手[4][9] 近期模型迭代与性能提升 - 自2025年3月以来,公司以“小步快跑”方式持续迭代V3模型,重点优化复杂推理、编程能力和工具调用[3][8] - 2025年3月25日,DeepSeek V3升级为V3-0324,生成的代码可用性更高,中文写作升级,在数学、代码能力上超过GPT-4.5[4][9] - 2025年5月29日,DeepSeek-R1完成小版本升级,更新后的模型在数学、编程与通用逻辑上已接近o3与Gemini-2.5-Pro,幻觉率降低了45~50%左右[4][9] - 2025年8月21日发布DeepSeek-V3.1,相比R1能在更短时间内给出答案,有更强的Agent能力,API接口调用价格为输入0.5元/百万tokens(缓存命中)、4元/百万tokens(缓存未命中),输出12元/百万tokens[4][9] - 2025年9月29日发布DeepSeek-V3.2-Exp,引入了DeepSeek Sparse Attention(一种稀疏注意力机制),API接口调用价格降至输入0.2元/百万tokens(缓存命中)、2元/百万tokens(缓存未命中),输出3元/百万tokens[4][9] - 2025年12月1日发布DeepSeek-V3.2正式版,其推理能力达到了GPT-5的水平,仅略低于Gemini-3.0-Pro,并将思考融入工具使用的模型,同时支持思考与非思考模式的工具调用[4][9] 下一代模型的关键技术突破 - 公司于2025年12月底至2026年1月发表了两篇有梁文锋署名的论文,旨在解决大模型基础架构中训练稳定性与知识检索效率两大瓶颈[5][10] - 论文《mHC: Manifold-Constrained Hyper-Connections》提出了“流形约束超连接”(mHC)框架,通过数学上的流形投影将残差连接空间约束在特定流形上,在保留强大表达能力的同时强制恢复网络的恒等映射特性,从根源上保障训练稳定性[5][10] - 与北大合作的论文《Conditional Memory via Scalable Lookup》提出了“条件记忆”模块(Engram),将高频静态知识以嵌入表形式注入Transformer层,通过解耦知识存储与神经计算,证明用基于哈希的查找表替代约20%的混合专家(MoE)参数,可显著提升推理与知识任务性能[5][11]
DeepSeek新模型真的要来了?“MODEL1”曝光
第一财经资讯· 2026-01-21 15:00
新模型“MODEL1”的发现与推测 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处提及此前未公开的“MODEL1”大模型标识符 [1] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在项目中被并列提及 [2] - 根据代码上下文,行业认为“MODEL1”很可能代表一个不同于现有架构的新模型,具体可能是V4模型、推理模型R2或V3系列的终极版 [2] 新模型的技术特征与进展 - “MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面 [3] - 这些技术差异表明新架构可能在内存优化和计算效率上进行了针对性设计 [3] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [3] DeepSeek的技术发展背景与行业影响 - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [4] - 在近一个月里,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立强大综合性能基础,随后在2025年1月发布了在复杂推理任务上表现卓越的推理模型R1 [4] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [7] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [7] - 全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [7]
DeepSeek新模型“Model 1”曝光,疑似“高效推理模型”
新浪财经· 2026-01-21 14:58
公司动态与产品发布 - DeepSeek于1月21日在官方GitHub仓库更新了FlashMLA代码,其中出现了一个名为“Model 1”的新模型,引起了广泛关注 [1][2] - 在代码仓库中,“Model 1”拥有与现有主力模型DeepSeek-V3.2并驾齐驱的文件,这引发了市场猜测,认为它很可能是公司计划在春节前后发布的新模型的代号 [1][2] 产品架构与技术定位 - “Model 1”被确认为DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2 [1][2] - 该模型很可能是一个高效推理模型,其特点是相比V3.2内存占用更低,因此适合部署在边缘设备或成本敏感的应用场景 [1][2] - 此外,“Model 1”也可能被定位为一个长序列专家模型,针对超过16K的序列长度进行了优化,使其特别适合处理文档理解、代码分析等需要长上下文的复杂任务 [1][2]
AI视频迎来了它的DeepSeek时刻
经济观察网· 2026-01-21 14:39
产品技术突破 - 爱诗科技发布全球首个通用实时世界模型PixVerse R1,支持HD画质,改变了视频生成逻辑,用户无需输入提示词也可自动生成视频,实现“言出法随”的实时交互效果[1] - 模型采用Omni原生多模态架构,将文字、图片、音频、视频在同一架构内训练,并采用自回归流式生成与“长期记忆”技术,能记住此前输入的信息[3][4] - 模型采用瞬时响应引擎,将传统扩散模型所需的50+采样步数压缩至1-4步,计算效率提升数百倍,实现人眼可感知的“即时”响应,是真实时生成,而非“先渲染、后播放”的伪实时[4] - 该产品可将视频生成转变为无限、连续和互动的视觉流,标志着视听媒体创建、体验和共享的重大演变[4] - 目前每个模板体验限制为5分钟,主要受限于算力消耗,若无算力困扰理论上可无限生成视频[3] 战略合作与投资 - 产品上线6天后,中国儒意对爱诗科技进行1420万美元的战略投资,双方宣布进行版权共享,并建立涵盖影视、游戏、流媒体等多方面的战略合作伙伴关系[2][5] - 中国儒意是港股上市公司,旗下儒意影业出品电影累计票房超400亿元,并拥有多部著名电视剧版权[6] - 双方将共同创建针对专业影视领域的人工智能工具,推动影视创作方式变革[6] 市场地位与公司表现 - 爱诗科技成立于2023年,已在全球AI视频赛道位居前列,其PixVerse模型在两年内迭代五个大版本[9][10] - 截至2025年第三季度,公司全球用户已突破1亿,月活用户超1600万,产品入选a16z“全球Top50生成式AI消费级移动应用”榜单[9] - 2024年11月启动商业化后,不到一年时间月收入增长超过10倍,年度经常性收入达到4000万美元[9] - 公司在2023年10月(成立仅6个月后)推出PixVerse V1,率先发布业内可生成4K质量视频的AI视频模型,时间早于Sora模型发布[10] 行业影响与应用前景 - PixVerse R1实现了“正在发生的现在”的实时生成,与传统“记录过去的成品”视频有根本区别,用户从旁观者变为可随时干预内容走向的参与者,实现“共创”[6] - 该技术使视频的生产与消费边界消融,用户在观看的同时也能即时生成、编辑和再创作内容[7] - 实时生成能力与世界模型能力的结合,是当前国内外巨头角逐但尚未出现成熟产品的领域,爱诗科技是全球领先者[7] - 该技术能使AI原生游戏和互动电影成为可能,故事线可由AI与玩家共同即兴创作,虚拟社区的角色和环境可根据用户互动持续演化[7] - 产品发布后,已有多家游戏公司联系爱诗科技探讨合作可能性,其潜力还覆盖互动媒体、实时VR/XR、创意教育、模拟培训等多个新领域[8] - 有知名AI创作者认为,该产品对长镜头和长片意义重大,虽当前画质和可控性尚未达到正式创作要求,但未来迭代版本将是里程碑式产品[6] 创始人与愿景 - 爱诗科技创始人兼CEO王长虎有20年计算机视觉与AI领域经验,曾是字节跳动视觉技术负责人,主导过抖音、TikTok等技术研发[11] - 王长虎表示,PixVerse R1开创了“正在发生的现在”的实时生成新纪元,使叙事能“所想即所现”,智能化媒体应实时响应用户意图,让每个人成为动态叙事的创作者[11]
DeepSeek AI新模型曝光:搭载 MODEL1 全新架构,最快2月上线
环球网资讯· 2026-01-21 14:37
公司动态与产品发布 - DeepSeek计划于2025年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4 [1] - 新模型将搭载全新技术架构,其写代码能力有望实现显著提升 [1] - 在DeepSeek-R1模型发布一周年之际,开发者在GitHub平台发现DeepSeek更新了114个FlashMLA相关代码文件,其中28处明确提及未知的"MODEL1"大模型标识符 [1] - 代码分析显示,"MODEL1"标识符与现有模型"V32"(即DeepSeek-V3.2)被并列或区分引用,技术人士推测其大概率对应一款采用全新架构的AI模型 [1] 技术架构与创新 - 新架构在键值(KV)缓存布局、稀疏性处理方式以及FP8数据格式解码支持等关键技术环节进行了优化调整 [3] - 这些技术革新针对性解决了模型运行中的内存占用与计算效率问题 [3] - DeepSeek研究团队此前已连续发布两篇技术论文,分别提出"优化残差连接(mHC)"的创新训练方法,以及受生物学启发研发的"AI记忆模块(Engram)" [3] - 业内普遍推测,即将发布的DeepSeek V4有望整合这些最新研究成果,以进一步释放AI模型在复杂任务处理中的潜力 [3]
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
新浪财经· 2026-01-21 12:05
公司技术路线与产品矩阵 - DeepSeek已形成两条主要技术路线:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家” [2] - 公司于2024年12月推出重要里程碑模型V3,其高效的MoE架构奠定了强大的综合性能基础 [3] - 公司在V3基础上快速迭代,先后发布了强化推理与智能体能力的V3.1,并于2025年12月推出最新正式版V3.2 [3] - 公司同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale [3] - 公司于2025年1月发布R1模型,该模型通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式 [3] 新模型“MODEL1”的发现与推测 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,代码分析发现了一个此前未公开的模型架构标识“MODEL1”,该标识在114个总代码文件中被提及31次 [1] - “MODEL1”是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2 [2] - 推测“MODEL1”很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景 [2] - 推测“MODEL1”也可能是一个针对16K+序列优化的长序列专家,适合文档理解、代码分析等长上下文任务 [2] 技术创新与硬件适配 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门用于加速大模型的“推理生成”环节 [1] - FlashMLA算法的实现基础MLA(多层注意力机制)是DeepSeek模型实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化利用GPU硬件 [1] - “MODEL1”的硬件实现跨越多个GPU架构:在英伟达H100/H200(SM90架构)上有64头和128头两个配置版本;在最新的B200(SM100架构)上有专门的Head64内核实现 [2] - SM100架构的Head128实现仅支持“MODEL1”,不支持V3.2,推测DeepSeek为适配英伟达新一代GPU专门优化了“MODEL1”的架构 [2] 未来产品发布与技术整合 - 科技媒体The Information爆料称,DeepSeek将在2025年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4,该模型将具备更强的写代码能力 [3] - DeepSeek研究团队近期发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [3] - 此举引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果 [3]
Hugging Face回看“DeepSeek时刻”:过去一年,中国AI如何改变全球开源格局?
华尔街见闻· 2026-01-21 10:41
文章核心观点 - 全球最大AI开源社区Hugging Face发布文章,回顾“DeepSeek时刻”一周年,认为中国AI力量在过去一年重塑了全球开源生态 [1] - DeepSeek R-1的发布是重要分水岭,降低了技术与应用门槛,成为中国AI发展的转折点,并在全球引发开源模式深刻变革 [1] - 中国AI开发模式发生根本转变,从早期闭源为主迅速转向开源主导,中国模型在下载量和影响力上全面崛起,并已深度嵌入全球供应链 [1][5] “DeepSeek时刻”的意义与影响 - DeepSeek R-1发布前,中国AI产业主要集中在闭源模型,开源并非默认选择 [3] - R-1的真正意义在于降低了三个关键壁垒:技术壁垒(将高级推理能力转化为可下载、可微调的工程资产)、采用壁垒(MIT许可证促快速部署)、心理壁垒(问题从“能否做”转向“如何做好”) [3] - 此次发布证明即使在资源有限情况下,通过开源和快速迭代仍可取得快速进步,为中国AI发展赢得了宝贵时间 [3] - R-1的发布使“开源”从战术选择转变为科技公司的长期战略 [5] 中国AI行业格局与战略转变 - 开源进入主流后,中国AI格局呈现新模式:大型科技公司带头,初创公司紧随其后,垂直行业公司也越来越多进入 [6] - 百度、字节跳动、腾讯等巨头及Moonshot等初创企业纷纷入局,导致Hugging Face上排名前列的模型不再由美国开发者垄断 [6] - 百度在Hugging Face上的发布量从2024年的零增加到2025年的100多个 [6] - 字节跳动和腾讯的发布量增加了八到九倍 [6] - Moonshot发布的Kimi K2被视为“另一个DeepSeek时刻” [6] - 竞争焦点已从单一的模型性能转向生态系统、应用场景和基础设施的比拼 [6] - 中国AI产业已从模型参数竞赛,进化为更具商业落地潜力的系统级工程能力比拼 [10] 市场表现与崛起动因 - 中国AI玩家的集体崛起源于在共享的技术、经济和监管压力下的对齐,而非协议协同 [8] - 在算力受限和成本控制的共同压力下,各公司在相似的技术基础和工程路径上竞争,这种同构性使生态系统具备自我复制和扩张能力 [8] - 在新建模型(<1年)中,中国模型的下载量已经超过了包括美国在内的任何其他国家 [8] - Hugging Face热图数据显示,从2025年2月到7月,中国公司的开源发布明显更加活跃 [8] - 过去一年,中国模型在Hugging Face上的下载量已超越美国 [1] 全球影响与行业反应 - 全球使用开放权重模型的初创公司和研究人员,往往默认甚至依赖于中国开发的模型作为基础 [11] - 举例:2025年11月发布的美国领先开放权重模型Deep Cogito v2.1,实际上是DeepSeek-V3的微调版本 [11] - DeepSeek在东南亚和非洲等全球市场被大量采用,其多语言支持和成本优势成为企业使用的关键因素 [11] - 尽管美国和法国等地机构加速推出开源模型以保持竞争力,但中国模型的影响力已渗透至底层 [11] - 美国推出ATOM项目,明确引用DeepSeek和中国模型的势头作为动力,呼吁在开放权重模型开发方面进行协调努力 [11] - 展望2026年,预计将有更多来自中国和美国的重大发布,架构趋势和硬件选择将成为下一阶段关注焦点 [11]
DeepSeek新模型MODEL1曝光,瑞士百达持续投资科技股
每日经济新闻· 2026-01-21 09:21
市场表现 - 科创人工智能ETF华夏(589010)于1月20日下跌1.14%,报1.567元,其跟踪指数成分股表现分化,30只成分股中22只下跌,寒武纪以5.40%领跌,全天成交额为1亿元,换手率为3.88% [1] - 机器人ETF(562500)于同日下跌1.35%,报1.097元,其成分股中66只有51只下跌,弘讯科技以9.20%领跌,全天成交额达14.88亿元,交投维持高活跃度 [1] - 机器人ETF(562500)是全市场唯一规模超两百亿、流动性最佳、覆盖中国机器人产业链最全的机器人主题ETF [3] - 科创人工智能ETF华夏(589010)被描述为机器人的大脑,具有20%涨跌幅和中小盘弹性,旨在捕捉AI产业“奇点时刻” [3] 行业动态与预测 - DeepSeek在发布新模型DeepSeek-R1一周年之际,疑似有新模型“MODEL1”架构曝光,代码显示其在KV缓存布局、稀疏性处理和FP8解码方面与V32模型存在差异 [1] - 德勤报告预测,AI正在重新定义硬件、软件、电信与传媒行业的基础,全球工业机器人装机量预计将在2026年达到550万台,突破每年100万台的关键节点预计要到2030年之后 [2] - 瑞士百达多元资产香港区主管观点认为,美国科技市场专注于“现在交付”,而中国市场在机器人等领域的购买行为更偏长期,目前该市场尚未出现过度繁荣 [2] 公司进展与产品 - 震裕科技的模具业务经营稳中有增,铁芯板块新产品开始放量,结构件业务经营如期反转并有望加快增长,其培育的机器人板块在国内市场进展顺利,后续海外大客户体系有望突破 [2] - 机器人ETF(562500)跟踪的中证机器人指数在成分股调整后,其人形机器人含量提升至近70%,此次调仓实现了“去弱留强” [3]
DeepSeek新模型MODEL1曝光
金融界· 2026-01-21 07:59
模型发布与架构更新 - DeepSeek在发布一周年之际 其下一代旗舰模型“MODEL1”的相关信息通过代码更新曝光 [1] - 公司在GitHub上更新了FlashMLA代码 横跨114个文件中 有28处提到了“MODEL1” [1] - “MODEL1”在代码中与已知的“V32”(即DeepSeek-V3.2)作为不同的模型出现 表明其很可能是一种新的架构 [1] 技术细节与优化 - 新模型“MODEL1”在代码中与V32的具体技术差异体现在KV缓存布局、稀疏性处理和FP8解码方面 [1] - 新模型在内存优化上进行了多处改进 与现有V32模型存在不同 [1] 发布计划与市场预期 - 此前有市场消息称 DeepSeek计划在2月中旬春节前后发布其下一代旗舰模型 [1]