Workflow
MODEL1
icon
搜索文档
AI进化速递 | Meta 新AI团队已交付首批人工智能模型
第一财经· 2026-01-21 20:49
行业政策与宏观进展 - 人工智能技术已深度融入制造业,在领航级智能工厂中渗透超过70%的业务场景 [1] - 中国正积极推动具身智能产业化落地,例如北京人形机器人与晓悟智能达成战略合作 [3] - OpenAI推出面向各国的教育项目,旨在全球范围内推广人工智能技术 [7] 产品与技术突破 - 上海张江首条机器人关节自动化产线投产,将为人形机器人的大规模量产提供关键支持 [2] - DeepSeek新模型“MODEL1”相关信息被曝光,表明大模型领域持续有新产品迭代 [4] - Meta公司新组建的AI团队已成功交付首批人工智能模型 [6] 市场表现与商业合作 - 人工智能应用“可灵AI”月活跃用户突破1200万,其日均收入较去年12月提升约30% [5] - 英伟达向人工智能推理初创公司Baseten投资1.5亿美元,加码AI基础设施领域 [8] - ServiceNow与OpenAI达成为期三年的战略合作,将人工智能能力融入企业工作流管理 [9]
DeepSeek新模型“MODEL1”曝光
第一财经资讯· 2026-01-21 17:05
新模型“MODEL1”的技术线索与进展 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处此前未公开的“MODEL1”大模型标识符 [2] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在代码中被并列提及,行业根据代码上下文认为其很可能代表一个不同于现有架构的新模型 [3] - 根据开发者分析,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别,表明新架构可能在内存优化和计算效率上进行了针对性设计 [5] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [5] 新模型的技术背景与市场传闻 - 近一个月内,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [6] - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型,此次项目曝光或许印证了该传闻 [6] - 行业对于“MODEL1”的具体定位有不同看法,有观点认为是V4模型或推理模型R2,也有开发者认为可能是V3系列的终极版 [3] DeepSeek的技术基础与历史产品 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是公司模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化利用GPU硬件 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础,随后在2025年1月发布了基于强化学习的推理模型R1,在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] DeepSeek-R1的行业影响与中国AI开源生态 - 海外开源社区Hugging Face发布博客回顾“DeepSeek时刻”一周年,指出中国AI力量在过去一年重塑了全球开源生态 [7] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源不仅降低了推理技术、生产部署与心理三个门槛,更推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [9] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [9] - 尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [9]
DeepSeek新模型“MODEL1”曝光
第一财经· 2026-01-21 16:56
新模型“MODEL1”的技术进展与行业推测 - 在DeepSeek-R1发布一周年之际,其开源社区GitHub上更新了一系列FlashMLA代码,项目文件中数十处提到了此前未公开的“MODEL1”大模型标识符 [3] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)被并列提及,根据代码上下文,“MODEL1”很可能代表一个不同于现有架构的新模型 [4] - 行业对新模型的具体身份有不同看法,可能是V4模型、推理模型R2,或是V3系列的终极版 [4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是实现模型低成本、高性能的关键技术之一 [4] - 开发者分析指出,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别,表明新架构可能在内存优化和计算效率上进行了针对性设计 [4] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [4] 公司近期技术动态与市场传闻 - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型 [5] - 近一个月里,公司团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [6] - 公司在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础,随后在2025年1月发布了推理模型R1,基于强化学习,在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] 行业影响与全球开源生态格局 - 海外开源社区Hugging Face发布博客《“DeepSeek时刻”一周年》,回顾了中国AI力量在过去一年如何重塑全球开源生态 [6] - 文章指出,DeepSeek-R1是Hugging Face上获赞最多的模型,其开源降低了推理技术、生产部署与心理三个门槛,并推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [8] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [8] - 尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [8]
DeepSeek AI新模型曝光:搭载 MODEL1 全新架构,最快2月上线
环球网资讯· 2026-01-21 14:37
来源:环球网 【环球网科技综合报道】1月21日消息,据ITPro报道,DeepSeek计划于今年2月中旬农历新年期间,推 出新一代旗舰AI模型DeepSeek V4。该模型将搭载全新技术架构,写代码能力有望实现显著提升,引发 行业广泛关注。 1月20日,恰逢DeepSeek-R1模型发布一周年,有开发者在GitHub平台发现,DeepSeek更新了一系列 FlashMLA相关代码。在涉及的114个文件中,28处明确提及未知的"MODEL1"大模型标识符,且该标识 符与现有模型"V32"(即DeepSeek-V3.2)被并列或区分引用。通过代码上下文分析,技术人士推 测,"MODEL1"大概率对应一款采用全新架构的AI模型,其核心技术特征与现有模型存在明显差异。 具体来看,新架构在键值(KV)缓存布局、稀疏性处理方式以及FP8数据格式解码支持等关键技术环 节进行了优化调整。这些技术革新针对性解决了模型运行中的内存占用与计算效率问题,为模型性能提 升奠定了基础。 值得关注的是,DeepSeek研究团队此前已连续发布两篇技术论文,分别提出"优化残差连接 (mHC)"的创新训练方法,以及受生物学启发研发的"AI记忆模 ...
速递 | DeepSeek突然扔出MODEL1,这到底是V4还是R2?
文章核心观点 - DeepSeek在其开源仓库中静默更新了代号为“MODEL1”的新模型引用,此举被解读为一次“技术性泄露”,旨在试探市场、施压竞争对手并引发社区免费测试与造势 [1][2][4][5] - “MODEL1”的命名方式(而非延续V系列或R系列)暗示这可能不是一次常规迭代,而是一次底层架构的完全重构,代表了开辟新赛道的野心 [6][7][9][10][11] - 该模型可能代表了DeepSeek对“下一代AI”的答案,旨在融合对话、推理及多模态能力,解决当前AI模型“通用性”不足的痛点,从而创造增量市场而非争夺存量 [14][15] - 若“MODEL1”确为架构级创新,将带来新的工具链、应用场景和商业模式,为开发者及创业者提供弯道超车的窗口期 [17][18] 事件分析:一场“蓄谋已久”的技术性泄露 - DeepSeek在未官方宣布的情况下,于GitHub仓库静默推送了新模型“MODEL1”的引用,引发广泛猜测 [2] - 这种“技术性泄露”是行业常见策略,目的包括试探市场反应、向竞争对手施压以及利用全球开发者社区进行免费测试和造势 [3][4] - 该策略以零成本实现了远超“一个亿”广告费的传播效果,全网技术大V均在分析代码 [5] 命名玄机:暗示底层重构与战略野心 - 命名从传统的序列号(如V1、V2、R1)变为“MODEL1”,这类似于苹果从iPhone 8跳至iPhone X,预示着产品逻辑的推倒重来与底层架构的可能重构 [9][10][11] - 此次更新的时机选择在Meta开源Llama 4预览版和OpenAI推出o3-mini之后,表明DeepSeek要么意在收割市场注意力,要么拥有足以“掀桌子”的硬核技术 [12] - 当前AI行业趋势是围绕Transformer架构的延伸进行竞争,而“MODEL1”可能意味着架构级创新,旨在修建新的技术赛道 [11][12] 核心预测:模型定位与行业影响 - “MODEL1”可能既非单纯的对话模型(V系列),也非单纯的推理模型(R系列),而是一个旨在融合多种能力的通用模型,是DeepSeek对下一代AI形态的解答 [14] - 当前AI应用的核心痛点是模型不够“通用”,用户需在不同场景下切换使用不同模型(如GPT、o系列、Claude),“MODEL1”的目标是解决这一问题 [15] - 若成功,该模型将创造增量市场,而非在现有市场的智能程度或速度上进行内卷 [15] 潜在机会:新生态与弯道超车窗口 - 历史表明,每次底层技术范式切换(如2016年Transformer论文、2022年ChatGPT发布)都会为敏锐的从业者创造巨大机遇,带来高薪工作或巨额融资 [17] - 若“MODEL1”代表新架构,将催生全新的工具链、应用场景和商业模式 [18] - 具体机会方向包括:1) 复杂决策类应用(如智能投顾、法律咨询、医疗辅助诊断)若模型强化推理能力将迎来爆发 [19];2) 多模态融合能力若提升将重塑视频生成、3D建模等赛道 [20];3) 开源生态红利,开发者可围绕其进行二次开发、垂直领域微调,复制Stable Diffusion开源后的成功模式 [20] 行动建议 - 建议保持对官方动态和技术报告的密切关注,避免仅依赖二手解读 [23][26] - 建议开发者提前研究DeepSeek的开源代码,以熟悉潜在的新架构特性 [27] - 建议观望者现在开始选择细分赛道深入,若等到“MODEL1”正式发布可能为时已晚 [28]
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
新浪财经· 2026-01-21 12:05
DeepSeek已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列"全能助手"和专注于复 杂推理的R系列"解题专家"。 2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架构确立了强大的综合性能 基础。此后,DeepSeek在V3基础上快速迭代,发布了强化推理与Agent(智能体)能力的 V3.1,并于2025年12月推出了最新正式版V3.2。同时,还推出了一个专注于攻克高难度数学 和学术问题的特殊版本V3.2-Speciale。 2025年1月发布的R1,则通过强化学习,在解决数学问题、代码编程等复杂推理任务上表现 卓越,并首创了"深度思考"模式。 科技媒体The Information月初爆料称,DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型 ——DeepSeek V4,将具备更强的写代码能力。 此前,DeepSeek研究团队陆续发布了两篇技术论文,分别介绍了名为"优化残差连接(mHC)"的新训 练方法,以及一种受生物学启发的"AI记忆模块(Engram)"。这一举动不禁引起用户猜测,DeepSeek 正在开发中的新模型有可能会整合这些最新的研究成果。 ...
未知机构:开源电子AI早餐会01211行情催化美欧贸易摩擦预-20260121
未知机构· 2026-01-21 10:00
纪要涉及的行业或公司 * 半导体行业 特别是存储(NAND闪存、DRAM)、CPU、AI终端设备领域[1] * 美股半导体公司 包括闪迪、美光、西部数据、英特尔、AMD、ARM[1] * 华为、Meta、DeepSeek、三星、海力士、Kioxia(铠侠)等科技公司[1][2] 核心观点和论据 * **行情催化:美欧贸易摩擦下半导体板块分化** 美股半导体普遍回调 但存储与CPU相关股票逆势大涨 其中闪迪涨8.0%、美光涨1.3%、西部数据涨2.7% 英特尔涨6.4%、AMD涨2.9%、ARM涨2.9%[1] * **AI终端形态演进** Meta全球事务主管认为可穿戴设备是下一代计算技术 眼镜是AI终端的正确形态[1] 华为将发布首款AI眼镜 支持拍照、音频、同传翻译等功能[1] * **AI模型技术进展** DeepSeek新模型"MODEL1"曝光 在KV缓存布局、稀疏性处理和FP8解码方面有差异 内存优化有多处不同[1] * **CPU供应紧张** CPU缺货涨价继续发酵[2] * **存储市场供需变化** 三星与海力士计划在今年削减NAND闪存产量 转向DRAM生产以实现利润最大化 预计NAND短缺加剧[2] Kioxia常务表示2026年闪存已经全部售罄 SSD的廉价时期已经结束[2] * **半导体设备进口激增** 海关数据显示12月用于曝光的关键半导体设备进口金额达156亿元 环比翻3.5倍 其中上海自荷兰进口金额64亿元(环比增83%) 北京自荷兰进口金额48亿元(环比增439%)[2] 其他重要内容 * 行情信息来源于"开源电子|AI早餐会 0121"[1] * 华为AI眼镜信息来源于"数码闲聊站"[1] * Meta观点来源于其全球事务主管Joel Kaplan在世界经济论坛的发言[1] * 三星与海力士减产计划信息来源于《朝鲜日报》[2]
AI与机器人盘前速递丨DeepSeek新模型MODEL1曝光,瑞士百达持续投资科技股
每日经济新闻· 2026-01-21 09:29
市场表现复盘 - 科创人工智能ETF华夏(589010)1月20日下跌1.14%,报1.567元,其30只成分股中有22只下跌,寒武纪以5.40%领跌,全天成交额达1亿元,换手率3.88% [1] - 机器人ETF(562500)1月20日下跌1.35%,报1.097元,其66只成分股中有51只下跌,弘讯科技以9.20%领跌,全天成交额达14.88亿元 [1] 人工智能技术动态 - DeepSeek在发布DeepSeek-R1一周年之际,疑似新模型“MODEL1”在GitHub代码中被曝光,代码横跨114个文件中有28处提及,与V32(即DeepSeek-V3.2)作为不同模型出现 [1] - 新模型“MODEL1”在代码中与V32的具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处不同 [1] 行业趋势与预测 - 德勤报告预测,全球工业机器人装机量预计将在2026年达到550万台,并保持相对温和的年增长率,突破每年100万台的关键节点预计要到2030年之后 [2] - 德勤报告指出,AI正在重新定义硬件、软件、电信与传媒行业的基础 [2] 机构与市场观点 - 招商证券认为,震裕科技的模具业务经营稳中有增,铁芯板块新产品开始放量,结构件业务经营如期反转并有望维持加快增长态势 [2] - 招商证券指出,震裕科技大力培育的机器人板块在国内市场进展较顺利,后续海外大客户体系也有望有所突破 [2] - 瑞士百达多元资产香港区主管黄思远表示,会持续投资科技股,并指出美国市场专注于“现在交付”,而中国市场如购买机器人等是更长期的购买,目前该市场未见过度繁荣 [2]
DeepSeek新模型MODEL1曝光
金融界· 2026-01-21 07:59
DeepSeek-R1发布一周年之际,新模型"MODEL1"曝光。DeepSeek在GitHub更新FlashMLA代码,横跨 114个文件中有28处提到MODEL1,与V32作为不同的模型出现。已知V32是DeepSeek-V3.2,MODEL1 很可能是新的架构。代码中的具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化 上有多处不同。此前有消息称DeepSeek将在2月中旬春节前后发布下一代旗舰模型。 ...