Workflow
mHC
icon
搜索文档
技术与资本共振,国产大模型护航AI应用浪潮
中邮证券· 2026-01-05 19:14
行业投资评级 - 行业投资评级为“强于大市”,且评级为“维持” [2] - 行业收盘点位为5211.26,52周最高点为5841.52,52周最低点为3963.29 [2] 核心观点 - 报告认为,中国大模型产业已从技术追赶迈入系统化布局与生态构建的新阶段,在算法突破、算力协同、数据积累、资本助力及政策支持的共同推动下,国产大模型有望在2026年前后实现从“并跑”到部分领域“领跑”的跨越,在全球AI竞争中占据关键地位 [9] 技术突破与算法创新 - DeepSeek于2026年1月1日开源mHC新架构,旨在解决大模型训练稳定性差、可扩展性受限及内存开销大三大痛点 [5] - mHC架构通过将超连接的残差连接空间投影至特定流形,精准恢复身份映射特性,以解决训练不稳定问题,并通过基础设施优化降低内存开销并提升运行效率 [5] - 实证表明,mHC在大规模训练中表现出卓越的可扩展性,在扩展倍率n=4下,仅增加6.7%的训练时间开销,却换来了显著的性能提升 [5] - mHC通过优化神经网络连接架构,在提升性能的同时显著降低了大规模AI模型的训练门槛与成本,推动行业竞争从参数规模转向效率与稳定性 [6] 资本化进程与产业基础 - 2025年12月,智谱和MiniMax先后在港交所披露招股书,智谱预计于2026年1月8日正式以“2513”为股票代码在港交所主板挂牌上市,冲刺“全球大模型第一股” [7] - 2025年12月31日,月之暗面完成5亿美元C轮融资,由IDG领投1.5亿美元,阿里、腾讯、王慧文等老股东超额认购,投后估值达43亿美元 [7] - 头部公司的上市进展为行业注入充裕资金,标志着资本市场对AI大模型商业化前景的认可度显著提升 [7] - Kimi的C端付费用户数在2025年9月至11月期间,海外和国内平均月环比增长超过170%,其K2 Thinking的发布也显著带动了API收入,同期海外API收入增长4倍 [7] 应用生态与市场表现 - 在应用端,千问、灵光、阿福等面向垂直场景的大模型产品正加速落地,有望在金融、教育、办公等多领域加速渗透 [8] - QuestMobile数据显示,在2025年12月8日至14日期间,蚂蚁阿福与灵光的周活跃用户规模分别突破千万和三百万量级,成功跻身同期新应用榜单前两位 [8] - 以Manus被高价收购为代表的事件,反映出市场对优质AI应用标的的强烈需求,为创业团队提供了明确的退出路径,并降低了AI应用的创新试错成本 [8] 投资建议与关注方向 - 报告建议关注以下四个方向的标的 [9] - **港股互联网**:包括阿里巴巴、腾讯控股、网易、快手、小米集团、京东集团、腾讯音乐、金蝶国际、迈富时、百度集团、商汤、金山云、金山软件、哔哩哔哩、美图公司、中国软件国际、浪潮数字企业 [9] - **Agent**:包括金山办公、鼎捷数智、视源股份、蓝色光标、泛微网络、致远互联、普元信息、用友网络、汉得信息、赛意信息、合合信息、福昕软件、税友股份、润达医疗、同花顺、恒生电子、万兴科技、科大讯飞、金桥信息 [9] - **国内算力**:包括寒武纪、海光信息、摩尔线程、沐曦股份、云天励飞、浪潮信息、曙光数创、亿都(国际控股)、超讯通信、瑞晟智能、华丰科技、神州数码、软通动力、烽火通信、拓维信息、四川长虹、润建股份、数据港、润泽科技、光环新网、科华数据、奥飞数据、优刻得、卡莱特、安博通 [9] - **海外算力**:包括新易盛、中际旭创、天孚通信、东山精密、长光华芯、腾景科技、福晶科技、长芯博创、源杰科技、华工科技、光迅科技、太辰光、仕佳光子、胜宏科技、景旺电子、沪电股份、生益电子、深南电路、兴森科技、工业富联、英维克、高澜股份、申菱环境、巨化股份、川环科技、同飞股份、飞荣达、鸿腾精密、麦格米特、欧陆通、禾望电器、盛弘股份、杰华特、紫光股份、锐捷网络、中兴通讯、菲菱科思等 [9]
DeepSeek上新mHC,R2还远吗?
钛媒体APP· 2026-01-04 14:05
文章核心观点 - DeepSeek于2026年初发布名为mHC的新型神经网络架构优化方案,该方案旨在解决其前身Hyper-Connections在大模型训练中的稳定性与可扩展性问题,通过引入“流形约束”实现更稳定、快速且经济的训练,可能引发AI底层架构的连锁反应并对AI芯片生态产生影响 [1][5][9] mHC架构的技术原理与创新 - mHC架构建立在字节豆包团队2024年11月发布的Hyper-Connections基础上,核心创新在于引入Manifold-Constrained,通过Sinkhorn-Knopp算法将残差映射矩阵投影到“双随机矩阵”构成的Birkhoff多面体上,为信号传播加上稳定器,确保信号均值不变、总量守恒 [5] - 该方案旨在解决HC在大模型训练中因残差连接通道间交互导致的信号爆炸或消失、训练不稳定、可扩展性降低及成本升高的问题 [5] mHC架构的性能表现 - 在270亿参数级别的训练演示中,HC在训练至约1.2万步时信号放大倍数暴增至3000倍导致训练崩溃,而mHC在同等训练下信号放大倍数仅为1.6倍,全程平稳运行 [6] - 相较于传统架构,mHC训练时损失显著下降,在BBH数据集评测的困难任务推理能力和DROP数据集评测的阅读理解表现均提升2%以上 [6] - 在残差通道扩展4倍后,mHC的额外训练时间开销仅为6.7%,体现了高性价比和效率优先的特点 [8] - 实验证明mHC在大规模训练中表现稳定、性能优越且具备良好可扩展性 [8] 对AI行业与架构发展的潜在影响 - mHC被视为一种底层创新,可能引发AI领域的连锁反应,竞争对手可能着手开发类似架构 [9] - 在DeepSeek发布论文次日,普林斯顿和UCLA的研究团队即提出了名为Deep Delta Learning的架构,同样旨在更新ResNet基本架构 [9] - 接连涌现的新研究提升了业界对2026年大模型架构产生重大范式更新和迭代的期待 [10] - 相关研究成果预计会在DeepSeek后续的新模型(如备受期待的R2或通用模型V4)中有所体现 [10] 对AI芯片生态的影响 - mHC架构依赖FP32高精度计算格式,对内存带宽和高速互联带宽提出更高要求,尤需高端芯片支持 [11] - 目前该架构主要针对英伟达超节点链路设计,更适配英伟达生态,对国产芯片兼容性较弱 [11] - 若该架构规模化铺开,英伟达的生态短期内会得到优势强化,而国产芯片需着力强化编译层适配 [11] - 长期来看,供应mHC架构的AI芯片需要提升存储带宽并转向更精细化设计 [11] - 2025年英伟达等美国AI芯片淡出中国市场后,国产芯片替代加速,华为昇腾、摩尔线程等已宣布适配DeepSeek大模型,但其精度格式仍与英伟达有差距 [12] - 在国产芯片生态突围中,与DeepSeek等领先大模型的深度耦合被认为至关重要 [12] 公司背景与研究实力 - 论文作者署名多达19人,核心作者为解振达、韦毅轩、曹焕奇,前两者为清华大学高等研究院博士,DeepSeek创始人兼CEO梁文锋名字列于最后 [8] - 自2024年1月的LLM论文至今,DeepSeek在HuggingFace上共发布23篇重要论文,其中11篇有梁文锋署名,包括MoE、Coder、R1、V3等节点性重要成果 [8]
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
量子位· 2026-01-01 18:32
文章核心观点 - DeepSeek团队发布新论文,对深度学习基础组件“残差连接”进行了重要升级,提出了名为“双随机矩阵约束的混合连接”的新方法,旨在解决现有扩展方案存在的训练不稳定问题,并在保持稳定性的同时提升模型性能 [1][2][17] 技术背景与问题 - 残差连接是自2016年ResNet以来深度学习架构的基石,其核心是“恒等映射”属性,允许信号无损地从浅层传递到深层,这一设计已成为Transformer及GPT、LLaMA等大语言模型的标准配置 [7][8][9][10] - 近期出现的超连接试图通过将残差流宽度从C维扩展到n×C维并引入可学习映射矩阵来提升性能,其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [11][12] - 但超连接在扩展到多层时,复合映射不再保持恒等性质,导致训练不稳定,例如在27B模型训练约12000步时出现突发损失激增和梯度剧烈波动 [14] - 研究团队计算发现,在超连接中,复合映射对信号的放大倍数峰值可达3000倍,这意味着信号在层间传播时可能被过度放大或衰减至近乎消失,这是不稳定的根源 [16] 核心解决方案:双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体流形上,该矩阵要求每行每列之和为1且所有元素非负 [17][18] - 这种约束带来三个关键理论性质:1) 范数保持,谱范数不超过1,防止信号放大和梯度爆炸;2) 组合封闭,多个双随机矩阵相乘结果仍是双随机矩阵,确保深层网络跨层复合映射的稳定性;3) 几何解释,映射相当于对特征做凸组合,是一种稳健的特征融合机制 [18][19] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上,实验数据显示,在27B模型中,新方法的复合映射信号增益最大值约为1.6,与超连接的3000形成了三个数量级的差距,从根本上解决了稳定性问题 [21] 工程优化与性能 - 扩展残差流宽度会带来额外内存开销,例如当扩展率n=4时,超连接的内存读写元素数量显著高于标准残差连接 [24] - 团队为此进行了一系列基础设施优化:使用TileLang框架实现融合内核以减少内存访问次数;为Sinkhorn-Knopp算法设计专门的前向和反向内核,在芯片上重算中间结果以避免存储开销;扩展DualPipe调度策略,通过将MLP层内核置于高优先级计算流来实现计算与通信重叠 [25][26][27] - 论文还给出了重计算策略的优化公式,并将重计算边界与流水线阶段边界对齐,以优化训练效率 [28][29] 实验验证结果 - 实验在3B、9B和27B三个规模的混合专家模型上进行,扩展率n设为4 [30] - 在27B参数的混合专家模型上,新方法展现出稳定的训练曲线,最终损失相比基线降低了0.021,同时保持了与基线相当的梯度范数稳定性 [31] - 在下游任务评测中,新方法在BBH推理任务上比超连接提升2.1%,在DROP阅读理解任务上提升2.3%,在大多数任务上不仅超过基线,也超过了超连接 [31] - 具体数据:在27B模型上,新方法在BBH得分为51.0,超连接为48.9,基线为43.8;在DROP上,新方法为53.9,超连接为51.6,基线为47.0;新方法在其他多个基准测试中也普遍优于或持平于超连接 [32] - 计算缩放曲线显示,新方法的性能优势在更高计算预算下仅出现轻微衰减,且对3B模型的token缩放曲线分析表明其优势贯穿整个训练过程 [32] - 大规模训练实验证实,当扩展率n=4时,新方法仅引入6.7%的额外时间开销 [35]