mHC
搜索文档
租了8张H100,他成功复现了DeepSeek的mHC,结果比官方报告更炸裂
机器之心· 2026-01-19 16:54
核心观点 - DeepSeek提出的流形超连接通过将传统Transformer的单流残差架构扩展为多流并行架构,并利用Sinkhorn-Knopp算法将混合矩阵约束在双随机流形上,从根本上解决了超连接在大规模训练时因破坏恒等映射属性而导致的信号爆炸和数值不稳定问题[1] - 第三方工程师成功复现了mHC,并在1.7B至2.5B参数规模的测试中,观测到无约束超连接产生了高达**10,924倍**的信号放大,远超DeepSeek论文中在**27B**参数下报告的**3000倍**放大,验证了mHC约束对于大规模模型稳定性的必要性[5][52][54] 技术架构对比:标准残差、超连接与流形超连接 - **标准残差连接**:自2016年以来成为Transformer的基石,采用`x + F(x)`的单信息流设计,通过保持恒等映射来确保梯度流动的稳定性和信号幅度的守恒,但表达能力有限[9][12][13] - **超连接**:将单一信息流扩展为`n`条并行流,并引入三个可学习的、无约束的混合矩阵来路由和组合信息,理论上具有更强的表达能力且计算开销可忽略,但混合矩阵能不受控制地放大信号,导致规模化训练时信号爆炸[14][15][16] - **流形超连接 (mHC)**:DeepSeek的解决方案,核心是将关键的混合矩阵通过Sinkhorn-Knopp算法投影为**双随机矩阵**,该矩阵所有条目非负且行和、列和均为1,从而确保混合操作只能对流进行加权平均和路由,而**不能放大信号**,在保持表达能力的同时强制实施了稳定性[25][26][28] 复现实验的关键发现 - **小规模实验 (10M参数)**:无约束HC在激进学习率下信号放大达到**7倍**,验证损失均值为**0.884**,优于mHC的**1.116**,但HC的损失方差是mHC的**3倍**,且Amax值在不同种子间在**6.1至7.6倍**间摆动,而mHC的Amax稳定在**1.00**,零方差[24][36] - **大规模实验 (1.7B-2.5B参数)**:在C4数据集上训练,HC表现出极端的不稳定性,在**32层**模型上最大Amax达到**10,924倍**,在**48层**模型上达到**3,721倍**,而mHC在所有配置下Amax严格保持为**1.0**;尽管最终损失值相近,但HC内部积累了巨大的不稳定性风险[54][56][61][63] - **不稳定性起源**:分析表明,不稳定性始于**第0层**的输入混合矩阵,该层直接处理未经层归一化的原始嵌入向量,在HC中容易学习通过放大来进行补偿,而mHC的Sinkhorn约束防止了任何层的漂移[74][75] - **压力测试结果**:在**3倍正常学习率**下,HC的**64层**模型Amax达到**14,765倍**并剧烈振荡,而mHC在所有配置和学习率下Amax均保持**1.0**,展现了其强大的鲁棒性[84][85][86] 规模化定律与风险本质 - **不稳定性随规模指数增长**:数据显示,模型参数从**10M**增至**1.7B**时,HC的Amax从**9.2倍**跃升至**10,924倍**;根据趋势外推,参数达**10B**时Amax可能升至约**50,000倍**,达**100B**时可能接近**400,000倍**,未发现自我修正迹象[66] - **风险性质是“定时炸弹”**:尽管在实验的5000步内,即使信号放大超万倍,HC模型因梯度裁剪等措施并未崩溃,损失也未发散,但这种不断积累的不稳定性在更长时间训练、更高学习率或更大规模下,存在导致训练灾难性失败的临界点[90][91][97] - **mHC的根本价值**:mHC通过原则性的数学约束(双随机流形)而非技巧,彻底消除了HC固有的信号爆炸故障模式,为构建更庞大、更稳定的Transformer模型提供了可扩展的架构基础[45][48][49][93] 行业影响与工程启示 - **架构演进方向**:mHC代表了对Transformer核心组件(残差连接)的一次重要革新,在保持甚至增强表达能力的同时,通过数学保证解决了规模化训练的稳定性瓶颈,可能开启架构设计的新篇章[1][45] - **工程实践建议**:对于实现超连接的团队,必须使用**Sinkhorn投影**来约束混合矩阵;在训练期间应密切监控**Amax**指标,特别是**第0层**的输入混合矩阵,作为网络稳定性的早期预警[98][101] - **性能与稳定性权衡**:实验表明,mHC的约束在**1.7B参数**规模下并未带来明显的性能损失,其最终损失与HC和标准残差连接相近,表明该稳定性保证的“代价”极低,在大规模下是必要且划算的[57][59][101]
DeepSeek开源Engram,如何做到推理损失仅3%?
钛媒体APP· 2026-01-13 16:44
公司近期技术发布 - 公司于1月13日在GitHub开源名为Engram的模块,并发布与北京大学联合撰写的论文,阐述了一种新的大模型稀疏化方向:条件存储(Conditional Memory)[1] - 这是继1月1日发布关于mHC架构的论文后,公司的又一次重要技术发布,两篇论文均体现了公司通过架构与方法论创新来降低算力成本、追求性价比的核心方向[4] - 公司创始人兼CEO梁文锋在两篇论文中均署名,并列于作者最后[4] Engram技术原理与设计 - Engram是一个可微分、可训练、原生嵌入模型结构的组件,其核心设计是将记忆性负载从主干计算中剥离,通过高速检索模块直接调用稳定且高频出现的知识,以规避低效的反复计算[4] - 该模块首先提供确定性检索:模型基于当前token和前文形成的N-gram,通过哈希映射直接从超大规模的静态嵌入表中取出对应向量,无需复杂神经计算,速度更快、路径稳定[4] - 随后,Engram会通过引入轻量化门控机制,由当前层的隐藏状态来判断检索到的记忆是否适合当前语境,避免生硬注入,从而优化输出表现[6] - 实验表明,该机制在处理时间、专有名词等固定模式时高度活跃,而在自由生成和复杂推理时几乎不介入,这强化了记忆功能的同时,避免了不合时宜的幻觉出现[6] 公司提出的新架构维度 - 公司将大模型能力拆分为三个相互独立又协作的维度:决定逻辑与抽象能力的模型深度、以MoE为代表的计算稀疏性(减少每次激活的计算量)、以及Engram引入的存储稀疏性(条件记忆)[6] - 公司通过U型扩展定律解决了记忆模块可能影响计算与推理性能的平衡问题,在总参数和算力预算固定的情况下,系统调整MoE与Engram的比例,得出将20%至25%的稀疏参数分配给Engram是最优平衡点[6] - 测试数据显示,即便挂载规模高达千亿参数的Engram记忆库,推理吞吐损失也能控制在3%以内[7] 行业竞争与公司未来产品 - 据The Information援引知情人士消息,公司预计将在今年中国春节前后发布最新的V4模型,核心突破在于超长代码提示词的处理与解析能力,以及全流程训练中数据模式的理解力[7] - 新模型不仅推理性能将大幅提升,更擅长处理复杂任务,其编码能力是主打方向,内部初步测试结果据称已超越了Anthropic的最强编程模型Claude[7] - 竞争对手Anthropic为守护编程能力优势和入口通道,近期已陆续切断Claude Code的第三方平台入口,并于1月12日发布主打办公场景Agent落地的产品Cowork,可自动帮助用户完成制作PPT、整理邮件等工作[7] - 市场期待即将到来的公司旗舰新品能再次带来“DeepSeek春节冲击波”[7]
国产大模型怎么样?
小熊跑的快· 2026-01-08 14:25
全球AI技术发展路径 - OpenAI最新进化以GPT-5.2系列与GPT-4o持续迭代为核心,技术路径是强化学习,致力于提升模型精度并减少幻觉 [1] - 当前技术发展已无重大变革,主要进行工程优化以降低成本,没有路径上的根本性突破 [2] 国产AI模型的追赶与突破 - 预计从2026年开始,国产大模型将迎来发展年,有望缩小与国外的差距,并在应用层面实现超越 [3] - 国内研究如DS梁文锋的mHC方法,通过为矩阵添加约束,在不显著增加计算量的前提下,提升模型各层间的信息交流效率,其27B参数模型性能已超越传统更大参数模型 [3] - 预期国产模型V4即将面世,将进一步降低国内AI应用的成本 [4] 国内主要科技公司的AI布局与资本开支 - 腾讯通过高薪挖人(如姚顺雨)加强AI团队,其资本开支计划显示公司可能在2026年有重要动作 [5] - 阿里巴巴不仅推动千问等大模型走向消费者市场,还大力投资AI边缘侧(如夸克眼镜),其阿里云在海外的基础设施建设进展迅速 [5] - 字节跳动的资本开支预期达到2900亿元,相比之前翻了一倍,并与华为签署合作,其大模型日调用量从去年初的6万亿次大幅增长至50万亿次 [5] 港股科技板块投资机会 - 国内主要大模型厂商多集中于恒生科技指数ETF和恒生互联网ETF,但近期股价处于底部 [5] - 截至2025年12月24日,恒生科技指数ETF的NTM PE约为19.3倍,处于过去5年42.4%的分位数,估值低于历史中枢,存在修复空间 [5] - 恒生互联网ETF的跟踪指数为恒生互联网科技业指数,其近一年涨幅为+37.84% [8] 产业链核心环节与下游应用 - 中积电在产业链中卡位关键,类似于台积电,在预期的2026年“万芯大战”中处于核心地位,存在涨价与扩产的逻辑 [10] - 快手、B站等内容平台有望受益于AI多模态技术的加持,市场静待国产模型出现爆款应用 [10] - 腾讯的智能体应用备受期待,有望在近期(如春节)推出 [11]
技术与资本共振,国产大模型护航AI应用浪潮
中邮证券· 2026-01-05 19:14
行业投资评级 - 行业投资评级为“强于大市”,且评级为“维持” [2] - 行业收盘点位为5211.26,52周最高点为5841.52,52周最低点为3963.29 [2] 核心观点 - 报告认为,中国大模型产业已从技术追赶迈入系统化布局与生态构建的新阶段,在算法突破、算力协同、数据积累、资本助力及政策支持的共同推动下,国产大模型有望在2026年前后实现从“并跑”到部分领域“领跑”的跨越,在全球AI竞争中占据关键地位 [9] 技术突破与算法创新 - DeepSeek于2026年1月1日开源mHC新架构,旨在解决大模型训练稳定性差、可扩展性受限及内存开销大三大痛点 [5] - mHC架构通过将超连接的残差连接空间投影至特定流形,精准恢复身份映射特性,以解决训练不稳定问题,并通过基础设施优化降低内存开销并提升运行效率 [5] - 实证表明,mHC在大规模训练中表现出卓越的可扩展性,在扩展倍率n=4下,仅增加6.7%的训练时间开销,却换来了显著的性能提升 [5] - mHC通过优化神经网络连接架构,在提升性能的同时显著降低了大规模AI模型的训练门槛与成本,推动行业竞争从参数规模转向效率与稳定性 [6] 资本化进程与产业基础 - 2025年12月,智谱和MiniMax先后在港交所披露招股书,智谱预计于2026年1月8日正式以“2513”为股票代码在港交所主板挂牌上市,冲刺“全球大模型第一股” [7] - 2025年12月31日,月之暗面完成5亿美元C轮融资,由IDG领投1.5亿美元,阿里、腾讯、王慧文等老股东超额认购,投后估值达43亿美元 [7] - 头部公司的上市进展为行业注入充裕资金,标志着资本市场对AI大模型商业化前景的认可度显著提升 [7] - Kimi的C端付费用户数在2025年9月至11月期间,海外和国内平均月环比增长超过170%,其K2 Thinking的发布也显著带动了API收入,同期海外API收入增长4倍 [7] 应用生态与市场表现 - 在应用端,千问、灵光、阿福等面向垂直场景的大模型产品正加速落地,有望在金融、教育、办公等多领域加速渗透 [8] - QuestMobile数据显示,在2025年12月8日至14日期间,蚂蚁阿福与灵光的周活跃用户规模分别突破千万和三百万量级,成功跻身同期新应用榜单前两位 [8] - 以Manus被高价收购为代表的事件,反映出市场对优质AI应用标的的强烈需求,为创业团队提供了明确的退出路径,并降低了AI应用的创新试错成本 [8] 投资建议与关注方向 - 报告建议关注以下四个方向的标的 [9] - **港股互联网**:包括阿里巴巴、腾讯控股、网易、快手、小米集团、京东集团、腾讯音乐、金蝶国际、迈富时、百度集团、商汤、金山云、金山软件、哔哩哔哩、美图公司、中国软件国际、浪潮数字企业 [9] - **Agent**:包括金山办公、鼎捷数智、视源股份、蓝色光标、泛微网络、致远互联、普元信息、用友网络、汉得信息、赛意信息、合合信息、福昕软件、税友股份、润达医疗、同花顺、恒生电子、万兴科技、科大讯飞、金桥信息 [9] - **国内算力**:包括寒武纪、海光信息、摩尔线程、沐曦股份、云天励飞、浪潮信息、曙光数创、亿都(国际控股)、超讯通信、瑞晟智能、华丰科技、神州数码、软通动力、烽火通信、拓维信息、四川长虹、润建股份、数据港、润泽科技、光环新网、科华数据、奥飞数据、优刻得、卡莱特、安博通 [9] - **海外算力**:包括新易盛、中际旭创、天孚通信、东山精密、长光华芯、腾景科技、福晶科技、长芯博创、源杰科技、华工科技、光迅科技、太辰光、仕佳光子、胜宏科技、景旺电子、沪电股份、生益电子、深南电路、兴森科技、工业富联、英维克、高澜股份、申菱环境、巨化股份、川环科技、同飞股份、飞荣达、鸿腾精密、麦格米特、欧陆通、禾望电器、盛弘股份、杰华特、紫光股份、锐捷网络、中兴通讯、菲菱科思等 [9]
DeepSeek上新mHC,R2还远吗?
钛媒体APP· 2026-01-04 14:05
文章核心观点 - DeepSeek于2026年初发布名为mHC的新型神经网络架构优化方案,该方案旨在解决其前身Hyper-Connections在大模型训练中的稳定性与可扩展性问题,通过引入“流形约束”实现更稳定、快速且经济的训练,可能引发AI底层架构的连锁反应并对AI芯片生态产生影响 [1][5][9] mHC架构的技术原理与创新 - mHC架构建立在字节豆包团队2024年11月发布的Hyper-Connections基础上,核心创新在于引入Manifold-Constrained,通过Sinkhorn-Knopp算法将残差映射矩阵投影到“双随机矩阵”构成的Birkhoff多面体上,为信号传播加上稳定器,确保信号均值不变、总量守恒 [5] - 该方案旨在解决HC在大模型训练中因残差连接通道间交互导致的信号爆炸或消失、训练不稳定、可扩展性降低及成本升高的问题 [5] mHC架构的性能表现 - 在270亿参数级别的训练演示中,HC在训练至约1.2万步时信号放大倍数暴增至3000倍导致训练崩溃,而mHC在同等训练下信号放大倍数仅为1.6倍,全程平稳运行 [6] - 相较于传统架构,mHC训练时损失显著下降,在BBH数据集评测的困难任务推理能力和DROP数据集评测的阅读理解表现均提升2%以上 [6] - 在残差通道扩展4倍后,mHC的额外训练时间开销仅为6.7%,体现了高性价比和效率优先的特点 [8] - 实验证明mHC在大规模训练中表现稳定、性能优越且具备良好可扩展性 [8] 对AI行业与架构发展的潜在影响 - mHC被视为一种底层创新,可能引发AI领域的连锁反应,竞争对手可能着手开发类似架构 [9] - 在DeepSeek发布论文次日,普林斯顿和UCLA的研究团队即提出了名为Deep Delta Learning的架构,同样旨在更新ResNet基本架构 [9] - 接连涌现的新研究提升了业界对2026年大模型架构产生重大范式更新和迭代的期待 [10] - 相关研究成果预计会在DeepSeek后续的新模型(如备受期待的R2或通用模型V4)中有所体现 [10] 对AI芯片生态的影响 - mHC架构依赖FP32高精度计算格式,对内存带宽和高速互联带宽提出更高要求,尤需高端芯片支持 [11] - 目前该架构主要针对英伟达超节点链路设计,更适配英伟达生态,对国产芯片兼容性较弱 [11] - 若该架构规模化铺开,英伟达的生态短期内会得到优势强化,而国产芯片需着力强化编译层适配 [11] - 长期来看,供应mHC架构的AI芯片需要提升存储带宽并转向更精细化设计 [11] - 2025年英伟达等美国AI芯片淡出中国市场后,国产芯片替代加速,华为昇腾、摩尔线程等已宣布适配DeepSeek大模型,但其精度格式仍与英伟达有差距 [12] - 在国产芯片生态突围中,与DeepSeek等领先大模型的深度耦合被认为至关重要 [12] 公司背景与研究实力 - 论文作者署名多达19人,核心作者为解振达、韦毅轩、曹焕奇,前两者为清华大学高等研究院博士,DeepSeek创始人兼CEO梁文锋名字列于最后 [8] - 自2024年1月的LLM论文至今,DeepSeek在HuggingFace上共发布23篇重要论文,其中11篇有梁文锋署名,包括MoE、Coder、R1、V3等节点性重要成果 [8]
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
量子位· 2026-01-01 18:32
文章核心观点 - DeepSeek团队发布新论文,对深度学习基础组件“残差连接”进行了重要升级,提出了名为“双随机矩阵约束的混合连接”的新方法,旨在解决现有扩展方案存在的训练不稳定问题,并在保持稳定性的同时提升模型性能 [1][2][17] 技术背景与问题 - 残差连接是自2016年ResNet以来深度学习架构的基石,其核心是“恒等映射”属性,允许信号无损地从浅层传递到深层,这一设计已成为Transformer及GPT、LLaMA等大语言模型的标准配置 [7][8][9][10] - 近期出现的超连接试图通过将残差流宽度从C维扩展到n×C维并引入可学习映射矩阵来提升性能,其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [11][12] - 但超连接在扩展到多层时,复合映射不再保持恒等性质,导致训练不稳定,例如在27B模型训练约12000步时出现突发损失激增和梯度剧烈波动 [14] - 研究团队计算发现,在超连接中,复合映射对信号的放大倍数峰值可达3000倍,这意味着信号在层间传播时可能被过度放大或衰减至近乎消失,这是不稳定的根源 [16] 核心解决方案:双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体流形上,该矩阵要求每行每列之和为1且所有元素非负 [17][18] - 这种约束带来三个关键理论性质:1) 范数保持,谱范数不超过1,防止信号放大和梯度爆炸;2) 组合封闭,多个双随机矩阵相乘结果仍是双随机矩阵,确保深层网络跨层复合映射的稳定性;3) 几何解释,映射相当于对特征做凸组合,是一种稳健的特征融合机制 [18][19] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上,实验数据显示,在27B模型中,新方法的复合映射信号增益最大值约为1.6,与超连接的3000形成了三个数量级的差距,从根本上解决了稳定性问题 [21] 工程优化与性能 - 扩展残差流宽度会带来额外内存开销,例如当扩展率n=4时,超连接的内存读写元素数量显著高于标准残差连接 [24] - 团队为此进行了一系列基础设施优化:使用TileLang框架实现融合内核以减少内存访问次数;为Sinkhorn-Knopp算法设计专门的前向和反向内核,在芯片上重算中间结果以避免存储开销;扩展DualPipe调度策略,通过将MLP层内核置于高优先级计算流来实现计算与通信重叠 [25][26][27] - 论文还给出了重计算策略的优化公式,并将重计算边界与流水线阶段边界对齐,以优化训练效率 [28][29] 实验验证结果 - 实验在3B、9B和27B三个规模的混合专家模型上进行,扩展率n设为4 [30] - 在27B参数的混合专家模型上,新方法展现出稳定的训练曲线,最终损失相比基线降低了0.021,同时保持了与基线相当的梯度范数稳定性 [31] - 在下游任务评测中,新方法在BBH推理任务上比超连接提升2.1%,在DROP阅读理解任务上提升2.3%,在大多数任务上不仅超过基线,也超过了超连接 [31] - 具体数据:在27B模型上,新方法在BBH得分为51.0,超连接为48.9,基线为43.8;在DROP上,新方法为53.9,超连接为51.6,基线为47.0;新方法在其他多个基准测试中也普遍优于或持平于超连接 [32] - 计算缩放曲线显示,新方法的性能优势在更高计算预算下仅出现轻微衰减,且对3B模型的token缩放曲线分析表明其优势贯穿整个训练过程 [32] - 大规模训练实验证实,当扩展率n=4时,新方法仅引入6.7%的额外时间开销 [35]