Workflow
mHC(流形约束超连接)
icon
搜索文档
计算机行业周报:小红书Video-Thinker打破工具依赖,DeepSeek推出mHC-20260106
华鑫证券· 2026-01-06 20:34
报告行业投资评级 - 行业投资评级为“推荐(维持)” [1] 报告核心观点 - 报告认为AI应用板块维持高景气度,通用智能体作为下一代应用形态的战略价值凸显,维持对AI应用板块的长期看好态度 [6][57] - 报告通过分析近期产业动态(如小红书Video-Thinker、DeepSeek mHC架构、Kimi融资、Meta收购Manus)及市场数据,强调了AI技术在视频推理、模型架构效率、商业化落地及生态整合方面的快速进展 [3][4][5][6][57] 根据相关目录分别总结 1. 算力动态 - **算力租赁价格平稳**:上周(报告期内)算力租赁价格保持稳定,例如腾讯云A100-40G配置(16核+96G内存)价格为28.64元/小时,价格环比上周变化为0.00% [21][25] - **小红书推出Video-Thinker模型**:小红书研究团队推出全新视频推理模型Video-Thinker,其7B参数量版本在多个基准测试中刷新SOTA(State-of-the-Art)性能 [22] - **技术创新**:通过构建Video-Thinker-10K高质量数据集(整合六大主流数据集)和采用“监督微调(SFT)+组相对策略优化(GRPO)”的两阶段训练范式,将时序定位与视觉描述能力内化于思维链,打破行业对外部工具的依赖 [23][26] - **性能表现**:Video-Thinker-7B在域外评测中表现卓越,Video-Holmes榜单准确率达43.22%,VRBench综合基准准确率达80.69% [27][28] - **核心优势**:模型实现了端到端的自主视频思考,其内生能力在性能上超越外挂工具方案,例如在Video-Holmes基准上,比现有工具调用方法VideoMind-7B领先约4.2个百分点 [28][29] - **Tokens消耗跟踪**:2025年12月22日至28日,周度token调用量为5.57T,环比上周下降2.28% [16] - **市场份额**:Google以247B tokens占据23.2%的市场份额,位居首位;Anthropic以149B tokens占比14.1%,位列第二 [16] 2. AI应用动态 - **Character.AI周访问量环比增长8.32%**:在2025年12月25日至31日期间,Character.AI周平均访问量达46.62M,环比增长8.32%,平均停留时长为18分04秒,位居榜首 [30][31] - **DeepSeek推出流形约束超连接(mHC)架构**:DeepSeek于2026年1月1日发布全新架构mHC,旨在提升模型能力与效率 [3][31] - **技术原理**:mHC将超连接参数空间约束到特定流形(要求矩阵元素非负且行列和为1的双随机矩阵),以恢复恒等映射结构,有助于抑制梯度爆炸并保持训练稳定性 [32] - **效率与性能**:在27B参数模型上,mHC仅引入约6.7%的额外训练时间开销,即实现显著性能提升 [3] - **实验验证**:在27B模型的下游任务评估中,mHC模型在多个基准测试上持续超越基线模型,例如在BBH任务上准确率达51.0%(基线为43.8%),在DROP任务上F1值达53.9%(基线为47.0%) [38][40] 3. AI融资动向 - **Kimi完成35亿C轮融资**:2025年12月31日,月之暗面(Kimi)完成5亿美元(约35亿元人民币)C轮融资,投后估值达43亿美元,阿里、腾讯等投资方超额认购 [4][44] - **技术突破**:2025年推出的K2系列开源模型在核心基准测试中超越多款顶尖闭源模型,其KimiK2Thinking模型在HumanitysLastExam中取得44.9%的成绩 [45] - **商业化进展**:依托Agent功能产品矩阵,公司C端付费用户月环比增长超170%,海外API收入增长4倍,目前现金持有量超100亿元 [4][46] - **未来规划**:融资将重点用于K3模型研发与显卡扩增,目标使K3模型的等效FLOPs提升至少一个数量级,并聚焦Agent赛道实现营收量级增长 [4][47] - **Meta收购Manus**:Meta于2025年12月29日宣布以40亿—50亿美元收购通用型AI Agent产品Manus [5][48] - **产品优势**:Manus核心优势在于“直接交付任务结果”,上线8个月年度经常性收入(ARR)即突破1亿美元,年化运行率超1.25亿美元 [5][49] - **战略意义**:此次收购是Meta加速AI应用层布局、推进“超级智能”愿景的关键举措,旨在补齐其应用端执行能力短板,强化在复杂任务自动化赛道的优势 [5][6][57] - **收购细节**:Manus将保持独立运营,其创始人肖弘将出任Meta副总裁,负责通用AI智能体全球业务 [5][6] 4. 行情复盘 - **指数表现**:上周(2025.12.29-2026.1.02),AI应用指数日涨幅最大为0.99%,AI算力指数日涨幅最大为0.69% [51] - **个股涨跌**: - **AI算力指数内部**:南兴股份录得最大涨幅+21.61%,开普云录得最大跌幅-7.80% [51] - **AI应用指数内部**:蓝色光标录得最大涨幅+30.02%,亿纬锂能录得最大跌幅-8.41% [51] 5. 投资建议 - **维持看好AI应用板块**:报告基于Meta收购Manus等事件,认为此次收购印证了AI应用板块的高景气度,凸显通用智能体作为下一代应用形态的战略价值 [6][57] - **中长期关注公司**:报告建议关注四家公司 [7][58] - 迈信林(688685.SH):加快扩张算力业务的精密零部件龙头 - 唯科科技(301196.SZ):新能源业务高增并供货科尔摩根等全球电机巨头 - 合合信息(688615.SH):AI智能文字识别与商业大数据领域巨头 - 能科科技(603859.SH):深耕工业AI与软件并长期服务高端装备等领域头部客户
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
新浪财经· 2026-01-02 13:27
文章核心观点 - DeepSeek发布论文《mHC: Manifold-Constrained Hyper-Connections》,提出对Transformer架构最基础的残差连接组件进行重要改进,这是该领域十年来的一次根本性创新 [1] - mHC旨在解决其前身技术Hyper-Connections带来的训练不稳定问题,通过引入数学约束(双随机矩阵)为连接权重加上“数学护栏”,在保持性能提升的同时确保训练稳定 [5][10] - 这项创新不仅是算法突破,更展示了DeepSeek将复杂数学方案高效落地到大规模训练系统中的顶尖工程能力,是其核心竞争优势的体现 [15][16] 技术演进背景 - 残差连接由何恺明等人于2015年提出,其核心公式y = x + F(x)解决了深度神经网络的梯度消失问题,使训练成百上千层的网络成为可能,并因此获得CVPR 2016最佳论文奖 [3] - 自2017年Transformer问世以来,残差连接成为几乎所有主流大模型(如GPT、Claude、Llama、DeepSeek)的架构标配 [3] - 2024年9月,字节跳动提出Hyper-Connections,将单一残差流扩展为多流并行架构,实验显示能显著提升模型性能,在MoE模型上实现1.8倍的收敛加速,但带来了训练不稳定的新问题 [5] - 从ResNet到Hyper-Connections再到mHC,这是一场跨越十年的技术接力演进 [5] mHC的技术原理与创新 - mHC的核心创新是将连接权重矩阵约束在“双随机矩阵”的数学空间内,该矩阵所有元素非负,且每行、每列元素之和均为1 [10] - 此约束的数学效果是使输出信号成为输入各分量的“凸组合”(加权平均),确保结果不会超过输入最大值,从而防止信号在多层传播中被无限放大,保证了能量守恒 [10] - 双随机矩阵的谱范数恒小于等于1,这意味着对应的线性变换是“非扩张的”,无论前向还是反向传播,信号都不会被无限放大 [10] - 具体实现采用Sinkhorn-Knopp算法,通过交替进行行归一化和列归一化迭代生成双随机矩阵,论文表明仅需3次迭代即可达到足够精度,且整个过程可微分,支持端到端训练 [11] - 该方案未引入新超参数,也未改变模型表达能力,只是为权重矩阵增加了可证明的安全边界 [12] 实验效果与影响范围 - 实验结果显示,在7B规模的Dense模型训练中,采用mHC的模型全程未出现任何Loss尖峰 [12] - 在MoE模型上,mHC实现了与Hyper-Connections相近的约1.8倍收敛速度提升 [12] - 这是一个“富人的问题”,训练不稳定问题仅在训练超大规模模型(例如270亿参数以上)时才会显现,对DeepSeek等前沿实验室是必须解决的工程难题,普通研究者可能不会遇到 [10] 工程实现与公司能力 - 为了让理论上完美的数学方案落地,DeepSeek未调用现成库,而是直接手写底层CUDA内核代码,利用算子融合技术将复杂计算塞进毫秒级的训练循环中 [16] - 公司采用了激进的“选择性重计算”策略,并在多卡训练中开辟专用计算流来掩盖通信延迟 [16] - 这种将算法灵感稳定、高效地落地到整个算力体系(包括重写内核、内存管理、节点通信)的工程能力,被认为是前沿实验室的标志,也是DeepSeek的最大优势 [16] - 业内评价认为,这篇论文表面是架构论文,实际上是DeepSeek“秀肌肉”的硬核工程论文 [15] 战略意义与发展脉络 - mHC符合DeepSeek近两年的发展主线:在有限资源下,通过架构创新最大化效率,用数学约束解决工程问题,用架构创新突破资源瓶颈 [14] - 根据DeepSeek研究员与Kimi研究员的交流,hyper-connections(mHC的技术根基)被认为是2025年最值得关注的两大架构创新之一,这意味着mHC可能只是公司在这条技术路线上的第一步 [14] - 如果mHC被整合进下一代模型,结合此前的一系列技术和工程创新,可能会催生一个在效率、性能和稳定性上全面升级的新架构 [15] - DeepSeek创始人梁文锋出现在论文的19位作者名单中,显示了公司高层对该技术创新的直接参与和重视 [1]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
华尔街见闻· 2026-01-01 20:20
核心技术创新:流形约束超连接 (mHC) - DeepSeek公司提出了一种名为流形约束超连接 (mHC) 的新架构,旨在解决传统超连接 (HC) 在大规模模型训练中的不稳定问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了HC在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] 技术背景与挑战 - 传统残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但其信息通道宽度受限于隐藏层维度 [3] - 以超连接 (HC) 为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升 [4] - 然而,HC从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销 [5] - 具体问题包括:1) 数值不稳定性,信号在经过多层传播后数值会“爆炸”或“消失”;2) 系统开销大,通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [9] mHC 核心原理与设计 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [6][7] - 其核心目的是在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题 [8] - 团队将残差映射限制为双拟随机矩阵(即行和与列和均为1的矩阵),该矩阵集构成了Birkhoff多胞形 [14][15] - 选择双拟随机性是因为其具有多项有利于大规模训练的理论属性:范数保持(谱范数有界且不超过1,可缓解梯度爆炸)、复合封闭性(确保跨多层仍保持稳定)、以及几何解释(作为排列矩阵的凸包,起到鲁棒的特征融合作用) [16][17] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性(能量守恒) [8] 高效基础设施优化 - 为抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [8] - 实证表明,在扩展倍率 n=4 的情况下,mHC仅增加了6.7%的训练时间开销 [8] - 具体优化包括:1) 算子融合:重新调整RMSNorm顺序,开发统一算子融合多次扫描和矩阵乘法,在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播,显著减少内存读写量 [23][24][25];2) 重计算:在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算,以减轻内存压力 [25];3) 扩展DualPipe调度算法,改善流水线并行阶段边界处的通信与计算重叠 [27] 实验设置与模型配置 - 研究通过语言模型预训练验证方法有效性,对比了基线模型、HC以及mHC [28] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体,包括3B、9B、27B参数模型以及一个在固定1T Token语料上训练的3B模型 [29] - 主要关注的27B模型,其训练数据集大小与参数量成正比,用于展示系统层面的主要结果 [29] - HC和mHC的扩展率 n 均设置为4 [29] - 详细的模型配置参数见文档id=30的表格,涵盖了从词汇量参数、总参数量、层数、专家数量、维度、注意力头数到训练步数、批次大小、优化器设置等全方位信息 [30] 实验结果:训练稳定性与性能 - 在27B模型的训练中,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [32] - 梯度范数分析证实,mHC表现出明显优于HC的稳定性,保持了与基线模型相当的稳定轮廓 [32] - 在下游基准测试中,mHC带来了全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC [33][34] - 具体而言,在27B模型上,与HC相比,mHC在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [34] - 表4数据显示,在多个基准测试(如BBH、DROP、GSM8K、MATH、MMLU等)上,mHC模型均取得了最佳或接近最佳的成绩 [33] 实验结果:规模扩展性 - 规模扩展实验评估了mHC在不同计算规模和训练Token数量下的有效性 [36] - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模,轨迹表明即使在更高的计算预算下,mHC的性能优势依然稳健地得以保持,仅表现出轻微的衰减 [36] - Token扩展曲线展示了3B模型在训练过程中的性能轨迹,进一步验证了mHC在大规模场景下的有效性 [37] - 总体结论是mHC在大规模训练中表现出卓越的可扩展性,为基础模型的拓扑架构演进指明了方向 [8][37]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
新浪财经· 2026-01-01 18:34
公司技术发布 - DeepSeek在新年第一天发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1][26][27] - 该技术通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1][28] - 论文的第一作者有三位,值得注意的是,DeepSeek创始人兼CEO梁文锋也在作者名单中 [3][30] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但其瓶颈在于信息通道的宽度受限于隐藏层维度 [3][30] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题:破坏了恒等映射属性导致训练不稳定和可扩展性受限,并额外增加了显著的内存访问开销 [3][30] - 具体问题包括:连接矩阵自由学习导致信号数值“爆炸”或“消失”的数值不稳定性;以及通道变宽导致显存读写和通信成本成倍增加的“显存墙”问题 [6][33] 核心技术方案 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3][30] - 核心目的是在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题 [4][31] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [7][31] - 选择双拟随机矩阵的原因在于其具有范数保持、复合封闭性和几何解释等有利于大规模训练的理论属性 [12][13][38][41] 效率优化措施 - 为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [7][31] - 在n=4的扩展倍率下,仅增加了6.7%的训练时间开销 [7][34] - 具体的算子融合措施包括:重新调整RMSNorm顺序、采用混合精度策略、开发统一算子融合多次扫描和矩阵乘法、在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播,以及将映射应用与残差合并融合以显著减少内存读写量 [15][43] - 重计算策略包括在前向传播后丢弃mHC算子的中间激活并在反向传播时即时重新计算,并通过推导最优重计算块大小以最小化总内存占用 [16][43][44] - 扩展了DualPipe调度算法以改善流水线并行阶段边界处的通信与计算重叠 [16][44] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、HC以及mHC进行了对比分析 [16][44] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体,覆盖不同的评估体系 [16][44] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [17][44] - 此外,还训练了使用成比例数据的较小3B和9B模型来分析计算扩展性,以及一个在固定1T Token语料库上训练的独立3B模型来专门研究Token规模的影响 [17][44] - 详细的模型配置参数表显示了从3B到27B不同规模模型在词汇量、激活参数量、总参数量、层数、维度、训练步数、训练Token数等方面的具体数据 [18][45] 实验结果:稳定性与性能 - 在27B参数规模的模型上,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [22][49] - 梯度范数分析证实了mHC的稳定性提升,其表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [22][49] - 在下游基准测试中,mHC带来了全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC [23][24][50][51] - 具体而言,在27B模型上,mHC在BBH任务上达到51.0,相比HC的48.9提升了2.1%;在DROP任务上达到53.9,相比HC的51.6提升了2.3% [23][24][50][51] 实验结果:可扩展性 - 规模扩展实验涵盖了从3B、9B到27B参数规模的计算规模扩展曲线,轨迹表明即使在更高的计算预算下,mHC的性能优势依然稳健地得以保持,仅表现出轻微的衰减 [25][52] - Token扩展曲线展示了3B模型在训练过程中的动态变化,验证了mHC在大规模场景下的有效性 [25][52] - 研究结论指出,mHC为基础模型的拓扑架构演进指明了方向 [7][34]