Workflow
流形约束超连接(mHC)
icon
搜索文档
机器学习系列之一:mHC对Barra机器学习因子的改进
东北证券· 2026-01-05 14:41
量化模型与构建方式 1. Barra机器学习因子模型 * **模型名称**:Barra MLP因子模型[30] * **模型构建思路**:突破传统线性多因子模型的限制,利用多层感知机(MLP)强大的非线性拟合能力,深度挖掘Barra风格因子与个股未来残差收益之间复杂、非线性的映射关系,以捕捉线性模型无法触及的高阶Alpha信息[30][31]。 * **模型具体构建过程**: 1. **长期风险模型构建与残差收益剥离**:以Barra CNE6框架为蓝本,构建包含1个国家因子、31个一级行业因子和15个长期风格因子的风险模型[36]。通过横截面回归将个股收益分解为共同因子解释部分和特质收益部分,回归残差即为剔除了市场、行业及主流风格影响后的特质收益,作为机器学习模型的预测目标[40]。 2. **机器学习模型滚动训练**:特征集为15个长期风格因子的当期暴露度,标签为下一期的个股残差收益率[41]。采用多周期滚动训练,窗口长度分别为72个月、36个月和24个月,每月月末利用最新数据对三个模型进行全量参数更新[41]。 3. **多周期预测信号合成**:每月末,三个独立训练的MLP模型分别输出预测值。对三个预测向量分别进行截面Z-Score标准化,然后采用等权平均或基于历史IC的加权平均,合成单一的初步机器学习因子[42][43]。 4. **因子正交化处理**:将合成因子作为因变量,对15个长期风格因子进行横截面回归,提取回归残差。此步骤确保新因子与现有Barra风格因子体系保持正交,提供纯粹的增量信息[44]。 5. **纯因子收益率计算与检验**:将正交化后的机器学习因子纳入增强的Barra风险模型(包含国家、行业、长期及短期风格因子)进行横截面回归,其回归系数即为“纯因子收益率”,用于量化该因子的实际贡献[45]。 2. mHC-MLP改进模型 * **模型名称**:mHC-MLP模型(流形约束超连接多层感知机)[4] * **模型构建思路**:针对金融数据低信噪比、非平稳的特性,在传统MLP基础上引入流形约束超连接(mHC)结构,从模型拓扑与几何约束两方面提升数值稳定性与抗外推能力,以抑制对噪声的过拟合,获得更稳健的因子信号[1][13]。 * **模型具体构建过程**: 1. **核心架构替换**:在Barra机器学习因子构建流程中,将步骤3.2的核心计算模块(传统MLP)替换为mHC架构,保持输入特征、目标变量及训练框架完全一致[48]。 2. **动态路由机制**:mHC层将单一特征流扩展为n个并行的子流(Sub-streams)。设输入特征维度为C,扩展率为n,则每一层l的状态更新公式为: $$X_{l+1} = H_{res} * X_l + H_{post}^T * F(H_{pre} * X_l, W_l)$$ 其中,`H_res`为残差连接矩阵,负责在n个子流间进行线性信息交换;`H_pre`为扇入映射,将n个子流信息压缩聚合;`F`为标准MLP块(Linear -> ReLU -> Linear),负责非线性特征提取;`H_post`为扇出映射,将提取的特征广播回n个子流[49][50]。 3. **流形约束**:对残差连接矩阵`H_res`施加双随机矩阵(Doubly Stochastic Matrix)约束,即要求矩阵元素非负,且每一行和与每一列和均为1[22][53]。此约束通过Sinkhorn-Knopp迭代算法在训练过程中实时投影实现[23][54]。该约束限制了矩阵的谱范数(≤1),保证了信号传播的非扩张性,提升了数值稳定性[23][55]。 4. **非负映射**:要求扇入映射`H_pre`和扇出映射`H_post`的参数保持非负,通常使用Sigmoid函数映射到(0,1)区间,确保特征聚合是基于“加权累加”而非“差分抵消”,使输出位于输入凸包内,抑制过度外推[24]。 5. **参数初始化与深度堆叠**:采用冷启动策略,将门控因子α初始化为0.01,使网络初期接近恒等映射[25][26]。得益于流形约束带来的稳定性,网络深度可从传统Barra MLP的3层扩展至6层,以学习更高阶的因子交互关系[56][57]。 * **模型评价**:mHC结构有效抑制了因子输出的尖峰-肥尾特性,使分布更接近正态,并表现出更高的长期稳定性[2]。其平滑与守恒特性有助于降低换手率、提升稳健性,但在由短期资金面博弈驱动的行情中,可能弱化对瞬时套利信号的响应,表现可能落后于更激进的无约束模型[2][75]。 模型的回测效果 1. **Barra MLP因子模型**,纯因子累计收益率超过15%[46],t统计量达到2.8[46],IC_IR指标为0.45[46]。 2. **mHC-MLP改进模型**,纯因子累计收益率为49%[75](对比基准Barra MLP的56%[75])。 量化因子与构建方式 1. Barra长期风格因子集 * **因子名称**:Size(规模)、Beta(贝塔)、Momentum(动量)、Residual Volatility(残差波动)、Non-linear Size(非线性规模)、Value(估值)、Growth(成长)、Liquidity(流动性)、Leverage(杠杆)、DivYild(股息率)、Profit(盈利)、EarnVar(盈利波动)、InvSqlty(投资质量)、EarnQlty(盈利质量)、LTRevrsl(长期反转)[38][40]。 * **因子构建思路**:涵盖市值、风险、动量、估值、成长性、流动性、财务质量等多个核心维度,用于构建长期风险模型并解释股票收益[36][40]。 * **因子具体构建过程**:作为Barra CNE6风险模型的标准组成部分,具体构建方法遵循MSCI Barra的规范[36][40]。 因子的回测效果 *注:报告未提供Barra单个长期风格因子的独立测试结果取值。*
科技题材开年大狂欢!中概股化身“金龙傲天”
财联社· 2026-01-03 07:37
美股市场2026年首个交易日表现 - 美股三大股指收盘表现相对平静,标普500指数涨0.19%至6858.47点,纳斯达克综合指数微跌0.03%至23235.63点,道琼斯工业平均指数涨0.66%至48382.39点 [1] 中概股与纳斯达克中国金龙指数 - 纳斯达克中国金龙指数单日大涨4.38%,创下自去年5月12日以来的最大单日涨幅 [3] - 主要中概科技股普遍大涨,百度因宣布分拆芯片业务IPO收涨15.03%,阿里巴巴涨6.25%,腾讯ADR涨5.23%,网易涨7.22%,台积电涨5.17%,富途控股涨8.68%,哔哩哔哩涨7.24%,万国数据涨9.86%,小马智行涨10.83% [3] AI行业动态与市场预期 - DeepSeek发表由梁文锋署名的新论文,提出名为“流形约束超连接”(mHC)的训练方法,被研究机构分析师称为“惊人的突破”,认为其可再次绕过算力瓶颈并释放智能飞跃 [3] - 此举唤起市场记忆,DeepSeek在发布R1模型前也曾发布基础训练研究,新架构的发布意味着下一代旗舰模型已在路上,市场进入“坐等DeepSeek时刻” [3] - 与去年不同,市场对AI巨头投资回报的宽容度已大不如前 [4] 科技巨头与题材股表现分化 - 按市值排名的主要科技巨头表现平平,英伟达涨1.26%,苹果跌0.31%,谷歌A涨0.69%,微软跌2.21%,亚马逊跌1.87%,台积电涨5.17%,博通涨0.44%,Meta跌1.47%,特斯拉跌2.59%,伯克希尔哈撒韦-A跌1.41% [5] - 特斯拉在发布全年电动车交付数据后迎来“七连跌” [5] - 各类题材股炒作活跃,美股“存储四巨头”中,美光科技涨10.51%,西部数据涨8.96%,两者齐创收盘历史新高,闪迪涨15.95%,希捷科技涨4.41% [6] - 韩国“存储双雄”SK海力士和三星电子均飙升并创出历史新高 [6] - AI能源与储能概念股Bloom Energy涨13.58% [6] - 核电初创公司NuScale Power涨15.17%,Oklo涨8.42% [6] - 铀能源概念股Energy Fuels涨14.86% [6] - 激光雷达概念股Innoviz涨13.01% [6] - 稀土概念股USA Rare Earth涨18.91% [6] - 加密货币概念股Riot Platforms涨11.76%,嘉楠科技涨11.59% [6] - 光伏概念股Solaredge和晶科能源均涨超8% [6] - 光刻机龙头阿斯麦在获得券商“跳级上调评级”刺激下大涨8.78% [6] - 美国芯片公司英特尔涨超6%,公司将在下周CES大会上完成“18A”芯片的首秀 [6] 全球电动车行业动态 - 特斯拉公布2025年第四季度交付418,227辆新车,生产434,358辆,全年交付1,636,129辆,生产1,654,667辆,数据低于大多数分析师预期及公司自制的“市场共识预期” [7] - 特斯拉以巨大劣势丢掉“全球电车年度销量第一”王座 [7] - 中国电动车龙头比亚迪披露2025年全年销售电动车225.67万辆,较2024年的176.49万辆增长27.86% [8] 其他公司及市场消息 - 巴菲特在预告视频中对继任者格雷格·阿贝尔和伯克希尔的发展前景给予高度赞许,认为伯克希尔在一百年后依然存在的可能性比任何其他公司都要大 [9] - 巴菲特表示最终拍板人会是格雷格·阿贝尔,并称宁愿把钱交给他打理,也不愿交给美国任何顶级投资顾问或顶级公司CEO [9] - 美国盈透证券涨超4%,公司报告其个人客户在2025年的平均回报率为19.2%,超过标普500指数的16.39%回报,其对冲基金客户平均回报率高达28.91%,比基准指数高出约11个百分点 [9]
解读 | 梁文锋新年王炸:让 AI 从爬楼梯变开高速
文章核心观点 - DeepSeek公司在2026年元旦发布了一篇由梁文锋署名、提出mHC新架构的论文,该技术突破被视为可能改变AI行业竞争格局的架构级创新 [2] - 该创新以“四两拨千斤”的方式,通过优化基础架构而非单纯堆砌算力与数据,实现了以更低成本达到甚至超越行业巨头性能的效果 [20][32] - 对于普通人的启示在于专注、效率与基础能力的重要性,这不仅是公司的成功路径,也是个人成长的借鉴 [31][34][37] 技术突破:mHC新架构 - 论文提出了名为“流形约束超连接”的新架构,旨在解决传统“超连接”技术中因信息通道过多而无序所导致的模型训练问题 [2][14] - 该架构的核心是为多信息流通道制定严格的“交通规则”,将信息流约束在数学上的“流形”空间内,从而在保证自由度的同时避免混乱 [15] - 该技术基于对何恺明“残差网络”思想的深化与发展,残差网络的核心是让原始信息能跳过中间层直接传递,以解决信息在深度网络中传递时的损耗问题 [4][10][13] - 实际效果显著:在一个拥有270亿参数的大模型上,仅增加了不到7%的训练时间,便获得了明显的性能提升 [16] 行业竞争格局影响 - **国际层面**:DeepSeek的“四两拨千斤”式架构创新,对OpenAI、Google、Meta等依赖“大力出奇迹”路线的巨头构成挑战,可能削弱其算力优势 [19][20][22] - **国内层面**:给Kimi、豆包、通义千问等国内同行带来压力,尤其是正在筹备上市的智谱与MiniMax [23][26] - 尽管豆包的月活跃用户数已超过DeepSeek达到1.7亿,但DeepSeek持续的架构级创新被视为更坚固的技术护城河,正在改变投资人对AI公司估值逻辑的关注点,从融资额和用户量转向核心技术壁垒 [24][25][27] 公司战略分析 - DeepSeek的战略选择是专注于文本推理与基础架构创新,而非追逐多模态热点 [28] - 这种专注被视为一种“先把地基打牢”的长期策略,旨在将底层架构做到极致后再拓展上层能力 [29] - 公司的效率极高,以不到OpenAI十分之一的成本,实现了接近甚至超越的效果 [32] 对普通人的启示 - **专注的力量**:在一个细分领域持续深耕,比追逐所有热点更能产生颠覆性成果 [31] - **效率优于规模**:成功的关键不在于拥有最多资源,而在于找到最高效的解决问题的方法 [32][33] - **基础能力是护城河**:个人真正的长期竞争力在于思考、学习、解决问题等底层基础能力,而非表面的工具应用技能 [34] - **持续输出价值**:比单次爆红更重要的是能够持续提供价值,并不断刷新外界认知 [36][37]
DeepSeek,最新发布!
券商中国· 2026-01-01 20:40
DeepSeek发布mHC架构新论文 - 公司发布新论文,提出名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式的多样化削弱了恒等映射特性,导致训练不稳定性、受限的可扩展性及显著的内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 论文展望认为,mHC为超连接范式的广义拓展,为未来研究开辟了多个重要方向,包括探索针对特定学习目标设计的多种流形约束,以及深化对拓扑结构如何影响优化与表征学习的理解 [6] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [7] - DeepSeek-V3.2旨在平衡推理能力与输出长度,适合日常使用,在公开的推理类Benchmark测试中达到了GPT-5的水平,仅略低于Gemini-3.0-Pro,相比Kimi-K2-Thinking,其输出长度大幅降低,显著减少了计算开销与用户等待时间 [7] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [7] - 2025年9月29日,公司发布DeepSeek-V3.2-Exp模型,在V3.1-Terminus基础上引入了稀疏注意力机制,针对长文本的训练和推理效率进行了探索性优化和验证,同时API价格大幅降低,开发者调用成本降低50%以上 [8] - 2025年9月17日,公司关于DeepSeek-R1推理模型的研究论文登上国际权威期刊《自然》封面,该论文首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果,这是中国大模型研究首次登上《自然》封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究 [8] - 《自然》社论评价指出,几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破 [9]
DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单
新浪财经· 2026-01-01 20:24
论文核心观点 - DeepSeek公司提出名为“流形约束超连接”的新神经网络架构mHC 旨在解决传统超连接在大规模模型训练中的不稳定性问题 同时保持其显著的性能增益 [1][6] 研究背景与问题 - 传统超连接通过扩展残差流宽度和多样化连接模式扩展了残差连接范式 并带来了显著的性能提升 [6] - 但这种多样化损害了残差连接固有的恒等映射属性 导致严重的训练不稳定性和受限的可扩展性 并产生显著的内存访问开销 [6] 技术方案与创新 - mHC是一个通用框架 可将超连接的残差连接空间投影到特定的流形上 以恢复恒等映射属性 [6] - 该方案结合了严格的基础设施优化以确保效率 [6] 实验效果与意义 - 经验实验表明 mHC对于大规模训练有效 可提供切实的性能改进和卓越的可扩展性 [6] - 预计mHC作为超连接的灵活且实用的扩展 将有助于更深入理解拓扑架构设计 并为大模型的演进提出有希望的方向 [6] 作者与发布信息 - 论文第一作者包括Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao [1] - DeepSeek创始人兼CEO梁文锋也在作者名单之列 [1] - 论文已发布于Hugging Face和Arxiv平台 [6]