mHC(流形约束超连接)架构
搜索文档
量化圈重磅!百亿私募“开年大动作”,开源发布全新代码大模型!
新浪财经· 2026-01-02 12:03
文章核心观点 - 百亿量化私募九坤投资在2026年1月1日开源发布了新一代代码大语言模型IQuest-Coder-V1系列,标志着量化私募机构在大模型领域的技术竞争进入新阶段 [1] - 自2025年初DeepSeek引发行业关注以来,多家百亿量化私募密集成立AI研究院,AI投入从策略工具扩展为长期基础技术布局,应用场景不再局限于金融 [3][5] 量化私募的AI技术发布 - 九坤投资旗下至知创新研究院开源发布新一代代码大语言模型IQuest-Coder-V1系列,该模型聚焦代码智能领域,具备读懂、写、改代码的综合能力,可用于自动编程、Bug修复、代码解释等任务 [1] - 该模型在自主性软件工程、竞赛编程等关键维度上,已跻身当前开源代码模型的性能与技术领先行列 [1] - 至知创新研究院由九坤投资创始团队发起设立,是独立于量化投研体系的全新平台,定位为加速AI应用落地的研究型组织 [2] - 研究院早期团队已在大语言模型、代码智能、医疗垂域模型、人工智能与数学等方面有过高质量工作发表,例如其与耶鲁大学等团队合著的E2Former模型相关工作被2025 NeurIPS选为会议焦点论文 [2] 量化行业的AI战略转型 - 自2025年初DeepSeek及其创始人梁文锋引发行业关注后,宽德、念空、鸣石、九坤等多家百亿级量化私募陆续成立AI Lab或AI研究院,持续加码人工智能布局,投入呈现明显提速态势 [3] - 量化投资具备高度工程化、数据密集和模型驱动的特点,头部机构在核心投资场景中积累的技术体系和工程经验向AI大模型及更多垂直应用领域外溢被视为必然选择 [3] - 量化机构对AI的投入正从“策略工具”扩展为更长期、更基础的技术布局,目标或不局限于资本市场本身 [5] - 新一轮AI布局呈现显著特征:研究方向更加基础化、对外交流和开源程度明显提高、应用场景不再局限于金融 [5] - 鸣石基金指出,量化行业的核心竞争力正从资金规模转向模型与算法的迭代速度,越来越多的量化私募将更像在科技领域进行深度竞争 [5] 九坤投资的AI实践与人才储备 - 九坤投资成立至知创新研究院,旨在将量化投资中积累的技术能力延展至更广阔、更多元的产业场景 [3] - 过去数年,九坤持续拥抱AI,成立内部的AILab、DataLab和水滴实验室,持续拓展数据来源和类型,将前沿AI技术应用在量化投资的各个环节 [3] - 过去5年,九坤招聘的研究员90%以上都有AI研究背景,团队成员来自顶尖院校、科研院所、互联网及科技公司 [4] - 目前九坤整个体系已融入AI原生思路,是用AI技术栈来打造量化研究平台,而非局部的AI使用 [4] - 研究院表示,量化投资需要技术团队在工程实现上追求极致性能,在数据能力上专注于高信噪比环境下榨取数据价值,目标是将AI从“会思考”推向“能实战” [2]
DeepSeek新年炸场!梁文锋署名论文发布
第一财经· 2026-01-01 21:44
论文核心内容 - DeepSeek在新论文中提出名为mHC(流形约束超连接)的新网络架构 旨在解决传统超连接架构在大规模模型训练中的不稳定性、可扩展性受限及内存访问开销大的问题 [1][4] - mHC架构为超连接的“信息通道”增加了一套“交通规则” 在保留性能优势的同时恢复了信息原样传递的特性 使模型训练更稳定、更容易做大 推动大模型底层架构的工业化落地 [4] - 研究团队希望mHC能重新激发学界对宏观架构设计的兴趣 深化对拓扑结构如何影响优化与表征学习的理解 为下一代基础架构的演进指明新方向 [5] 技术原理与类比 - 传统计算链条信息传递管道窄 信息量大易“堵车” 超连接通过拓宽管道增加信息流 但可能导致水流过猛冲坏“水管” [4] - mHC相当于给“水管”加装“智能调节阀” 能确保信息水流的稳定 运行时更节省资源 [4] 行业影响与意义 - mHC或能让企业在训练更大规模基础模型时 减少硬件投入、缩短训练周期 降低大模型研发门槛 使算力有限的中小AI企业也能尝试开发更复杂的大模型 [5] - 训练稳定性和可扩展性的提升 能让大模型在更复杂的场景落地 例如需要超大规模参数的多模态模型、工业级的智能决策系统 [5] - 有行业人士评价认为 此次创新针对Transformer最基础的问题 结合此前积累 预测DeepSeek有望在V4版本中做出重大更新 [5] 公司近期动态 - DeepSeek创始人兼CEO梁文锋出现在mHC论文的合著名单中 解振达、韦毅轩、曹焕琪是核心贡献者 [3] - 自2025年初引发广泛关注以来 公司在模型迭代与开源上持续发力 仅12月就同步推出了DeepSeek-V3.2与V3.2-Special [6] - 公司在11月底开源了数学推理模型DeepSeek-Math-V2 成为目前首个达到国际奥数金牌水平并开放使用的数学模型 [6]
今日财经要闻TOP10|2026年1月1日
新浪财经· 2026-01-01 20:33
人工智能与科技 - DeepSeek在元旦发布新论文,提出名为mHC(流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1][11] - 论文第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao,DeepSeek创始人兼CEO梁文锋也在作者名单中 [1][11] 国际贸易与政策 - 欧盟碳边境调节机制(CBAM)于2026年1月1日起正式实施,欧盟近日密集发布相关立法提案与实施细则 [2][12][13] - 中方指出,欧方对中国产品碳排放强度设定显著偏高的基础默认值,并将在未来三年内逐年提高,构成不公平、歧视性待遇 [2][13] - 欧盟计划从2028年起将CBAM范围扩展至包括机械装备、汽车及其零部件、家用电器等约180种钢铝密集型下游产品 [2][13] - 中方认为欧盟规则设计超出应对气候变化范畴,带有明显的单边主义与贸易保护主义色彩,并指出欧盟对内放松绿色监管存在双重标准 [2][13] 美国政治与政策 - 美国联邦第九巡回上诉法院裁定,特朗普政府须将加州国民警卫队指挥权交还州长加文·纽森 [4][15] - 美国加州联邦法官裁定,叫停特朗普政府终止洪都拉斯、尼泊澜和尼加拉瓜移民临时保护身份的决定 [4][15] - 自2026年1月1日起,美国对布基纳法索、老挝等七国公民实施全面入境禁令,同时对委内瑞拉、古巴人员实施部分旅行限制 [4][15] - 特朗普签署公告,将原定于1月1日生效的软体家具、橱柜等产品关税上调措施推迟一年,现行25%关税保持不变 [4][15] - 特朗普媒体科技集团计划借助Crypto.com技术进行内容分发,未来每位DJT股票最终受益所有人,每持股一股将获一枚数字货币代币 [4][15] 新能源汽车行业 - 理想汽车2025年12月交付44,246辆,第四季度交付109,194辆,累计交付量已达1,540,215辆 [6][16] - 蔚来2025年12月交付48,135辆,同比增长54.6%,第四季度交付124,807辆,同比增长71.7%,全年交付326,028台,创历史新高,同比增长46.9% [6][16] - 小鹏汽车2025年12月交付37,508辆,同比增长2%,全年交付429,445辆,同比增长126% [6][16] - 小米汽车2025年12月交付量超过5万台 [6][16] - 零跑汽车2025年12月交付60,423台,同比增长42%,全年交付596,555台,同比增长103% [6][16] - 极氪2025年12月交付30,267台,创历史新高,同比增长11.3%,全年总计交付224,133台 [6][16] - 岚图汽车2025全年累计交付150,169辆,实现“十连涨”,同比增长87% [6][16][17] - 鸿蒙智行全年累计交付589,107台,年同比增长32%,12月单月交付89,611台,连续三个月创月度交付历史新高 [6][17] - 赛力斯12月新车交付超57,000台,再创单月交付新高,2025年新车交付超42万台 [6][17] - 智己汽车2025年销量81,017台,全年销量再创新高 [6][17] - 广汽埃安昊铂埃安BU 2025年12月销量40,066辆创新高,i60首月销量破万 [6][17] 金融市场与人物 - 著名投资人沃伦·巴菲特于2025年12月31日正式退休,卸任伯克希尔·哈撒韦首席执行官职务 [7][18] - 2026年1月1日元旦假期,全球多地市场休市,包括日本、韩国、澳大利亚、新西兰、美国、加拿大及欧洲多国市场,中国沪深及北交所、国内期货交易所、香港交易所、中国台湾市场亦休市 [8][19] 消费品市场 - 2026年1月1日,i茅台正式上架飞天53%vol 500ml贵州茅台酒,售价1499元/瓶,每人每天限购12瓶 [10][21] - 本次投放从9点开始,每五分钟投放一次,每次仅不到30秒便被清空,系统因“库存不足”“访问人数过多”而卡住 [9][21]
DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单
新浪财经· 2026-01-01 20:24
论文核心观点 - DeepSeek公司提出名为“流形约束超连接”的新神经网络架构mHC 旨在解决传统超连接在大规模模型训练中的不稳定性问题 同时保持其显著的性能增益 [1][6] 研究背景与问题 - 传统超连接通过扩展残差流宽度和多样化连接模式扩展了残差连接范式 并带来了显著的性能提升 [6] - 但这种多样化损害了残差连接固有的恒等映射属性 导致严重的训练不稳定性和受限的可扩展性 并产生显著的内存访问开销 [6] 技术方案与创新 - mHC是一个通用框架 可将超连接的残差连接空间投影到特定的流形上 以恢复恒等映射属性 [6] - 该方案结合了严格的基础设施优化以确保效率 [6] 实验效果与意义 - 经验实验表明 mHC对于大规模训练有效 可提供切实的性能改进和卓越的可扩展性 [6] - 预计mHC作为超连接的灵活且实用的扩展 将有助于更深入理解拓扑架构设计 并为大模型的演进提出有希望的方向 [6] 作者与发布信息 - 论文第一作者包括Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao [1] - DeepSeek创始人兼CEO梁文锋也在作者名单之列 [1] - 论文已发布于Hugging Face和Arxiv平台 [6]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
机器之心· 2026-01-01 16:22
文章核心观点 - DeepSeek公司发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] - 该方法在保留“加宽残差流”带来的性能提升的同时,解决了其导致的训练不稳定和显存消耗过大的问题 [4] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但瓶颈在于信息通道的宽度受限于隐藏层维度 [3] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题 [3] - 问题一:从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性 [3] - 问题二:额外增加了显著的内存访问开销 [3] - 原始的HC中,连接矩阵是自由学习的,没有约束,导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,模型越深越难训练 [6] - 通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [6] mHC方法原理 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3] - 核心前提是将残差映射约束在一个特定的流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力 [8][9] - 具体做法是将残差映射限制为双拟随机矩阵,即具有非负项且行和与列和均为1的矩阵 [10] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [4] - 选择双拟随机性的原因包括:其谱范数有界且不超过1,这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题 [15] - 双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性 [15] - 该集合构成了Birkhoff多胞形,是排列矩阵集的凸包,这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用 [15] - 团队还对输入映射和输出映射施加了非负约束,以防止因正负系数复合导致的信号抵消 [12] - 最终的约束映射通过Sinkhorn-Knopp算子获得,在实验中采用t_max=20次迭代 [16] 高效基础设施设计 - DeepSeek为mHC量身定制了基础设施设计,使其在扩展倍率n=4时在大模型中的训练开销仅增加6.7% [4][17] - 算子融合:重新调整RMSNorm的顺序以提高效率,并采用混合精度策略 [17] - 开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销 [18] - 在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播 [19] - 将输入和输出映射的应用与残差合并融合,显著减少了内存读写量 [20] - 重计算:为了减轻n流设计带来的内存压力,在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算 [21] - 通过推导得出最优重计算块大小,以最小化总内存占用 [22] - DualPipe中的通信重叠:扩展了DualPipe调度算法,以改善流水线并行阶段边界处的通信与计算重叠 [23] - 在专用高优先级计算流上执行MLP层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率 [23] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接以及提出的mHC进行了对比分析 [25] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体 [26] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [26] - 训练了较小的3B和9B模型来分析计算扩展性,并训练了一个独立的3B模型在一个固定的1T Token的语料库上以研究Token规模的影响 [26] - 27B模型的总参数量为27.0B,训练了262B个Token [27] 实验结果:训练稳定性 - 在27B参数规模的模型上,mHC有效缓解了在HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [29] - 梯度范数分析证实了稳定性的提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [29] 实验结果:下游任务性能 - 在8个不同的下游基准测试中,mHC始终优于基线模型,并在大多数基准测试中超越了HC [30] - 与HC相比,mHC进一步增强了模型的推理能力,在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [31] - 具体性能数据对比(27B模型): - BBH:基线43.8, HC 48.9, mHC 51.0 [30] - DROP:基线47.0, HC 51.6, mHC 53.9 [30] - GSM8K:基线46.7, HC 53.2, mHC 53.8 [30] - HellaSwag:基线73.7, HC 74.3, mHC 74.7 [30] - MATH:基线22.0, HC 26.4, mHC 26.0 [30] - MMLU:基线59.0, HC 63.0, mHC 63.4 [30] - PIOA:基线78.5, HC 79.9, mHC 80.5 [30] - TriviaOA:基线54.3, HC 56.3, mHC 57.6 [30] 实验结果:规模扩展性 - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模的规模扩展过程,轨迹表明即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减 [34] - Token扩展曲线展示了3B模型在训练过程中的轨迹,验证了mHC在大规模场景下的有效性 [34]