Workflow
mHC架构
icon
搜索文档
DeepSeek新年炸场!梁文锋署名论文发布
第一财经· 2026-01-01 22:49
2026.01. 01 本文字数:1149,阅读时长大约2分钟 作者 | 第一财经 刘晓洁 1月1日消息,DeepSeek赶在新年前发送了"贺礼",在新论文中提出了名为mHC(流形约束超连 接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代 基础架构的演进指明新方向。 新 论 文 名 为 《 mHC :Manifold-Constrained Hyper-Connections 》 ( 《 mHC : 流 形 约 束 超 连 接 》),DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,而解振达(Zhenda Xie)、韦毅轩 (Yixuan Wei)、曹焕琪(Huanqi Cao)则是核心贡献者。 近年来,以超连接(HC)为代表的研究拓展了过去十年确立的通用残差连接范式(深度神经网络的 经典连接范式),靠拓宽神经网络的"信息传输通道"、增加通道间的连接,让模型性能变好。但这种 多样化也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。 因此,DeepSeek这篇论文针对超连接架构这些问题,提出兼顾性能与效率的改进框架,即mHC 架 构,这类似于给超 ...
DeepSeek提出全新mHC架构;安克创新回应“裁员30%”;特斯拉鸿蒙版App开启尝鲜...
搜狐财经· 2026-01-01 21:18
2026 年 1 月 1 日IT之家热门新闻榜单: DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单 这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提 的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。 安克创新回应"裁员 30%":网传比例严重不属实 小米 YU7 官宣全系可享「3 年 0 息」限时优惠。小米创办人、董事长兼 CEO 雷军发文说明,称这是为 跨年直播准备的新年福利。他还表示,12 月锁单用户也可享受。11 月前锁单未交的订单,购置税补贴 和 3 年 0 息两项福利二选一。 小米 REDMI Note 15 系列手机新春版开售,999 元起 小米 REDMI 手机官方宣布,REDMI Note 15 系列新春版现已开售,新品包括:REDMI Note 15 Pro+ 摩 卡棕、REDMI Note 15 Pro 车厘子红和 REDMI Note 15 车厘子红,999 元起。 华为智慧屏 V6 发布:75/85/98 英寸国补价 7999~14999 元,赠灵犀手写笔 华为乾崑智 ...
DeepSeek,最新发布!
证券时报· 2026-01-01 18:53
DeepSeek发布新论文mHC - 公司发布新论文,提出名为“流形约束超连接”的新架构mHC,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接等研究通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式多样化削弱了恒等映射特性,导致训练不稳定、可扩展性受限及显著内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性 [3] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 作为超连接范式的广义拓展,mHC为未来研究开辟了多个重要方向,包括兼容针对特定学习目标设计的多种流形约束探索,以及对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法 [7] - 公司希望mHC能重新激发学界对宏观架构设计的关注,通过深化对拓扑结构如何影响优化与表征学习的理解,有助于突破现有局限,并可能为下一代基础架构的演进指明新路径 [7] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [8] - DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景 [8] - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [8] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [8] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力 [8] - 在主流推理基准测试上,DeepSeek-V3.2-Speciale的性能表现媲美Gemini-3.0-Pro [8] - 2025年9月29日,公司正式发布DeepSeek-V3.2-Exp模型,作为迈向新一代架构的中间步骤 [9] - V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention,针对长文本的训练和推理效率进行了探索性的优化和验证 [9] - 同时API大幅度降价,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [9] DeepSeek学术成就与国际认可 - 2025年9月17日,在最新一期的国际权威期刊Nature中,DeepSeek-R1推理模型研究论文登上了封面 [9] - 该论文由公司团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果 [9] - 这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可 [9] - Nature在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。” [10]