流形约束超连接(mHC)
搜索文档
解读 | 梁文锋新年王炸:让 AI 从爬楼梯变开高速
未可知人工智能研究院· 2026-01-02 00:04
▲ 戳蓝 色字关注我们! 克 创新之道,唯在得人;得人之要,必广其途以储之。——《资治通鉴》 刚从深圳跨年演讲回来,一下飞机就发现朋友圈全是DeepSeek的消息。 你还记得去年春节吗?大家走亲戚拜年的时候聊的最多的不是年终奖,而是"你用DeepSeek了吗?"我当时就在想,这家公司是不是跟新年杠上了? 果然! 今天2026年元旦第一天,梁文锋署名的新论文又把整个AI圈炸了。 我看了一圈分析,大家都在讲技术细节,但我今天想从几个不一样的角度跟大家聊聊——这篇论文到底改了什么?对你我这样的普通人又意味着什 么? 听着很拗口对吧?我给大家用人话翻译一下。 要讲清楚mHC首先得讲讲"何恺明残差"这个概念。 先认识大神:何恺明是谁? 何恺明是梁文锋的老乡,比梁文锋晚一年参加高考,是2003年广东省高考理科状元。 如今是麻省理工学院的副教授兼谷歌DeepMind杰出科学家,是全球计算机视觉和深度学习领域绝对的"大神"级人物。他最著名的贡献是发明了 残差网络。 残差网络:用人话+比喻讲明白 什么是残差网络?我给你打个比方。 你玩过" 传话游戏 "吗?第一个人说一句话,传给第二个人,第二个人再传给第三个人……传到第十个人的 ...
DeepSeek,最新发布!
券商中国· 2026-01-01 20:40
DeepSeek发布新论文,梁文锋参与署名。 1月1日消息,DeepSeek发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。该研究旨在 解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。这篇论文的第一作者有三 位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek创始人梁文锋也 在作者名单中。 DeepSeek表示,DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent 任务场景。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro; 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。 论文摘要指出,近来,以超连接(HC)为代表的研究通过拓宽残差流宽度和多样化连接模式,拓展了过去十 年间确立的普遍采用的残差连接范式。虽然这些改进带来了显著的性能提升,但连接模式的多样化从根本上削 弱了残差连接固有的恒等映射特性,导致严重的训练不稳定性与受 ...
DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单
新浪财经· 2026-01-01 20:24
IT之家 1 月 1 日消息,北京时间今天下午,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。根据介绍,该研究旨在解决传统超 连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。 这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单 之列。 IT之家附摘要部分大意如下: 最近,以超连接(HC)为例的研究通过扩展残差流宽度和多样化连接模式,扩展了过去十年建立的无 处不在的残差连接范式。虽然产生了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒 等映射属性,从而导致严重的训练不稳定性和受限的可扩展性,并且还会产生显著的内存访问开销。 为了应对这些挑战,我们提出了流形约束超连接(mHC),这是一个通用框架,可将 HC 的残差连接 空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。 经验实验表明,mHC 对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预 计,mHC 作为 HC 的灵活 ...