双随机矩阵
搜索文档
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
新浪财经· 2026-01-02 13:27
2026年的第一天,DeepSeek 在 arXiv 上发布了一篇新论文《mHC: Manifold-Constrained Hyper- Connections》,提出了名为 mHC(流形约束超连接) 的宏观架构的创新。 听名字就很抽象,但若简单总结,这是 Transformer最底层组件残差连接(Residual Connection)的一次 重要改进。 这不只是一个技术细节的优化,如果把它放到更大的背景下,事情会更有意思,残差连接是2015年何恺 明提出的,此后十年间几乎没有根本性的改动。DeepSeek这次动的,是Transformer架构中最古老、也 最基础的那块砖。 另外值得注意的是,DeepSeek创始人梁文锋也出现在论文的19位作者名单中。 2017年,Transformer 问世,残差连接成为标配。从 GPT 系列到 Claude,从 Llama 到 DeepSeek,几乎 所有主流大模型都建立在这个基础之上。 ResNet、Hyper-Connections(无约束)和 mHC(流形约束)的架构对比图。 2024年9月,字节跳动发表Hyper-Connections(超连接)论文。 研究者 ...
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
新浪财经· 2026-01-01 19:45
来源:量子位 | 公众号 QbitAI 残差连接十年未变,扩展之后却带来隐患 2026年新年第一天,DeepSeek上传新论文。 给何恺明2016成名作ResNet中提出的深度学习基础组件"残差连接"来了一场新时代的升级。 DeepSeek梁文峰亲自署名论文,共同一作为Zhenda Xie , Yixuan Wei, Huanqi Cao。 DeepSeek团队的实验表明,在这三个映射中,负责残差流内部信息交换的Hres矩阵贡献了最显著的性能 提升。 残差连接自2016年ResNet问世以来,一直是深度学习架构的基石。 其核心机制简洁明了,x+1 = x + F (x ,W),即下一层的输出等于当前层输入加上残差函数的输 出。 这个设计之所以成功,关键在于"恒等映射"属性,信号可以从浅层直接传递到深层,不经任何修改。 随着Transformer架构的崛起,这一范式已成为GPT、LLaMA等大语言模型的标准配置。 这个设计之所以成功,关键在于"恒等映射"属性,信号可以从浅层直接传递到深层,不经任何修改。 近期出现的Hyper-Connections(HC)试图打破这一格局。HC将残差流的宽度从C维扩展到n×C维 ...
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
量子位· 2026-01-01 18:32
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 2026年新年第一天, DeepSeek 上传新论文。 给何恺明2016成名作ResNet中提出的深度学习基础组件 "残差连接" 来了一场新时代的升级。 DeepSeek 梁文峰 亲自署名论文,共同一作为Zhenda Xie , Yixuan Wei, Huanqi Cao。 随着Transformer架构的崛起,这一范式已成为GPT、LLaMA等大语言模型的标准配置。 这个设计之所以成功,关键在于 "恒等映射" 属性,信号可以从浅层直接传递到深层,不经任何修改。 近期出现的 Hyper-Connections(HC) 试图打破这一格局。HC将残差流的宽度从C维扩展到n×C维,并引入三个可学习的映射矩阵来管理 信息流动。 DeepSeek团队的实验表明,在这三个映射中,负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升。 | ost | HPre | Hres | Absolute Loss Gap | | --- | --- | --- | --- | | 0.0 | - 0.022 | | | | - 0.025 | - 0.027 | | | ...