mHC架构
搜索文档
软件ETF(515230)收涨超0.7%,技术架构革新或重塑行业逻辑
每日经济新闻· 2026-01-08 16:31
软件ETF市场表现 - 1月8日,软件ETF(515230)收涨超0.7% [1] mHC架构的核心观点与影响 - mHC架构有望带来AI芯片设计新范式,通过流形约束与工程优化的结合,为解决算力与带宽的错配问题提供了全新思路 [1] - 该架构倡导“软件主动适配硬件瓶颈”的逻辑,推动行业向“效率优先”的软硬件协同方向演进 [1] - mHC通过内核融合、选择性重计算等优化,大幅降低对带宽需求,使芯片设计不必一味追求高带宽显存 [1] - mHC的流形约束逻辑可能推动芯片专用计算单元创新,打破当前AI芯片“通用计算单元”的垄断格局,推动芯片向“通用+专用”的异构架构演进 [1] - DeepSeek发布的mHC架构在大规模模型训练中表现稳定、性能优越,具备良好的可扩展性,且具有高性价比和高效率 [1] - mHC或为下一代基础架构指明演进方向,深化对拓扑结构如何影响优化与表征学习的理解 [1] 软件ETF及指数概况 - 软件ETF(515230)跟踪的是软件指数(H30202) [1] - 该指数从市场中选取涉及软件开发、服务及相关技术领域的上市公司证券作为指数样本,以反映软件行业相关上市公司证券的整体表现 [1] - 软件指数主要聚焦信息技术领域,具有显著的高成长性和创新性特征 [1]
新年首炸!DeepSeek提出mHC架构破解大模型训练难题
搜狐财经· 2026-01-07 17:13
文章核心观点 - DeepSeek在新年第一天发布了一篇关于mHC新架构的论文 该架构旨在解决大规模模型训练中的稳定性问题 同时保持性能提升的优势 论文在AI技术圈引发了讨论[1] - mHC架构通过引入智能调度系统等设计 平衡了性能、稳定性和成本三大核心要素 为大模型架构演进提供了新思路 其务实的技术创新对行业具有重要价值[29] 大模型训练的核心痛点与现有方案局限 - 大模型训练面临信息传输拥堵的挑战 早期单通道残差连接(传送带)在模型规模增大后效率不足[3] - 字节跳动团队此前提出的超连接方案将单通道改为多通道 提升了信息传输效率和模型性能 但缺乏统一调度规则 导致信息在传输中出现不受控的放大或压制[5] - 超连接方案的不稳定性直接导致训练过程中梯度爆炸 使模型训练中途崩溃[7] - 有头部AI企业尝试用类似方案训练千亿级模型时 训练在进行到一万多步时频繁中断 损失值突然飙升 造成大量算力和资金投入的浪费[9] mHC架构的核心设计思路 - mHC架构的核心思路不是废除多通道 而是为多通道增加一套智能调度系统[11] - 该系统通过Sinkhorn-Knopp算法实现 将连接矩阵约束在双拟随机矩阵的流形上 该矩阵行和列之和均为1且为非负数 能保证信息传播时能量守恒 避免突然放大或缩小[13] - 架构还对输入输出映射施加了非负约束 以避免正负系数相互抵消导致有用信号丢失[15] - mHC是在超连接拓宽通道思路基础上的优化 属于改良式创新 更容易落地[15] 基础设施与训练优化 - 为控制训练开销 DeepSeek进行了基础设施优化 将多个计算步骤融合成一个算子 减少了内存读写次数[16] - 同时采用重计算策略 在前向传播时丢弃中间数据 在反向传播时重新计算 从而大幅降低内存占用[18] - 优化效果显著 在扩展倍率为4的情况下 训练时间只略有增加 却换来了稳定性的大幅提升[18] 实验验证与性能表现 - DeepSeek使用不同规模模型进行测试 重点验证了270亿参数模型的表现[21] - mHC彻底解决了超连接的训练不稳定问题 其最终损失值低于传统基线模型[22] - 在下游任务测试中 mHC的表现全面超越基线模型 在推理相关任务上 比超连接方案还有几个百分点的提升[22] - 从30亿到270亿参数的规模扩展实验中 mHC的性能优势保持良好 即使训练数据量不断增加 优势也未明显衰减 证明其在大规模模型上同样具备实用价值[24] 对行业的影响与意义 - mHC的意义在于指明了一个行业方向 即大模型竞争不再仅仅是堆参数和算力 架构的精细化设计同样重要[26] - 此前 许多中小企业因训练不稳定和成本过高而不敢涉足大规模模型领域 mHC的出现有望降低这些企业的入局门槛[26] - 这种务实的技术创新比噱头式突破更有价值 未来随着更多企业跟进和优化 可能催生出更多高效稳定的大模型架构 推动AI技术更容易落地[29]
20cm速递|创业板人工智能ETF国泰(159388)盘中走强,mHC架构或重塑AI芯片设计逻辑
每日经济新闻· 2026-01-07 13:26
mHC架构的技术创新与行业影响 - 核心观点:mHC架构有望带来AI芯片设计新范式,通过流形约束与工程优化结合,为解决算力与带宽错配问题提供全新思路,并可能推动行业向“效率优先”的软硬件协同方向演进 [1] - mHC架构倡导“软件主动适配硬件瓶颈”的逻辑,大幅降低对高带宽HBM显存的依赖 [1] - 通过内核融合、选择性重计算等优化技术,mHC架构显著降低了对芯片带宽的需求 [1] - 该架构的流形约束逻辑可能推动芯片专用计算单元创新,打破当前“通用计算单元”的垄断格局,推动芯片向“通用+专用”的异构架构演进 [1] - DeepSeek发布的mHC架构在大规模模型训练中表现稳定、性能优越,具备良好的可扩展性和高性价比,或为下一代基础架构指明方向 [1] - mHC框架有望重新激发学界对宏观架构设计的兴趣,深化对拓扑结构如何影响优化与表征学习的理解 [1] 相关金融产品信息 - 创业板人工智能ETF国泰(159388)跟踪创业板人工智能指数(970070),单日涨跌幅限制达20% [1] - 该指数从创业板市场中选取涉及人工智能技术及相关应用领域的上市公司证券作为样本 [1] - 指数覆盖从硬件制造到软件开发等多个环节,以反映创业板市场内人工智能相关上市公司证券的整体表现,具有突出的科技创新和成长性特征 [1]
计算机ETF(512720)连续2日净流入超1亿元,技术架构革新或成行业新动能
每日经济新闻· 2026-01-07 12:18
mHC架构的技术特点与行业影响 - 核心观点:mHC架构有望带来AI芯片设计新范式,为解决算力与带宽错配问题提供新思路,并可能推动行业向效率优先的软硬件协同及异构架构方向演进 [1] - mHC架构通过倡导“软件主动适配硬件瓶颈”的逻辑,推动行业向“效率优先”的软硬件协同方向演进 [1] - 该架构通过内核融合、选择性重计算等优化,大幅降低对带宽需求,使芯片设计不必一味追求高带宽显存 [1] - mHC的流形约束逻辑可能推动芯片专用计算单元创新,打破当前AI芯片“通用计算单元”垄断格局,推动芯片向“通用+专用”的异构架构演进 [1] mHC架构的应用表现与发展潜力 - DeepSeek发布的mHC架构在大规模模型训练中表现稳定,性能优越,具备良好的可扩展性 [1] - 该架构具有高性价比和高效率,或为下一代基础架构指明演进方向 [1] - 该框架有望重新激发学界对宏观架构设计的兴趣,深化对拓扑结构如何影响优化与表征学习的理解,突破当前限制 [1] 计算机ETF及其跟踪指数概况 - 计算机ETF(512720)跟踪的是CS计算机指数(930651) [2] - CS计算机指数从沪深市场中选取涉及软件开发、IT服务、硬件制造等业务的上市公司证券作为指数样本,以反映计算机行业相关上市公司证券的整体表现 [2] - 该指数聚焦于信息技术领域,成分股具有较高的成长性和技术创新能力,能够较好地代表中国计算机行业的发展趋势 [2]
假期 AI 利好频出,关注国内 AI 应用表现
长江证券· 2026-01-06 08:43
行业投资评级 - 投资评级为“看好”,并维持此评级 [8] 报告核心观点 - 元旦假期前后,国内AI产业利好频出,产业端的积极变化预示2026年或将成为AI产业从技术突破向规模化落地转型的关键年份,我国AI产业有望迎来发展机遇期 [2][4] - 建议关注四大方向:1)国内大模型厂商;2)国内大型云厂商;3)垂类场景Agent厂商;4)国产算力产业链 [2][6] 事件评论总结 - **智谱与MiniMax港股上市**:中国两家大模型企业智谱华章、MiniMax于2025年末正式启动港股招股,分别将于2026年1月8日及1月9日登陆港股,标志着中国大模型行业从“百模大战”迈入“应用热”与“价值验证”的关键阶段,资源或将向头部厂商集中 [6] - **Meta收购Manus**:2025年12月29日,Meta宣布收购Manus,这笔价值数十亿美元的收购是Meta成立以来的第三大交易,Manus今年年度经常性收入已达1.25亿美元,其平台已累计处理超147万亿个token,并构建了超8000万台虚拟计算机,此次收购有望弥补Meta在智能体(Agentic AI)领域的短板,加速AI从技术走向实用 [10] - **DeepSeek发布mHC架构**:1月1日,DeepSeek提出名为mHC(流形约束超连接)的新架构,实验数据显示,在270亿参数训练中,相比传统HC架构信号放大倍数飙升至3000倍,mHC仅产生1.6倍温和波动,在BBH推理与DROP阅读理解任务中准确率均提升超2个百分点,且在残差通道扩展4倍时额外时间开销仅6.7%,这类底层技术创新或预示着大模型架构范式进入更新迭代的关键时点 [10]
DeepSeek新年炸场!梁文锋署名论文发布
第一财经· 2026-01-01 22:49
DeepSeek发布mHC新网络架构论文 - 公司在新论文中提出名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题[3] - 该研究或将为下一代基础架构的演进指明新方向[3] mHC架构的技术原理与优势 - 传统超连接(HC)架构通过拓宽神经网络的“信息传输通道”提升模型性能,但导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题[7] - mHC架构为超连接的“信息通道”增加“交通规则”,在保留性能优势的同时,恢复了信息原样传递的特性,使模型训练更稳定、更容易做大[7] - 通俗比喻:mHC相当于给加宽的水管(超连接)增加了“智能调节阀”,能确保信息水流的稳定,运行时更省资源[7] 研究的行业意义与影响 - mHC或能让企业在训练更大规模基础模型时,减少硬件投入、缩短训练周期,降低大模型研发门槛,使算力有限的中小AI企业也能尝试开发更复杂的大模型[8] - 训练稳定性和可扩展性的提升,能让大模型在更复杂的场景落地,例如需要超大规模参数的多模态模型、工业级的智能决策系统[8] - 有行业人士评价认为,此次创新针对Transformer最基础的问题,是底层创新,结合此前积累,预测公司有望在V4版本中做出重大更新[8] 公司的近期动态 - 自2025年初引发广泛关注以来,公司虽未正式推出R2或V4等重大版本,但在模型迭代与开源上持续发力[9] - 仅12月就同步推出了DeepSeek-V3.2与V3.2-Special,11月底开源了数学推理模型DeepSeek-Math-V2,该模型成为目前首个达到国际奥数金牌水平并开放使用的数学模型[9]
DeepSeek提出全新mHC架构;安克创新回应“裁员30%”;特斯拉鸿蒙版App开启尝鲜...
搜狐财经· 2026-01-01 21:18
人工智能与科技 - DeepSeek发布全新mHC架构论文,创始人兼CEO梁文锋位列作者名单[1] - 苹果更新“过时产品”名单,iPhone 11 Pro、Apple Watch Series 5及最后一款Intel芯片MacBook Air被列入[8] - 集邦咨询称三星铁腕执行DDR4停产计划,可能导致DDR4内存价格在2026年继续大幅上涨[14] 消费电子与智能硬件 - 小米REDMI Note 15系列新春版开售,起售价为999元[6] - 华为发布智慧屏V6,提供75/85/98英寸,国补价7999元至14999元,并赠送灵犀手写笔[7] 新能源汽车行业 - 特斯拉Tesla鸿蒙版App在华为应用市场开启测试尝鲜,支持远程车控、手机钥匙等多种功能[3] - 问界汽车12月新车交付超57000台,再创单月交付新高,2025年全年新车交付超42万台[9] - 理想汽车累计交付量突破150万辆,达1,540,215辆,成为国内首个达成此成绩的新势力品牌[12] - 理想汽车计划重点调整30万至40万元价格段增程产品,通过精简SKU提升效率,纯电i8序列将持续迭代[10] - 鸿蒙智行享界系列达成2025年全年挑战目标,产品总监透露2026年将推出更丰富且不同于市面已有产品的新品[13] - 华为乾崑智驾ADS高阶功能包限时优惠,ADS 4 Max / 3 Pro版本一次性购买价格为3.2万元[7] 汽车销售与促销 - 小米宣布YU7全系可享“3年0息”限时优惠,11月前锁单未交订单可在购置税补贴和3年0息福利中二选一[5] 企业动态与战略 - 安克创新回应“裁员30%”传闻,称是基于战略升级和效率提升的正常人员调整,网传比例严重不属实[2] 文娱产业 - 2026年元旦档新片总票房突破2亿,《匿杀》《寻秦记》《用武之地》暂列票房榜前三[11]
DeepSeek,最新发布!
证券时报· 2026-01-01 18:53
DeepSeek发布新论文mHC - 公司发布新论文,提出名为“流形约束超连接”的新架构mHC,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接等研究通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式多样化削弱了恒等映射特性,导致训练不稳定、可扩展性受限及显著内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性 [3] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 作为超连接范式的广义拓展,mHC为未来研究开辟了多个重要方向,包括兼容针对特定学习目标设计的多种流形约束探索,以及对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法 [7] - 公司希望mHC能重新激发学界对宏观架构设计的关注,通过深化对拓扑结构如何影响优化与表征学习的理解,有助于突破现有局限,并可能为下一代基础架构的演进指明新路径 [7] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [8] - DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景 [8] - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [8] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [8] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力 [8] - 在主流推理基准测试上,DeepSeek-V3.2-Speciale的性能表现媲美Gemini-3.0-Pro [8] - 2025年9月29日,公司正式发布DeepSeek-V3.2-Exp模型,作为迈向新一代架构的中间步骤 [9] - V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention,针对长文本的训练和推理效率进行了探索性的优化和验证 [9] - 同时API大幅度降价,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [9] DeepSeek学术成就与国际认可 - 2025年9月17日,在最新一期的国际权威期刊Nature中,DeepSeek-R1推理模型研究论文登上了封面 [9] - 该论文由公司团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果 [9] - 这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可 [9] - Nature在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。” [10]