Seek .(SKLTY)
搜索文档
DeepSeek上新mHC,R2还远吗?
钛媒体APP· 2026-01-04 14:05
文章核心观点 - DeepSeek于2026年初发布名为mHC的新型神经网络架构优化方案,该方案旨在解决其前身Hyper-Connections在大模型训练中的稳定性与可扩展性问题,通过引入“流形约束”实现更稳定、快速且经济的训练,可能引发AI底层架构的连锁反应并对AI芯片生态产生影响 [1][5][9] mHC架构的技术原理与创新 - mHC架构建立在字节豆包团队2024年11月发布的Hyper-Connections基础上,核心创新在于引入Manifold-Constrained,通过Sinkhorn-Knopp算法将残差映射矩阵投影到“双随机矩阵”构成的Birkhoff多面体上,为信号传播加上稳定器,确保信号均值不变、总量守恒 [5] - 该方案旨在解决HC在大模型训练中因残差连接通道间交互导致的信号爆炸或消失、训练不稳定、可扩展性降低及成本升高的问题 [5] mHC架构的性能表现 - 在270亿参数级别的训练演示中,HC在训练至约1.2万步时信号放大倍数暴增至3000倍导致训练崩溃,而mHC在同等训练下信号放大倍数仅为1.6倍,全程平稳运行 [6] - 相较于传统架构,mHC训练时损失显著下降,在BBH数据集评测的困难任务推理能力和DROP数据集评测的阅读理解表现均提升2%以上 [6] - 在残差通道扩展4倍后,mHC的额外训练时间开销仅为6.7%,体现了高性价比和效率优先的特点 [8] - 实验证明mHC在大规模训练中表现稳定、性能优越且具备良好可扩展性 [8] 对AI行业与架构发展的潜在影响 - mHC被视为一种底层创新,可能引发AI领域的连锁反应,竞争对手可能着手开发类似架构 [9] - 在DeepSeek发布论文次日,普林斯顿和UCLA的研究团队即提出了名为Deep Delta Learning的架构,同样旨在更新ResNet基本架构 [9] - 接连涌现的新研究提升了业界对2026年大模型架构产生重大范式更新和迭代的期待 [10] - 相关研究成果预计会在DeepSeek后续的新模型(如备受期待的R2或通用模型V4)中有所体现 [10] 对AI芯片生态的影响 - mHC架构依赖FP32高精度计算格式,对内存带宽和高速互联带宽提出更高要求,尤需高端芯片支持 [11] - 目前该架构主要针对英伟达超节点链路设计,更适配英伟达生态,对国产芯片兼容性较弱 [11] - 若该架构规模化铺开,英伟达的生态短期内会得到优势强化,而国产芯片需着力强化编译层适配 [11] - 长期来看,供应mHC架构的AI芯片需要提升存储带宽并转向更精细化设计 [11] - 2025年英伟达等美国AI芯片淡出中国市场后,国产芯片替代加速,华为昇腾、摩尔线程等已宣布适配DeepSeek大模型,但其精度格式仍与英伟达有差距 [12] - 在国产芯片生态突围中,与DeepSeek等领先大模型的深度耦合被认为至关重要 [12] 公司背景与研究实力 - 论文作者署名多达19人,核心作者为解振达、韦毅轩、曹焕奇,前两者为清华大学高等研究院博士,DeepSeek创始人兼CEO梁文锋名字列于最后 [8] - 自2024年1月的LLM论文至今,DeepSeek在HuggingFace上共发布23篇重要论文,其中11篇有梁文锋署名,包括MoE、Coder、R1、V3等节点性重要成果 [8]
Manus季逸超评喜爱的大模型公司:千问扎实、Kimi有品位、DeepSeek有早期渊源
新浪财经· 2026-01-04 13:45
行业专家观点 - Manus联合创始人兼首席科学家季逸超在访谈中表示,其比较喜欢的三家大模型公司是千问、Deepseek和Kimi [1][2] 对Deepseek的评价 - 季逸超很早就与Deepseek有接触,因其之前的创业项目涉及从零搭建搜索引擎基础设施并拥有大型预训练数据集 [1][2] - 他最终选择将该数据集开源,而非单独出售给Deepseek [1][2] 对千问的评价 - 季逸超与千问团队的许多成员较为熟悉 [1][2] - 他认为千问做得非常扎实,并且是真正第一个采用非常宽松开源协议的模型,对此他表示非常尊敬 [1][2] - 千问让他看到了大厂中一群年轻人能够做出成绩的表现,他认为这非常难得 [1][2] 对Kimi的评价 - Kimi是真格基金投资的公司,季逸超本人也在真格基金,因此双方交流较多 [1][2] - 他认为Kimi是一家比较有品位的公司,并强调这一点很重要 [1][2]
AI周报|Meta斥资数十亿美元收购Manus;梁文锋署名DeepSeek新论文
第一财经· 2026-01-04 10:26
行业重大并购与投资 - Meta以数十亿美元价格收购智能体创业公司Manus 这是Meta史上第三大规模收购案 收购旨在增强其在AI应用层面的能力 [1] - 软银已完成对OpenAI总额400亿美元的投资承诺 最后一笔款项为220亿至225亿美元 该交易成为有史以来规模最大的私募融资之一 [2] - 软银为资助人工智能项目 已清仓英伟达股份套现58.3亿美元 资金将用于包括对OpenAI的投资及“星际之门”数据中心项目 [2] 大模型公司融资与上市动态 - 月之暗面近期完成5亿美元C轮融资且大幅超募 当前现金持有量超过100亿元人民币 资金将用于扩增显卡及加速K3模型研发 公司短期不急于上市 [4] - OpenAI正就7500亿美元新估值进行谈判 Anthropic洽谈新融资估值或超3000亿美元 SpaceX估值或达8000亿美元 三家公司均计划今年上市 合计估值近13万亿元人民币 [5][6] - MiniMax拟于2026年1月9日在港股上市 发行价区间为每股151至165港元 至多募资41.9亿港元 预计估值区间为461亿至504亿港元 [7] - 智谱AI计划于2026年1月8日在港挂牌 每股发行价116.20港元 募资规模近43亿港元 IPO市值预计超511亿港元 [7] AI芯片与硬件生态进展 - 百度旗下AI芯片子公司昆仑芯已正式以保密形式向港交所提交上市申请 拟于香港联交所主板独立上市 [8] - “港股GPU第一股”壁仞科技上市首日开盘报35.7港元/股 较发行价19.6港元上涨82.14% 盘中一度涨超118% 市值超900亿港元 此次全球发售净募资53.75亿港元 [9] - 英伟达正与联想集团联合打造基于RTX Pro的联想企业级AI系统 黄仁勋称其为“革命性的服务器” 预计两家公司的合作规模在未来两年内将扩大五倍 [12] - AMD CEO苏姿丰与英伟达CEO黄仁勋将同日于CES登台演讲 披露在AI领域的最新进展 [10][11] 技术研发与架构创新 - DeepSeek在新论文中提出名为mHC的新网络架构 旨在解决超连接架构在大规模训练中的不稳定性等问题 让模型训练更稳定、更容易做大 [3] - 黄仁勋表示人工智能正在从“生成式AI”向“代理式AI”演进 后者具备更强解决问题和基于事实推理的能力 未来应用将依赖于公有云大模型与私有定制化模型的深度融合 [12] 算力基础设施扩张 - 马斯克旗下xAI买下第三栋大楼 预计将使公司训练算力提升至近2吉瓦水平 计划将其改造成数据中心 [15] - xAI正在建设第二个设施Colossus2 计划配备55万块英伟达芯片 公司计划以2300亿美元估值筹集150亿美元以支持算力扩张 [15] 产品落地与场景探索 - 机器人公司智平方发布模块化具身智能服务空间“智魔方” 已在北京和深圳落地 计划未来三年在全国落地1000个 覆盖文商旅场景 [13] 公司内部管理与行业评论 - 前Meta首席AI科学家杨立昆批评Meta新任“超级智能实验室”负责人亚历山大·王“缺乏科研经验” 并透露Meta内部曾“篡改Llama 4测试结果”导致团队重组 [14] - Meta此前已投资140亿美元给Scale AI并将亚历山大·王“挖”过来掌舵超级智能实验室 以重振大模型研发 [14]
喜茶掉队、DeepSeek被它打败,2025年好品牌之争谁赢了
36氪· 2026-01-04 10:24
新茶饮 - 前四名格局未变,蜜雪冰城品牌指数100.00位居第一,瑞幸咖啡67.18第二,霸王茶姬54.97第三,星巴克46.15第四 [7][8] - 古茗以品牌指数33.64取代喜茶跻身Top5,2025年2月在港交所上市,截至2025年6月30日门店数达11179家,净利润16.25亿元,半年盈利超去年全年 [8][9] - 喜茶进入收缩期,截至2025年10月门店数较去年同期减少680家 [9] 快餐 - 海底捞品牌指数100.00稳居第一,肯德基76.81与麦当劳75.00今年互换位置,肯德基略占上风 [11] - 肯德基中国于2024年12月调价,单品上调0.5至2元,平均涨幅约2%,麦当劳于2025年12月部分餐品提价0.5至1元 [12] 零食 - 三只松鼠品牌指数100.00首次登顶,旺旺86.20第二,卫龙75.24第三,徐福记72.40第四,良品铺子64.46新上榜 [13][14] 瓶装水 - 农夫山泉品牌指数100.00重回第一,娃哈哈98.74第二 [15] - 2025年娃哈哈集团经历管理权、继承权及品牌归属的重大动荡,宗馥莉已卸任相关职务,但目前仍是大股东,持股比例29.4% [17] 饮料 - 可口可乐品牌指数100.00第一,东方树叶88.28第二,康师傅72.02第三,王老吉70.70第四,脉动55.01新上榜 [18][19] 乳制品 - 伊利品牌指数100.00第一,蒙牛94.77第二,特仑苏83.60第三,娃哈哈79.28第四,安慕希71.89新上榜 [20][21] 酒类 - 贵州茅台品牌指数100.00居榜首,五粮液97.58第二,青岛啤酒63.57第三,雪花44.59第四,泸州老窖43.69第五 [23] - 2025年款53度500ml飞天茅台价格跌破1499元/瓶的官方指导价,创下近年最大跌幅 [24] 个护家清 - 舒肤佳品牌指数100.00断层第一,力士55.03第二,强生54.23第三,凡士林44.31第四,六神43.39新上榜 [32][33] - 榜单更替加速,去年上榜的大宝和上海药皂今年跌出榜单,被六神和力士取代 [34][35] 护肤 - 珀莱雅品牌指数100.00挤下SK-II登顶,雅诗兰黛92.29第二,欧莱雅75.51第三,兰蔻67.81第四,大宝66.78新上榜 [36][37] 香水彩妆 - 榜单前五均为国际大牌,迪奥品牌指数100.00第一,阿玛尼80.07第二,兰蔻74.63第三,纪梵希58.48第四,香奈儿63.59第五 [39][40] - 美妆品类前五均发生变动,今年榜单中已无本土品牌身影 [41] 运动品牌 - 国产运动品牌安踏品牌指数100.00第一,李宁98.77第二,其中李宁从去年第四升至今年第一,阿迪达斯70.37重回榜单,耐克76.53第四 [43][44][45] - 安踏延续收购策略,收购德国户外品牌狼爪以加速国际化布局 [45] 长视频 - 抖音在长短视频之争中胜出,B站滑落至第二 [51] - 抖音日活用户早在2020年便已达到6亿,B站在2025年第三季度日活为1.17亿,但盈利能力增强,净利润已由去年同期亏损转为盈利 [55] - 短剧市场规模已超过全年电影票房收入,仍处于爆发式增长阶段 [55] 音乐 - 网易云音乐品牌指数100.00稳居品类第一,QQ音乐94.29第二,酷狗音乐62.97第三 [57] - 汽水音乐作为字节跳动于2022年推出的平台新上榜,承接抖音生态流量快速增长,2025年9月其月活跃用户数达1.2亿,同比增速超90%,已跻身行业前四 [58][59] 社交 - 微信品牌指数100.00稳居第一,抖音62.54新上榜位列第二,主打基于线上互动的“半熟人社交”,小红书53.66第三 [62][63][64][66] - 小红书因“TikTok难民”涌入迎来海外用户增长与产品破圈,七月其slogan升级为“你的生活兴趣社区”,被越来越多年轻人视为新一代搜索引擎 [67][68] 综合电商与本地生活 - 淘宝品牌指数100.00第一,京东99.10第二,拼多多83.50第三,天猫43.99第四,美团42.07新上榜 [70][71][72] - 传统电商面临增长瓶颈,京东、美团、淘宝加入“即时零售”争夺战,京东宣布进军外卖市场,三个月拿下2500万日订单,阿里将“小时达”升级为“淘宝闪购”高调补贴外卖 [73] - 仅二三季度,三家巨头累计烧钱超千亿元 [73] AI应用 - 字节跳动的豆包品牌指数100.00第一,DeepSeek 71.64第二,腾讯的元宝43.53第三,ChatGPT 43.37第四 [75][76][77][78][79] - 年初DeepSeek以极高性能和极低成本震撼全球业界,被视为开源AI重要里程碑 [80] - 据QuestMobile数据,截至12月中旬,豆包、DeepSeek、元宝位居AI原生App活跃用户榜单前三,周活跃用户分别为1.55亿、8156万、2084万 [80] - 阿里于11月宣布千问App正式公测上线,对所有用户免费开放,标志阿里全面进军C端市场 [80] 潮流玩具 - 名创优品品牌指数100.00第一,泡泡玛特93.27第二,乐高93.27第三 [86] - 2025年泡泡玛特现象级顶流Labubu持续爆火,助力其上半年营收达到138.8亿元,超越2024年全年业绩 [87] 家电 - 美的品牌指数100.00第一,海尔91.16第二,格力73.80第三,西门子51.78第四,小米89.92第五 [92] - 中国家电市场进入存量竞争深水区,美的多元业务齐发力,海尔通过高端化和本土化运营打造全球品牌矩阵,主营空调的格力面临一定转型压力 [93] 手机 - 华为品牌指数100.00第一,小米64.47第二,Apple 36.35第三,OPPO 36.26第四,VIVO新上榜 [94] - 华为鸿蒙5和鸿蒙6终端设备数突破3200万 [95] - iPhone 17系列国内激活量已破千万台,但完全依赖eSIM服务的Air系列销量惨淡 [95] - 国产手机在强“兼”苹果的路上越走越远,新机后缀纷纷改为Pro Max,甚至不惜数字跳代 [96] 电脑 - 联想品牌指数100.00第一,戴尔97.60第二,Apple 62.38第三,惠普59.12第四,华为57.57新上榜 [97] - 内存价格疯涨,数码设备涨价成板上钉钉,相比之下苹果的“金子内存”凸显出性价比 [98] 耳机 - 华为品牌指数100.00第一,小米89.02第二,索尼80.49第三,漫步者77.13第四,Apple 59.91第五 [99] - 耳机形态朝多元发展,骨传导式、耳夹式成为新选择 [100] 相机与无人机 - 佳能品牌指数100.00第一,富士88.63第二,索尼86.82第三,大疆59.36第四,尼康56.87第五 [101] 商超零售 - 胖东来品牌指数100.00第一,盒马鲜生69.53第二,山姆会员店59.98第三,大润发51.49第四,沃尔玛47.43第五 [105] - 胖东来仅凭河南十余家门店,2025年销售额已突破200亿元 [106] - 永辉效仿“胖东来模式”转型,在全国推行大规模门店调改 [106] - 盒马彻底关闭所有X会员店,专注扩张生鲜业态 [107] 商业地产 - 万达广场品牌指数100.00持续领先,华润万象生活68.43第二,吾悦广场36.03第三,奥特莱斯33.08新上榜,大悦城31.34第五 [108][109] 汽车 - 奔驰品牌指数100.00第一,宝马98.76第二,迈巴赫93.03第三,保时捷新上榜,奥迪81.34第五 [110][111] - 在乘用车领域,新能源车超越传统燃油车似已无悬念,但消费者心目中的好品牌榜首仍是传统豪华车企 [112] - 国产新能源汽车品牌此次均未上榜,但猛涨的销量不容小觑,外资车企正面临前所未有的生存压力 [113] 酒店 - 希尔顿酒店品牌指数100.00稳居第一,全季酒店74.53第二,维也纳酒店66.04第三,香格里拉酒店63.33新上榜,亚朵酒店62.99第五 [114][115] - 传统星级酒店热度不再,选择新型连锁酒店如全季、亚朵的人正越来越多 [116] 航空 - 中国南方航空品牌指数100.00第一,中国东方航空91.95第二,中国国际航空82.13第三,山东航空56.62第四,四川航空40.38第五 [117][118] 出行与旅游服务 - 高德地图品牌指数100.00突袭登顶,铁路12306 86.25第二,携程旅行80.10第三,滴滴出行77.83第四,美团74.60第五 [119][120] - 国庆节前,高德地图推出“高德扫街榜”,用真实导航数据挑战传统生活服务榜单 [121] 消费者行为洞察 - 调查显示,整体消费未发生特别明显变化,“基本相当”和“略有增加”的人群合计超过一半,“明显减少”与“明显增加”的比例差距仅为1个多百分点 [123] - 对品牌态度出现分化,一部分人更看重品牌、愿为信任付溢价,另一部分则弱化品牌只看产品和价格,两者比例几乎持平 [123] - 超过七成受访者将稳定的产品质量和使用体验视为首要原因,其次才是价格可接受、售后可靠和省心 [123] - 消费者决定“下头”的主要原因是产品和服务质量下滑、价格上涨过快,负面新闻或价值观争议的影响靠后 [123] - 当消费变得更谨慎,人们对品牌的期待变得更简单——不出错、靠得住、能陪伴更久 [124]
美媒称要向DeepSeek学习
新浪财经· 2026-01-03 08:40
核心观点 - 2025年“酷炫中国”形象在全球获得高频评价 其文化创意 科技创新与开放活力成为热议话题 [1] - 中国在人工智能和量子计算等前沿科技领域展现出强劲实力 挑战了美国的主导地位认知 [1] - 中国微短剧作为一种文化产品形式已成功走向全球 覆盖200多个国家和地区 并成为传播中国文化的有效载体 [1] 人工智能行业与公司表现 - 中国初创企业深度求索(DeepSeek)于2025年1月20日发布人工智能大模型R1 以更少算力实现与世界顶尖AI模型比肩的效果 引发全球学术界震动 [1] - DeepSeek的崛起被外媒视为颠覆了“美国在AI领域占据主导地位”的固有认知 [1] - 美国《巴伦周刊》评论称“不要打击DeepSeek 要向它学习” [1] - 中国人工智能企业获得的专利数量超过了其他国家 [1] 量子计算研究进展 - 在量子计算机领域 中国科学家每年发表的相关研究论文数量超过了其他国家 [1] 微短剧行业全球发展 - 2025年中国微短剧在全球蓬勃兴起 产品已覆盖全球200多个国家和地区 [1] - 微短剧以快节奏 强情节的内容 精准匹配全球网民碎片化娱乐需求 [1] - 东南亚地区因文化相近 成为中国微短剧的“核心粉丝区” [1] - 微短剧成为传播中国文化的天然载体 有印尼粉丝表示因看剧而对唐朝及古装产生兴趣 [1]
DeepSeek发布最新论文,破解大模型训练拥堵难题
贝壳财经· 2026-01-02 20:44
论文核心内容 - DeepSeek团队于2026年1月1日发布名为《mHC: Manifold-Constrained Hyper-Connections》的论文,提出一种名为“mHC”(流形约束超连接)的新框架 [1] - 该框架旨在改进此前大模型训练中的“HC(超连接)”范式,为大规模模型训练提供切实的性能改进 [1] - 论文以严谨的数学公式解释了mHC,其核心是给“多车道”增加一套智能调度系统(即“流形约束”),要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性 [4][5] - 论文通过配图直观展示了mHC方法相对于HC的训练损失差距,其中淡蓝色线为HC,蓝色线为mHC,证明了mHC的稳定性优势 [6] 技术背景与演进 - 论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级该范式提出的HC范式,是一次基础理论创新 [4] - 残差连接是AI模型训练的“生命线”,它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,解决了神经网络越大训练越困难的问题 [4] - 随着大模型参数突破千亿,这条“单车道”不够用,超连接范式把单车道扩建成多车道,显著提升了性能,但也导致了“堵车撞车”,使训练变得不稳定 [4] - 残差连接由何凯明等人于2015年在微软亚洲研究院提出,并因此获得CVPR 2016最佳论文奖,之后成为几乎所有主流大模型的“标配” [6][7] - 为解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队于2024年提出了HC范式,但带来了稳定性问题 [8] - DeepSeek的mHC工作是在何凯明团队和字节跳动工作的基础上进行的进一步优化 [6][8] 公司战略与影响 - DeepSeek创始人梁文锋的名字出现在论文署名作者的最后一位 [1][4] - 尽管公司因2025年春节开源R1模型而全球爆火,但在梁文锋带领下,公司极其低调,团队潜心学术,未做过多商业化尝试,一心扑在基础模型理论研发上 [1] - 梁文锋近期入选了《自然》2025年影响科学发展十大人物 [1] - 在2026年第一天,当诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了其在基础模型领域的战略定力 [9] - 在论文文末,DeepSeek团队写道:“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。” [9]
DeepSeek又放大招!梁文锋署名新论文引关注
21世纪经济报道· 2026-01-02 19:12
核心观点 - DeepSeek发布名为“流形约束超连接”(mHC)的新AI架构框架,旨在解决传统超连接在大规模训练中的不稳定性问题,提升可扩展性并降低算力与能源需求,其下一代旗舰系统R2预计在2月春节前后问世 [1][14][15] - 公司近期在技术研发、模型发布及学术认可方面动作频繁,展现出强劲的创新势头和行业影响力 [6][21] 技术突破:mHC新架构 - 新提出的mHC框架旨在解决传统超连接(HC)因连接模式多样化而导致的训练不稳定性、受限可扩展性及显著内存访问开销问题 [3][16][19] - mHC通过将HC的残差连接空间投影到特定流形上,以恢复恒等映射特性,并融合基础设施优化以确保运行效率 [3][19] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率?=4时,仅带来**6.7%**的额外时间开销 [3][19] - 实证表明,mHC能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [5][21] 近期重要动态与产品发布 - **2025年12月8日**:创始人梁文锋入选英国《自然》杂志2025年度十大科学人物,其公司发布的低成本R1推理模型被《自然》认为证明美国在AI领域并非遥遥领先 [7][22][23] - **2025年12月1日**:发布两个正式版模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,前者强化Agent能力并已更新至官方各平台,后者以临时API形式开放供社区评测 [8][24] - **2025年11月27日**:推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的训练框架,通过LLM验证器自动审查数学证明 [9][25] - **2025年10月20日**:开源DeepSeek-OCR模型,提出利用视觉模态压缩长文本上下文的新方法,可在单块A100-40G显卡上每天生成超过**20万页**训练数据 [10][26] - **2025年9月29日**:发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算消耗并提升推理效率,同时全面下调API价格,降幅在**50%到75%**不等 [11][12][27][28][29] - **2025年9月17日**:DeepSeek-R1推理模型研究论文登上《自然》期刊封面,该模型使用强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性 [13][30]
DeepSeek发布新论文提出更为高效的AI开发方法
新浪财经· 2026-01-02 18:13
公司动态 - DeepSeek近日发布论文,阐述了一种更为高效的人工智能开发方法 [1] - 该论文由创始人梁文锋参与撰写,提出了名为“流形约束超连接”(mHC)的框架 [1] - 该框架旨在提升可扩展性,同时降低训练先进人工智能系统的算力和能源需求 [1] - DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世 [1]
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
新浪财经· 2026-01-02 13:27
文章核心观点 - DeepSeek发布论文《mHC: Manifold-Constrained Hyper-Connections》,提出对Transformer架构最基础的残差连接组件进行重要改进,这是该领域十年来的一次根本性创新 [1] - mHC旨在解决其前身技术Hyper-Connections带来的训练不稳定问题,通过引入数学约束(双随机矩阵)为连接权重加上“数学护栏”,在保持性能提升的同时确保训练稳定 [5][10] - 这项创新不仅是算法突破,更展示了DeepSeek将复杂数学方案高效落地到大规模训练系统中的顶尖工程能力,是其核心竞争优势的体现 [15][16] 技术演进背景 - 残差连接由何恺明等人于2015年提出,其核心公式y = x + F(x)解决了深度神经网络的梯度消失问题,使训练成百上千层的网络成为可能,并因此获得CVPR 2016最佳论文奖 [3] - 自2017年Transformer问世以来,残差连接成为几乎所有主流大模型(如GPT、Claude、Llama、DeepSeek)的架构标配 [3] - 2024年9月,字节跳动提出Hyper-Connections,将单一残差流扩展为多流并行架构,实验显示能显著提升模型性能,在MoE模型上实现1.8倍的收敛加速,但带来了训练不稳定的新问题 [5] - 从ResNet到Hyper-Connections再到mHC,这是一场跨越十年的技术接力演进 [5] mHC的技术原理与创新 - mHC的核心创新是将连接权重矩阵约束在“双随机矩阵”的数学空间内,该矩阵所有元素非负,且每行、每列元素之和均为1 [10] - 此约束的数学效果是使输出信号成为输入各分量的“凸组合”(加权平均),确保结果不会超过输入最大值,从而防止信号在多层传播中被无限放大,保证了能量守恒 [10] - 双随机矩阵的谱范数恒小于等于1,这意味着对应的线性变换是“非扩张的”,无论前向还是反向传播,信号都不会被无限放大 [10] - 具体实现采用Sinkhorn-Knopp算法,通过交替进行行归一化和列归一化迭代生成双随机矩阵,论文表明仅需3次迭代即可达到足够精度,且整个过程可微分,支持端到端训练 [11] - 该方案未引入新超参数,也未改变模型表达能力,只是为权重矩阵增加了可证明的安全边界 [12] 实验效果与影响范围 - 实验结果显示,在7B规模的Dense模型训练中,采用mHC的模型全程未出现任何Loss尖峰 [12] - 在MoE模型上,mHC实现了与Hyper-Connections相近的约1.8倍收敛速度提升 [12] - 这是一个“富人的问题”,训练不稳定问题仅在训练超大规模模型(例如270亿参数以上)时才会显现,对DeepSeek等前沿实验室是必须解决的工程难题,普通研究者可能不会遇到 [10] 工程实现与公司能力 - 为了让理论上完美的数学方案落地,DeepSeek未调用现成库,而是直接手写底层CUDA内核代码,利用算子融合技术将复杂计算塞进毫秒级的训练循环中 [16] - 公司采用了激进的“选择性重计算”策略,并在多卡训练中开辟专用计算流来掩盖通信延迟 [16] - 这种将算法灵感稳定、高效地落地到整个算力体系(包括重写内核、内存管理、节点通信)的工程能力,被认为是前沿实验室的标志,也是DeepSeek的最大优势 [16] - 业内评价认为,这篇论文表面是架构论文,实际上是DeepSeek“秀肌肉”的硬核工程论文 [15] 战略意义与发展脉络 - mHC符合DeepSeek近两年的发展主线:在有限资源下,通过架构创新最大化效率,用数学约束解决工程问题,用架构创新突破资源瓶颈 [14] - 根据DeepSeek研究员与Kimi研究员的交流,hyper-connections(mHC的技术根基)被认为是2025年最值得关注的两大架构创新之一,这意味着mHC可能只是公司在这条技术路线上的第一步 [14] - 如果mHC被整合进下一代模型,结合此前的一系列技术和工程创新,可能会催生一个在效率、性能和稳定性上全面升级的新架构 [15] - DeepSeek创始人梁文锋出现在论文的19位作者名单中,显示了公司高层对该技术创新的直接参与和重视 [1]
四大热点齐发:茅台直销战略落地、巴菲特退休、GPU四小龙集结上市、DeepSeek再释信号
金融界· 2026-01-02 08:17
贵州茅台直销战略落地 - 贵州茅台正式在官方直销平台“i茅台”发售飞天茅台,定价为每瓶1499元,单用户单日限购12瓶 [2] - 此举标志着公司直销战略迈出关键一步,通过削减中间环节,有望将部分经销商利润转化为公司直接收益,对中长期业绩形成正向支撑 [2] - 市场反应极为热烈,平台分六轮投放均迅速售罄,反映出终端市场对平价飞天茅台的强烈需求,此次直销放量或为经历阶段性调整的白酒行业情绪带来一定提振 [2] 投资传奇巴菲特退休 - 现年95岁的投资界传奇人物沃伦·巴菲特宣布退休,其长达数十年的价值投资生涯画上句号 [3] - 他的职业生涯印证了投资可作为一项终身事业,引发了市场对长期投资理念的再度审视 [3] - 巴菲特强调聚焦优质资产、长期持有的重要性,在当下高频交易与量化策略盛行的环境中,这一经典理念仍具启示意义,尽管执行难度有所上升 [3] 国产GPU企业加速资本化 - 继摩尔线程、沐曦集成电路登陆科创板,壁仞科技冲刺港交所之后,燧原科技近日已完成IPO辅导备案,即将递交上市申请 [4] - 这意味着国产GPU领域四大头部企业在半年内相继启动上市进程,行业资本化速度空前 [4] - 与此同时,商业航天企业蓝箭航天也已完成IPO辅导,人形机器人公司宇树科技等多领域科技企业亦在推进上市,预计2026年前后科技板块将迎来密集上市潮 [4] DeepSeek发布最新研究成果 - 深度求索公司(DeepSeek)在预印本平台发布最新研究论文,公司创始人梁文锋位列作者之一 [5] - 此前其模型DeepSeek-R1于春节期间发布并引发市场高度关注,此次选择在元旦期间公开论文,彰显其技术推进的战略性 [5] - 尽管近期市场对AI技术迭代节奏存在不同声音,但DeepSeek持续输出重要研究成果,仍显示出较强技术实力 [5]