大模型训练
搜索文档
港股异动 | 粤港湾控股(01396)现涨超4% 旗下天顿数据近期获福田国资重磅战略性投资
智通财经网· 2026-02-04 11:45
公司股价与市场反应 - 粤港湾控股股价上涨,截至发稿涨3.82%,报6.8港元,成交额1060.23万港元 [1] 公司融资计划 - 公司拟折让约8.40%发行2031.1万股认购股份,净筹约1.216亿港元 [1] - 所筹资金约90%拟用于潜在AI算力云服务项目,约10%拟用于日常运营费用 [1] 战略投资与业务布局 - 深圳市福田区国资委旗下福田资本的子公司以增资形式入股公司旗下天顿数据的项目公司,投资额达8亿元人民币,获得40%股权 [1] - 该笔资金将专项用于天顿数据在粤港澳大湾区的算力网络布局 [1] - 天顿数据是中国第一梯队智算建设运营商之一,具备投建运营高性能算力万卡集群的稀缺能力和实践经验,可满足千亿参数级大模型训练需求 [1]
SuperX首个全球供应中心正式投产 斩获首批9.1亿美元AI服务器订单
全景网· 2026-01-30 20:39
公司里程碑与产能扩张 - 公司位于日本三重县津市的首个全球供应中心正式投产运营,标志着公司从工程筹备阶段迈入规模化商业生产的新发展阶段 [1] - 该供应中心AI服务器年产能达2万台,可充分满足当前全球市场的交付需求,并预留了充足的扩容空间以应对未来订单增长 [1][3] 供应链与制造战略 - 新供应中心聚焦三大核心目标:依托日本工业体系严控制造品质、保障年产能2万台的生产规模、利用区位优势打造承担系统集成与全球物流职能的出口枢纽 [3] - 该中心旨在通过简化并优化产品交付流程,提升全球客户订单响应效率 [3] 产品与技术布局 - 公司已通过战略合作形成完整的“算力+散热+供电”三位一体技术架构,完成了全栈布局 [4] - 具体合作包括:2025年9月与中恒电气合资成立SuperX Digital Power以解决高功率GPU集群供电瓶颈;2025年10月与澄天伟业合资成立SuperX Cooltech专注于AI液冷散热系统 [4] - 公司推出模块化AI工厂解决方案,通过预制化和深度集成满足快速部署需求 [6] - 2025年10月,公司发布机架级AI超级算力平台SuperX GB300NVL72,在单机架内实现1.8 exaFLOPS的FP4算力 [6] - 同期推出的XN9160-B300AI服务器搭载英伟达Blackwell B300 GPU,算力与显存容量均比前代提升50% [6] 市场订单与需求前景 - 2026年1月,公司已斩获合计约9.1亿美元的AI服务器采购订单 [5] - 同期,公司与多家国际客户签署合作备忘录,计划在未来12个月内采购总计5,000台AI服务器,按当前市场定价测算,该笔订单金额最高可达21亿美元 [5] - 研究机构TrendForce预计,到2026年全球AI服务器出货量将实现28.3%的同比增长 [5] - Synergy Research Group预测,超大规模数据中心总容量再次翻倍的时间将不足四年,每年将有130到140个新的超大规模数据中心投入使用 [5] 全球化服务与公司愿景 - 公司同步推出标准化技术服务体系,通过全球支持中心提供7×24小时全天候响应、专家级技术咨询及端到端全流程服务 [8] - 针对日本市场,公司结合全球技术团队与本地备件网络,推出定制化项目实施服务及基于SLA的分级现场维护方案 [8] - 公司董事长兼首席执行官表示,日本供应中心使公司能够自主掌控生产标准,为全球客户交付可靠的全栈AI解决方案 [8]
分拆自威胜控股,数字能源公司惟远能源赴港IPO,募资发力AI数据中心与全球化
搜狐财经· 2026-01-28 18:40
公司上市与业务概况 - 惟远能源技术股份有限公司已正式向香港联交所递交上市申请,公司系分拆自港股上市公司威胜控股,独家保荐人为中金公司 [1] - 公司成立于2013年,前身为威胜电气有限公司,核心目标是推动数字技术与能源行业的融合,为数据中心、智能配电网和新型储能场景提供综合解决方案 [2] 业务板块与收入结构 - 公司业务聚焦三大核心板块:智能配电网、数据中心、新型储能相关业务 [2] - 智能配电网板块长期为公司贡献主要收入,2025年前九个月收入占比62.9%,是业务基本盘 [2] - 数据中心业务成为增长引擎,收入占比从2023年的8.4%跃升至2025年前九个月的22.1% [2] - 新型储能相关业务收入占比有所下滑,2025年前九个月为15.0% [2][3] 财务表现 - 公司营收持续增长,2023年、2024年及2025年前九个月分别实现收入24.85亿元、29.03亿元及19.67亿元 [3] - 2023年、2024年及2025年前九个月分别实现净利润1.05亿元、2.00亿元及1.81亿元,净利润率从4.2%提升至9.2% [6] - 毛利率稳步提升,从2023年的23.5%提升至2024年的26.5%,2025年前九个月为26.4% [4] - 净资产收益率显著改善,从2023年的8.3%提升至2024年的13.0%,2025年前九个月为10.5% [4] 行业背景与增长动力 - 受人工智能、大模型训练、云计算及数据中心等新增负载快速增长的推动,全球数据中心关键数字基础设施市场持续扩张 [5] - 全球数据中心关键数字基础设施行业的市场规模由2020年的约256亿美元增至2024年的约395亿美元,复合年增长率为11.5% [5] - 预计市场规模到2029年将达到约900亿美元,2024年至2029年的复合年增长率为17.9% [5] - 数据中心业务或将成为公司“第二增长曲线” [5] 客户与市场地位 - 公司客户涵盖国有和私营电力公司、数据中心运营商、发电公司及大型工商企业,国家电网、南方电网均为其核心客户 [9] - 在国家电网2025年配电网设备采购中,公司开关柜类产品中标金额排名第七;在中国南方电网2024年及2025年采购中,分别排名第六及第八 [9] 全球化战略与布局 - 公司2022年启动全球化战略,已在马来西亚、澳大利亚、巴西、土耳其及墨西哥设立销售与服务中心 [9] - 2025年10月,公司收购墨西哥智能配电网设备及变压器制造商,以增强海外生产能力 [9] - 2024年海外收入占比达14.4%,2025年前九个月亚洲(中国内地除外)市场收入占比进一步提升至11.9% [9] 募资用途 - 公司计划将本次IPO募资净额用于四大方向:在华东建设新的生产运营中心并对总部生产基地进行数字化升级;提升研发及产品迭代能力;扩展全球营销网络及完善售后服务基础设施;用作营运资金或一般公司用途 [9]
新股消息 | 数字能源解决方案提供商惟远能源递表港交所 聚焦于智能配电网、数据中心及新型储能领域
智通财经· 2026-01-27 17:33
公司上市申请与业务概览 - 惟远能源技术股份有限公司于2025年1月27日向港交所主板递交上市申请书,中金公司为独家保荐人 [1] - 公司是一家深耕中国并拓展全球业务的数字能源解决方案提供商,业务聚焦于智能配电网、数据中心及新型储能三大核心领域 [1][5] - 在智能配电网领域,公司提供智能开关设备、高效变压器及智能配电解决方案 [5] - 在数据中心领域,公司提供配电方舱及模块、IT方舱及撬块、配电设备以及HVDC高压直流供电系统等产品 [5] - 在新型储能相关领域,公司提供新型储能系统、光储微电网及充换电解决方案 [5] - 产品和解决方案应用于IDC、AIDC、电网、发电、公用事业以及工业及商业设施等多种场景 [5] 客户与市场布局 - 客户群多元化,主要包括国有和私营电力公司、数据中心运营商或托管服务供应商、发电公司及大型工商企业 [5] - 客户采购产品既可自用,也可集成到更广泛的基础设施或能源项目中 [5] - 公司在全球范围内建立了销售网络,在马来西亚、澳大利亚、巴西、土耳其及墨西哥设立销售与服务中心 [5] - 墨西哥的运营中心为全球化拓展提供支撑,大幅增强了海外运营和服务能力 [5] 供应链与原材料 - 主要原材料包括大宗材料(如铜)、结构材料(主要为钣金)及功能材料(包括电气元件) [6] - 主要在中国境内采购原材料,根据产品质量、定价竞争力、合约可靠性、声誉和运营规模等标准选择供应商 [6] 财务表现 - 2023年、2024年及2025年前九个月收入分别约为人民币24.85亿元、29.03亿元及19.67亿元 [8][9] - 2023年、2024年及2025年前九个月年度/期间利润分别约为人民币1.05亿元、2.00亿元及1.81亿元 [8][10] - 2023年、2024年及2025年前九个月毛利率分别为23.5%、26.5%及26.4% [8][11][12] - 2024年毛利率较2023年提升3.0个百分点,2025年前九个月毛利率保持稳定 [8][12] - 2024年税前利润为人民币2.24亿元,利润率为7.7%,较2023年的4.3%显著提升 [8] - 2025年前九个月税前利润为人民币2.11亿元,利润率进一步提升至10.7% [8] 分业务毛利率 - 智能配电网业务:2023年、2024年及2025年前九个月毛利率分别为27.6%、27.9%及28.0%,表现稳定 [11] - 数据中心业务:2023年、2024年及2025年前九个月毛利率分别为21.8%、21.9%及25.8%,2025年前九个月显著提升 [11] - 新型储能相关业务:2023年、2024年及2025年前九个月毛利率分别为16.4%、24.4%及20.5%,存在波动 [11] 行业前景 - 全球数据中心关键数字基础设施市场规模从2020年的约256亿美元增至2024年的约395亿美元,复合年增长率为11.5% [13] - 预计该市场规模到2029年将达到约900亿美元,2024年至2029年复合年增长率为17.9% [13] - 中国智能配电设备行业预计到2029年市场规模将达到约人民币2,471亿元,2024年至2029年复合年增长率约为18.4% [14][16] - 国家电网公告“十五五”期间其固定资产投资预计将达到约人民币4.0万亿元,较“十四五”期间增加约40% [14] - 全球新型储能累计装机容量从2020年的18.6吉瓦增长至2024年的170.0吉瓦,复合年增长率约为73.9% [17] - 预计全球新型储能累计装机容量到2029年将超过789.0吉瓦,2024年至2029年复合年增长率约为35.9% [17] 公司治理与股权架构 - 董事会由七名董事组成,包括三名执行董事、一名非执行董事及三名独立非执行董事 [18] - 执行董事、董事会主席曹朝辉女士(57岁)负责集团整体战略规划、企业治理、财务及重大运营决策 [21] - 执行董事、总裁冯喜军先生(58岁)负责集团智能配电网业务的日常营运及研发 [21] - 执行董事、副总裁邓超艳女士(46岁)负责人事管理及行政事宜 [21] - 截至最后实际可行日期,威胜电气集团、威胜集团及威佳创建分别持有公司已发行总股本约57.12%、1.64%及1.09% [22] - 威胜电气集团及威胜集团由威佳创建全资拥有,威佳创建由威胜控股全资拥有 [22] - 威胜控股由星宝投资拥有54.12%权益,而星宝投资由吉为先生全资拥有 [22] - 威胜控股于2005年12月在联交所主板上市,吉为先生为其最终控股股东 [23] - 其他主要股东包括Anchor Light(持股10.29%)、长沙弘兴(持股7.62%,由都启明先生控制)、长沙维壹明(持股6.09%,由曹朝辉女士控制)、长沙君乾(持股5.33%,由冯喜军先生控制)等 [25][26][27] 中介团队 - 独家保荐人:中国国际金融香港证券有限公司 [27] - 审计师及申报会计师:安永会计师事务所 [27] - 行业顾问:弗若斯特沙利文(北京)咨询有限公司上海分公司 [27]
数字能源解决方案提供商惟远能源递表港交所 聚焦于智能配电网、数据中心及新型储能领域
智通财经· 2026-01-27 17:28
公司上市申请与业务概览 - 惟远能源技术股份有限公司于2025年1月27日向港交所主板递交上市申请书,中金公司为其独家保荐人 [1] - 公司是一家深耕中国并拓展全球业务的数字能源解决方案提供商,业务聚焦于智能配电网、数据中心及新型储能三大核心领域 [1] - 在智能配电网领域,提供智能开关设备、高效变压器及智能配电解决方案 [4] - 在数据中心领域,提供配电方舱及模块、IT方舱及撬块、配电设备以及HVDC高压直流供电系统等产品 [4] - 在新型储能相关领域,提供新型储能系统、光储微电网及充换电解决方案 [4] - 产品和解决方案应用于IDC、AIDC、电网、发电、公用事业以及工业及商业设施等多种场景 [4] - 客户群多元化,主要包括国有和私营电力公司、数据中心运营商或托管服务提供商、发电公司及大型工商企业 [4] - 已在马来西亚、澳大利亚、巴西、土耳其及墨西哥设立销售与服务中心,墨西哥运营中心支撑其全球化拓展 [4] 财务表现 - 2023年度、2024年度、2025年截至9月30日止九个月,公司收入分别约为人民币24.85亿元、29.03亿元、19.67亿元 [7] - 同期,公司年度/期间利润分别约为人民币1.05亿元、2.00亿元、1.81亿元 [8] - 2023年度、2024年度、2025年截至9月30日止九个月,公司毛利率分别为23.5%、26.5%、26.4% [10] - 2024年度收入同比增长16.8%(从24.85亿元增至29.03亿元),2025年前九个月收入较2024年同期增长12.0%(从17.57亿元增至19.67亿元)[6] - 2024年度利润同比增长90.0%(从1.05亿元增至2.00亿元),2025年前九个月利润较2024年同期增长52.8%(从1.18亿元增至1.81亿元)[6] - 分业务毛利率:智能配电网业务在2023年、2024年、2025年前九个月毛利率分别为27.6%、27.9%、28.0% [9] - 分业务毛利率:数据中心业务在2023年、2024年、2025年前九个月毛利率分别为21.8%、21.9%、25.8% [9] - 分业务毛利率:新型储能相关业务在2023年、2024年、2025年前九个月毛利率分别为16.4%、24.4%、20.5% [9] 行业前景 - 全球数据中心关键数字基础设施市场规模从2020年的约256亿美元增至2024年的约395亿美元,复合年增长率为11.5% [11] - 预计该市场规模到2029年将达到约900亿美元,2024年至2029年的复合年增长率为17.9% [11] - 中国智能配电设备行业预计到2029年市场规模将达到约人民币2,471亿元,2024年至2029年的复合年增长率约为18.4% [14] - 国家电网公告“十五五”期间其固定资产投资预计将达到约人民币4.0万亿元,较“十四五”期间增加约40% [14] - 全球新型储能累计装机容量从2020年的18.6吉瓦增长至2024年的170.0吉瓦,复合年增长率约为73.9% [15] - 预计全球新型储能累计装机容量到2029年将超过789.0吉瓦,2024年至2029年的复合年增长率约为35.9% [15] 公司治理与股权结构 - 董事会由七名董事组成,包括三名执行董事、一名非执行董事及三名独立非执行董事 [16] - 执行董事、董事会主席曹朝辉女士,57岁,2013年9月加入,负责集团整体战略规划、企业管治、财务及重大运营决策 [19] - 执行董事冯喜军先生,负责集团智能配电网业务的日常营运及研发 [19] - 执行董事邓超艳女士,46岁,负责人事管理及行政事宜 [19] - 非执行董事李正春先生,60岁,负责就集团业务营运提供策略建议及指引 [19] - 独立非执行董事包括刘爱明博士(54岁,2023年1月委任)、卓放博士(63岁,2025年4月委任)及郑志亮先生(36岁,2026年1月委任)[19] - 截至最后实际可行日期,威胜电气集团、威胜集团及威佳创建分别持有公司已发行总股本约57.12%、1.64%及1.09% [20] - 威胜电气集团及威胜集团由威佳创建全资拥有,威佳创建由威胜控股全资拥有 [20] - 威胜控股由星宝投资拥有54.12%权益,而星宝投资由吉为先生全资拥有,吉为先生为威胜控股的最终控股股东 [20] - 威胜控股于2005年12月在联交所主板上市,股份代号03393 [20] - 其他主要股东包括Anchor Light(持股10.29%)、长沙弘兴(持股7.62%,由都启明先生控制)、长沙维壹(持股6.09%,由曹朝辉女士控制)、长沙君乾(持股5.33%,由冯喜军先生控制)、问鼎投资(持股5.15%)及中电中金(持股3.88%)[23] 运营与供应链 - 主要原材料包括三大类:大宗材料(如铜)、结构材料(主要为钣金)及功能材料(包括电气元件)[5] - 主要在中国境内采购原材料,根据产品质量、定价竞争力、合约可靠性、声誉和运营规模等标准选择供应商 [5] 中介团队 - 独家保荐人:中国国际金融香港证券有限公司 [24] - 公司法律顾问:金杜律师事务所 [24] - 独家保荐人法律顾问:贝克麦坚时律师事务所、通商律师事务所 [24] - 审计师及申报会计师:安永会计师事务所 [24] - 行业顾问:弗若斯特沙利文(北京)咨询有限公司上海分公司 [24] - 合规顾问:新百利融资有限公司 [24]
摩尔线程:预计2025年营收同比增长230.70%至246.67%,S5000已...
新浪财经· 2026-01-21 20:19
公司财务表现 - 2025年年度营收预计为14.50亿元至15.20亿元,较2024年增长230.70%至246.67% [1] - 2025年年度归属于母公司所有者扣除非经常性损益后的净利润预计亏损10.40亿元至11.50亿元 [1] - 与上年同期相比,亏损收窄幅度为29.59%到36.32% [1] 产品与技术进展 - 公司已成功推出旗舰级训推一体全功能GPU智算卡MTT S5000,其性能达到市场领先水平,并已实现规模量产 [1] - 基于该产品构建的大规模集群已完成建设并上线服务,可高效支持千亿到万亿参数大模型训练 [1] - 其计算效率达到同等规模国外同代系GPU集群的先进水平 [1]
新年首炸!DeepSeek提出mHC架构破解大模型训练难题
搜狐财经· 2026-01-07 17:13
文章核心观点 - DeepSeek在新年第一天发布了一篇关于mHC新架构的论文 该架构旨在解决大规模模型训练中的稳定性问题 同时保持性能提升的优势 论文在AI技术圈引发了讨论[1] - mHC架构通过引入智能调度系统等设计 平衡了性能、稳定性和成本三大核心要素 为大模型架构演进提供了新思路 其务实的技术创新对行业具有重要价值[29] 大模型训练的核心痛点与现有方案局限 - 大模型训练面临信息传输拥堵的挑战 早期单通道残差连接(传送带)在模型规模增大后效率不足[3] - 字节跳动团队此前提出的超连接方案将单通道改为多通道 提升了信息传输效率和模型性能 但缺乏统一调度规则 导致信息在传输中出现不受控的放大或压制[5] - 超连接方案的不稳定性直接导致训练过程中梯度爆炸 使模型训练中途崩溃[7] - 有头部AI企业尝试用类似方案训练千亿级模型时 训练在进行到一万多步时频繁中断 损失值突然飙升 造成大量算力和资金投入的浪费[9] mHC架构的核心设计思路 - mHC架构的核心思路不是废除多通道 而是为多通道增加一套智能调度系统[11] - 该系统通过Sinkhorn-Knopp算法实现 将连接矩阵约束在双拟随机矩阵的流形上 该矩阵行和列之和均为1且为非负数 能保证信息传播时能量守恒 避免突然放大或缩小[13] - 架构还对输入输出映射施加了非负约束 以避免正负系数相互抵消导致有用信号丢失[15] - mHC是在超连接拓宽通道思路基础上的优化 属于改良式创新 更容易落地[15] 基础设施与训练优化 - 为控制训练开销 DeepSeek进行了基础设施优化 将多个计算步骤融合成一个算子 减少了内存读写次数[16] - 同时采用重计算策略 在前向传播时丢弃中间数据 在反向传播时重新计算 从而大幅降低内存占用[18] - 优化效果显著 在扩展倍率为4的情况下 训练时间只略有增加 却换来了稳定性的大幅提升[18] 实验验证与性能表现 - DeepSeek使用不同规模模型进行测试 重点验证了270亿参数模型的表现[21] - mHC彻底解决了超连接的训练不稳定问题 其最终损失值低于传统基线模型[22] - 在下游任务测试中 mHC的表现全面超越基线模型 在推理相关任务上 比超连接方案还有几个百分点的提升[22] - 从30亿到270亿参数的规模扩展实验中 mHC的性能优势保持良好 即使训练数据量不断增加 优势也未明显衰减 证明其在大规模模型上同样具备实用价值[24] 对行业的影响与意义 - mHC的意义在于指明了一个行业方向 即大模型竞争不再仅仅是堆参数和算力 架构的精细化设计同样重要[26] - 此前 许多中小企业因训练不稳定和成本过高而不敢涉足大规模模型领域 mHC的出现有望降低这些企业的入局门槛[26] - 这种务实的技术创新比噱头式突破更有价值 未来随着更多企业跟进和优化 可能催生出更多高效稳定的大模型架构 推动AI技术更容易落地[29]
科大讯飞:讯飞星火对标A100的训练效率优化后达到85%-95%以上
新浪财经· 2026-01-06 22:31
公司技术路线与战略选择 - 公司在有限算力资源条件下,持续投入优化大模型训练和推理成本效率 [1] - 公司选择了更难的全国产算力路线,而非直接使用英伟达卡进行工程优化 [1] 与华为的合作与技术攻关历程 - 自2023年5月起,公司联合华为攻克了万卡高速互联组网、计算通信隐藏、训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题 [1] - 通过联合攻关,将通用大模型、类o1的深度推理模型等的训练效率对标A100均从最初的30%-50%优化达到了85%-95%以上 [1] 2025年国产算力训练的关键突破 - 公司攻克了长思维链强化学习训练效率,深度推理训练效率从对标A800的30%提升至84%以上 [1] - 公司攻克了MoE模型全链路训练效率,MoE模型的训练效率从2025年3月对标A800的30%提高到93% [1] - 上述突破实现了国产算力平台上在该领域从0到1的重大突破 [1] 未来成本与能力展望 - 随着国产算力在底层能力上进一步提升,讯飞星火的训练成本还有较大的下降空间 [1]
上海,诞生一个超级IPO!
搜狐财经· 2026-01-04 15:06
公司上市与募资 - 壁仞科技于1月2日在港交所挂牌上市,成为“港股GPU第一股” [1] - 公司发行价为每股19.60港元,开盘大涨后市值突破1000亿港元 [3] - 本次IPO募资所得款项总额为55.83亿港元,净额为53.75亿港元,是港交所上市规则18C章节实施以来募资规模最大的项目 [3] - IPO前公司累计完成10轮融资,募集资金总额超90亿元人民币,2025年8月最后一轮融资后估值达209亿元人民币 [5] - 本次IPO成功引入23家顶级投资机构,合计认购金额高达28.99亿港元 [6] 公司背景与团队 - 公司成立于2019年,总部位于上海闵行,专注于通用图形处理器(GPGPU)芯片及智能计算解决方案研发 [3] - 公司已跻身国产GPU第一梯队,与摩尔线程、沐曦股份、燧原科技并称“国产GPU四小龙” [3] - 创始人张文拥有哈佛大学法学博士学位,曾担任商汤科技总裁,公司核心团队来自英伟达、AMD等国际大厂 [3][4] - 首席技术官洪洲拥有近30年GPU设计经验,曾任职于S3、英伟达、华为等公司 [4] - 首席运营官张凌岚拥有超过23年半导体行业经验,曾任职于AMD、三星等公司 [4] 产品与技术研发 - 公司聚焦云端通用智能计算,核心业务为自主研发GPGPU芯片及智能计算解决方案,覆盖AI训练、推理及边缘计算场景 [7] - 已成功开发并量产两款芯片:BR106(2023年1月量产)和BR110(2024年10月量产) [7] - 2023年BR106芯片销量为590颗,2024年销量大幅攀升至9344颗,2025年上半年售出2216颗 [7] - 2024年BR110芯片首次实现销售,全年销量为298颗,2025年上半年销量为22颗 [7] - 公司通过Chiplet技术将两颗BR106芯片裸晶共封装,推出了性能更强的BR166芯片产品,是国产GPU企业中最早实现Chiplet技术商用落地的公司之一 [7] - 公司是中国首批在商业化产品中使用PCIe Gen5、CXL、高性能DRAM及双裸晶芯粒设计的GPGPU公司之一 [8] - 下一代产品BR20X系列计划于2026年商业化上市,将原生支持FP8、FP4等低精度数据格式,目前已完成架构设计 [8] - BR30X和BR31X系列分别面向云训练及推理与边缘推理,计划在2028年商业化上市 [8] - 2022年至2025年上半年,公司累计研发投入达33.02亿元人民币,远超同期营收 [8] - 研发开支占总经营支出的比例常年维持在75%以上,2025年上半年高达79.1% [8] - 截至12月15日,公司在全球累计申请专利1500余项,位列中国通用GPU公司第一;获得专利授权600余项,发明专利授权率达100% [9] 财务表现与商业化 - 公司营业收入从2022年的49.9万元人民币,增长至2023年的6203万元人民币,再到2024年的3.37亿元人民币,两年间的年复合增长率高达2500% [10] - 2023年、2024年及2025年上半年的五大客户均为智能计算解决方案的客户,客户为从事ICT、数据中心及人工智能解决方案领域的中国公司 [10] - 截至2025年12月15日,公司拥有总价值约为12.41亿元人民币的5份框架销售协议及24份销售合约 [11] - 公司已向九家财富中国500强企业提供解决方案,其中五家为财富世界500强上榜企业,行业覆盖AI数据中心、电信、AI解决方案、能源及公用事业、金融科技及互联网等 [11] 行业与市场 - 根据弗若斯特沙利文预测,2024年中国GPU市场规模达到1425亿元人民币 [12] - 以公司2024年营收测算,其市占率约为0.24%,尚处于极早期阶段,未来成长空间广阔 [12] - AI大模型训练和运行消耗巨大算力,市场需求和技术迭代刺激GPU产业链爆发 [12] - 行业竞争加剧,天数智芯将于近期在港交所挂牌上市,燧原科技已完成IPO辅导,百度也在评估昆仑芯科技的分拆及上市计划 [12]
DeepSeek发布最新论文,破解大模型训练拥堵难题
贝壳财经· 2026-01-02 20:44
论文核心内容 - DeepSeek团队于2026年1月1日发布名为《mHC: Manifold-Constrained Hyper-Connections》的论文,提出一种名为“mHC”(流形约束超连接)的新框架 [1] - 该框架旨在改进此前大模型训练中的“HC(超连接)”范式,为大规模模型训练提供切实的性能改进 [1] - 论文以严谨的数学公式解释了mHC,其核心是给“多车道”增加一套智能调度系统(即“流形约束”),要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性 [4][5] - 论文通过配图直观展示了mHC方法相对于HC的训练损失差距,其中淡蓝色线为HC,蓝色线为mHC,证明了mHC的稳定性优势 [6] 技术背景与演进 - 论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级该范式提出的HC范式,是一次基础理论创新 [4] - 残差连接是AI模型训练的“生命线”,它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,解决了神经网络越大训练越困难的问题 [4] - 随着大模型参数突破千亿,这条“单车道”不够用,超连接范式把单车道扩建成多车道,显著提升了性能,但也导致了“堵车撞车”,使训练变得不稳定 [4] - 残差连接由何凯明等人于2015年在微软亚洲研究院提出,并因此获得CVPR 2016最佳论文奖,之后成为几乎所有主流大模型的“标配” [6][7] - 为解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队于2024年提出了HC范式,但带来了稳定性问题 [8] - DeepSeek的mHC工作是在何凯明团队和字节跳动工作的基础上进行的进一步优化 [6][8] 公司战略与影响 - DeepSeek创始人梁文锋的名字出现在论文署名作者的最后一位 [1][4] - 尽管公司因2025年春节开源R1模型而全球爆火,但在梁文锋带领下,公司极其低调,团队潜心学术,未做过多商业化尝试,一心扑在基础模型理论研发上 [1] - 梁文锋近期入选了《自然》2025年影响科学发展十大人物 [1] - 在2026年第一天,当诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了其在基础模型领域的战略定力 [9] - 在论文文末,DeepSeek团队写道:“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。” [9]