MTT S5000
搜索文档
摩尔线程启动科创板IPO发行:将成「国产GPU第一股」,以全功能GPU筑基AI时代
IPO早知道· 2025-11-14 10:06
国产算力自主发展提速。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,摩尔线程智能科技(北京)股份有限公司(以下简称"摩尔线程")于11月13日 晚间披露招股意向书,宣布正式启动科创板IPO发行,股票代码为"688795"。最新公告显示,其将 在11月24日进行申购,之后拟在上交所科创板上市。 这意味着,高端GPU芯片领域即将迎来"国产GPU第一股",中国在构建自主可控算力体系的征程上 迈出了坚实一步。 成立于2020年的摩尔线程始终专注于全功能GPU的自主研发与设计,是国内高端AI芯片领域极为稀 缺的领军企业,其发展路径与国家推动高水平科技自立自强的战略方向高度同频。基于其完全自主研 发的MUSA统一系统架构,摩尔线程实现了单芯片同时支持AI计算加速、图形渲染、物理仿真和科学 计算、超高清视频编解码的技术突破,为国产高端AI芯片自主化进程树立了关键技术标杆。 自2021年至2024年,摩尔线程每年推出一代GPU架构芯片,至今已推出"苏堤""春晓""曲院""平 湖"四代芯片。2024年,摩尔线程还推出了智能SoC芯片"长江"。 其中,"苏堤""春 ...
摩尔线程科创板IPO获批,国产GPU龙头启航资本新征程
新浪财经· 2025-10-31 17:40
2025年10月30日,证监会发布关于同意摩尔线程智能科技(北京)股份有限公司(下称"摩尔线程")首 次公开发行股票注册的批复,同意公司首次公开发行股票的注册申请。这一里程碑事件标志着这家成立 仅五年的国产GPU领军企业,即将成为"国产GPU第一股",为A股市场注入硬科技动能。 硬核技术筑基,全功能GPU突破"卡脖子" 摩尔线程自2020年成立以来,以"全功能GPU"为核心战略,构建了覆盖芯片架构、AI计算、图形渲染、 科学计算的完整技术体系。其自主研发的MUSA架构实现单芯片支持AI加速、物理仿真、超高清编解码 等四大引擎,技术指标直逼国际头部企业。例如,MTT S80显卡单精度浮点算力接近英伟达RTX 3060,基于MTT S5000构建的千卡GPU集群效率超越同代系国外产品。截至2025年6月,公司已拥有453 项境内专利,覆盖处理器架构、驱动软件、算力集群等关键领域,形成技术护城河。 商业化提速,营收三年增十倍 财务数据显示,摩尔线程正从技术突破迈向规模化盈利。2022-2024年,公司营收从0.46亿元跃升至4.38 亿元,年复合增长率超200%;2025年上半年营收7.02亿元,超前三年总和。毛利 ...
AI专题:2025年度国产AI芯片产业白皮书
搜狐财经· 2025-10-22 10:48
文章核心观点 - 国产AI芯片产业正通过双线突破策略应对架构主导、生态短板和规模化落地三大挑战,以实现算力基石的关键作用[1] - 产业在主流架构AI革新和稀疏计算、FP8精度、系统级优化等前沿创新方向取得进展,国内厂商已实现特定领域突破[1] - 产业全景呈现多品类、地域集中的特点,通用并行架构为算力平台优先方向,算力密度与软件生态是核心瓶颈[1] - 智算、智驾、机器人和端侧AI为核心应用领域,全栈国产化受青睐,智能座舱芯片和工业协作机器人是重点突破场景[1] 国产AI芯片发展的意义与挑战 - AI芯片作为算力基石是全球科技竞争关键,需突破架构主导能力、生态体短板和规模化落地三大挑战[1][9][11] - 架构主导能力决定产业发展上限,需成为关键架构定义者或主流架构深度演进者[9][11] - 生态体在软件栈等方面存在显著差距,制约产业发展[11] AI芯片定义与技术路线 - AI芯片核心特征是基于软硬件协同设计理念,关键指标为算力(TOPS)和能效比(TOPS/W)[14] - 广义AI芯片涵盖所有加速AI工作负载的处理器,包括CPU、GPU、FPGA等[15] - 狭义AI芯片特指为AI场景设计的ASIC芯片,如NPU/TPU[15] - 技术路线是通用性与效率的权衡,没有绝对最优解,只有最适合场景的权衡[16] 主流计算架构的AI革新 - x86架构定位通用计算基石,通过AMX、AVX-512指令集、HBM和多芯片封装实现AI创新[18] - Arm架构定位高能效生态,通过SVE2/SME2矢量扩展、为AI优化的CPU核实现端边云协同[18] - x86应用场景包括AI服务器、高性能AIPC、数据中心,Arm应用场景包括移动端AI、边缘服务器、云原生部署[18] 前沿创新方向:稀疏计算 - 稀疏计算核心创新是硬件原生稀疏支持,在硬件层面加入对稀疏数据的识别和处理能力[19] - 通过减少数据搬运提升系统性能效,对边缘设备和高密度数据中心至关重要[19] - 典型应用包括大规模稀疏模型,如推荐系统和自然语言处理网络[19] 国产厂商稀疏计算创新 - 墨芯人工智能实现双稀疏化算法和高稀疏倍率,支持高达32倍稀疏[22] - 华为与清华大学合作研发稀疏矩阵存储专利,异腾系列芯片内置稀疏计算加速功能[22] - 寒武纪聚焦神经网络稀疏方法专利,云天励飞持有稀疏神经网络计算方法专利[22] 前沿创新方向:FP8精度 - DeepSeek发布V3.1模型使用FP8精度,针对下一代国产芯片设计[24] - 摩尔线程为国内首批实现FP8算力量产厂商,算力提升约30%[24] - 砺算科技7G100系列GPU芯片支持FP8精度,有望降低国产AI训练成本[24] 系统级优化:提升算力密度 - 先进集成通过Chiplet、2.5D/3D封装解决制造与集成问题[25] - 计算范式通过存算一体减少数据在存储与计算模块间搬运[25] - 互连技术通过光电共封、硅光互连解决互连带宽与功耗问题[25] 系统级优化:存算一体 - 存算一体颠覆冯·诺依曼架构,解决内存墙与功耗墙问题[26] - 技术路径分为近存计算和存内计算两条路径[26] - 计算模式分为数字和模拟两种,在精度、能效和设计复杂度之间权衡[26] 产业全景与企业布局 - 产业形成CPU、AI SoC、云端/边缘/车端AI芯片、GPU多品类布局[1] - 企业地域集中于上海(15家)、北京(8家)、广东(6家)[1] - 头部企业包括华为海思(昇腾系列)、昆仑芯(7nm XPU架构)、摩尔线程(支持FP8)、沐曦(曦思系列)[1] 核心应用领域 - 智算产业2024年智能算力规模725.3EFLOPS,2026年将达1460.3EFLOPS[1] - 智驾产业舱驾一体趋势显著,小鹏图灵、地平线征程6P等芯片量产上车[1] - 机器人领域宇树科技、优必选等加速商业化,国产芯片聚焦细分场景[1] - 端侧AI覆盖AloT、智能家居等,追求能效与成本平衡[1]
摩尔线程:生态、架构、集群
申万宏源证券· 2025-10-10 18:42
投资评级与核心观点 - 报告对行业投资评级为“看好” [2] - 核心观点认为国产AI芯片已到达全面放量应用的临界点,第一梯队包括华为、寒武纪、海光信息,摩尔线程等进展较快厂商未来有望成为领先者 [4] - 最先进国产AI芯片产品在推理端性能已接近英伟达H100水平,并持续追赶 [3][4] 行业需求与供给分析 - 需求侧:国内AI算力行业经历剧变,Token消耗量快速提升推动AI Capex增长,深层逻辑是国内AI大模型渗透率和用户粘性提升 [3][14] - 具体数据:国内AI Token消耗量在1.5年内增长300倍,从2024年初的日均1000亿增至2025年6月底的突破30万亿,且每两三个月翻倍 [14] - 供给侧:2025年国产AI芯片在产品、技术、供给上均有较大进展 [3][19] - 市场格局:2024年中国AI芯片市场英伟达出货量占比70%(超过190万片),华为昇腾出货64万片,市场份额从5%提升至15% [21] 摩尔线程公司深度分析 - 公司成立于2020年,专注自主研发全功能GPU芯片,创始人张建中及团队核心成员均来自英伟达,行业经验丰富 [3][30] - 产品定位为全功能GPU,单一芯片集成AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码等多种能力,自2024年起AI智算产品开始商业化并驱动收入高速增长 [3][25][39] - 财务表现:2025年上半年实现总收入7.01亿元,较2024年全年增长60%,毛利率稳定在70%左右 [39][43] - 技术架构:自主研发MUSA统一系统架构,软硬融合,语法上兼容CUDA C++核心语义和Triton语言,内置架构抽象层能自动适配主流GPU生态 [69][70] - 集群能力:打造KUAE软硬一体算力解决方案,攻克千卡至万卡级GPU集群高效互联难题,千卡集群效率超过同等规模国外同代产品 [3][76] - 募资计划:募集资金80亿元,主要用于新一代AI训推一体芯片、图形芯片及AI SoC芯片的研发项目 [80][83] 国产AI芯片生态演变 - 软件生态:从框架适配发展到工具链全栈开源,华为昇腾CANN、寒武纪BANG语言、海光信息“类CUDA”环境等显著提升开发者易用性和生态耦合度 [6][84][85][87] - 模型生态:与大模型的协同超越简单硬件适配,进入算子与模型架构共同演进阶段,例如DeepSeek V3.1版本使用UE8M0 FP8精度针对下一代国产芯片设计,推动国产算力-国产大模型生态闭环形成 [6][88][90] - 互联生态:华为开放灵衢统一总线(Unified Bus),海光开放CPU互联总线协议(HSL),旨在打造标准化的互联范式,提升大规模集群的互联规模和效率 [6][93]
存储芯片进入新一轮周期,国产AI芯片大时代已经开启 | 投研报告
中国能源网· 2025-09-30 09:29
电子行业周度表现 - 9月22日至9月26日当周 申万一级行业中的电子行业上涨3.51% 位列第3位 [1][2] - 电子行业市盈率为72.55 在所有行业中估值位列第三 [1][2] - 电子行业细分板块中 半导体设备板块涨幅最大 达到15.56% [1][2] - 模拟芯片设计 LED 数字芯片设计板块估值水平位列细分板块前三 [2] 存储芯片市场动态 - 存储芯片第一轮涨价潮始于今年4月 由三星宣布逐步停止生产DDR4内存颗粒引发 [3] - 存储芯片第二轮涨价潮始于本月 闪迪宣布产品价格上调10%以上 美光科技通知渠道商其存储产品价格将上涨20%-30% [3] - DRAM价格指数在半年内上涨约72% [3] - DDR5 16G(4800/5600)现货价格从月初的平均价6.02美元上涨至9月25日的7.349美元 [3] - 512GB TLC NAND Flash晶圆价格在9月初至9月22日期间累计涨幅近10% [3] - 由于原厂产能向HBM DDR5等高利润产品转移 美光和SK海力士将于今年年底停止接收LPDDR4X新订单 [4] - 多家超大规模云厂商对NAND企业级固态硬盘的大额追加订单 将NAND供给从消费市场转向企业市场 [3] - 预计四季度企业级存储价格将上涨 [3] AI基础设施与国产芯片进展 - OpenAI宣布将在美国新建5个AI数据中心 预计未来3年总投资超4000亿美元 [5] - 阿里巴巴在云栖大会宣布 AI算力过去一年增长超5倍 AI存力增长4倍多 [6] - 阿里云发布自主研发的新一代磐久128超节点AI服务器 单柜支持128个AI计算芯片 同等AI算力下推理性能可提升50% [6] - 摩尔线程IPO成功过会 成为国内少数能够提供从FP8到FP64全计算精度支持的GPU厂商之一 [7] - 摩尔线程消费级显卡MTT S80的单精度浮点算力性能接近英伟达RTX3060 [7] - 基于MTT S5000产品构建的千卡GPU智算集群效率已超过同等规模的国外同代系产品 [7]
摩尔线程上会在即,乐观估值已达5000亿!国产GPU四小龙技术实力究竟如何?(附生态合作公司)
天天基金网· 2025-09-25 18:09
文章核心观点 国产GPU企业"四小龙"(摩尔线程、沐曦集成、燧原科技、壁仞科技)在技术性能、融资生态及产业链协同方面取得显著进展,理论指标接近甚至部分超越英伟达同类产品,但实际应用效率、软件生态及供应链成熟度仍存差距 [9][55][67] 企业技术特点与性能对比 摩尔线程 - 定位全功能GPU,覆盖AI计算、图形渲染及视频编解码,产品线包含消费级显卡MTT S80(FP32算力14.4 TFLOPS)及智算芯片S5000(FP32算力32 TFLOPS)[11][16][20] - 消费级显卡MTT S80理论算力超英伟达RTX 3060(14.4>12.7 TFLOPS),但实际游戏帧率仅为后者40%-50%,多卡集群通信带宽(256 GB/s)显著低于英伟达NVLink 4(900 GB/s)[20][21] - 软件生态适配不足千款游戏,远低于英伟达数千款水平 [21] 沐曦集成 - 专注通用GPU,产品线包括曦云C系列(大模型训练)、曦思N系列(AI推理)及曦彩G系列(图形渲染)[26][28] - 曦云C600显存容量144GB HBM3e,超英伟达H20(96GB)50%,FP8算力达1000 TFLOPS(推算值超H20的296 TFLOPS),但实际互连带宽效率未达NVLink水平 [30][32] - 通过MXMACA软件栈实现CUDA生态兼容,降低客户迁移门槛 [27][32] 壁仞科技 - 采用Chiplet技术及7nm工艺,旗舰产品BR100系列宣称峰值算力为英伟达A100的三倍,显存带宽2.3TB/s(超A100 15%)[39][42][44] - 实际算力利用率仅60%(英伟达A100达90%以上),异构GPU协同训练方案(HGCT)支持多芯片千卡混合训练,通信效率超98% [40][44] - 软件生态BIRENSUPA已与浪潮信息、百度飞桨合作,但实际优化仍需完善 [44] 燧原科技 - 聚焦云端AI算力,产品涵盖训练卡、推理卡及智算集群,第三代推理加速卡云燧S60支持低延迟推理 [49][50] - 训推一体架构产品L600显存容量144GB HBM3e(为英伟达H20的1.5倍),但存储带宽(3.6TB/s)及互联带宽(800GB/s)较英伟达(4.0TB/s、900GB/s)低11%-12.5% [52][54] - 推出异构GPU协同训练技术(HGCT),解决算力孤岛问题 [49] 融资与资本布局 摩尔线程 - 完成六轮股权融资及Pre-IPO轮,投后估值从不足10亿元跃升至246.2亿元,创国产GPU领域估值纪录 [57] 沐曦集成 - 国有资本占比超60%,深度参与国家级"东数西算"项目,融资侧重政府算力场景绑定 [59] 燧原科技 - 累计完成11轮融资近70亿元,腾讯作为第一大机构股东持股20.49%,产品直接嵌入腾讯云及AI业务 [62][64] - 获国家大基金二期及上海国际集团战略注资,当前估值160亿元 [62][64] 壁仞科技 - A轮融资11亿元创国内芯片设计领域纪录,2025年获上海及广东省政府背景基金领投,国资持续加码 [65] 产业链合作生态 股权与合作模式 - 摩尔线程与和而泰(直接参股1.244%)、ST华通(间接持股4.343%)、联美控股(直接投资1亿元)等形成股权及业务协同 [70] - 沐曦集成与淳中科技(直接持股0.2373%)、中科蓝讯(间接持股0.24%)等通过资本纽带强化技术整合 [72] - 燧原科技与中科蓝讯(间接持股0.23%)、广脉科技(行业解决方案测试)等推进基础设施共建 [75][77] 技术及供应链协同 - 弘信电子与摩尔线程共建AI软硬件基础设施,润欣科技负责GPU封装测试及量产 [71][72] - 壁仞科技与海兰信合作海底数据中心、与科华数据优化智算中心平台,强化绿色算力及异构算力布局 [80]
Deepseek发布V3.1 为何火的却是官方留言?
环球网资讯· 2025-08-23 13:26
DeepSeek-V3.1技术升级 - 公司正式推出DeepSeek-V3.1 在混合推理架构、思考效率和Agent能力方面全面升级 [1] - 官方补充说明UE8M0 FP8技术针对下一代国产芯片设计 [1] 资本市场反应 - DeepSeek官方留言引发连锁反应 寒武纪和海光信息等企业股价短期内上涨 [3] - 市场普遍认为FP8技术优化将推动国产芯片在AI训练和推理场景下的性能提升并扩大市场份额 [3] FP8技术特性 - FP8是8位浮点数格式 能在几乎不损失模型精度情况下大幅提升计算速度并降低功耗 [3] - 该格式尤其适用于大规模神经网络训练和推理场景 [3] 国内芯片产业现状 - 目前国内仅极少数GPU厂商支持FP8 如摩尔线程旗舰产品MTT S5000是国内首批原生支持FP8并大规模量产的GPU [3] - 摩尔线程MUSA架构原生支持硬件FP8张量加速计算 相对传统FP16计算可实现两倍浮点算力提升 [3] UE8M0 FP8技术价值 - 该技术通过对FP8格式深度优化 为下一代国产芯片提供底层支持 [4] - 通过减少数据存储和传输耗损 显著提升芯片吞吐量和能效比 [4] - 进一步强化国产AI芯片在国内外市场的竞争力 [4] 行业技术趋势 - 英伟达和AMD等国际巨头纷纷布局FP8 该格式有望成为下一代AI训练和推理的通用标准 [5] - DeepSeek此时推出UE8M0 FP8技术意味着中国企业在标准制定阶段已深度参与 可能影响全球技术路线走向 [5] 软硬件协同发展 - 公司从AI算法向芯片技术延伸体现软件定义硬件趋势 [5] - 优秀软件栈和算法优化能力正成为提升硬件性能的关键因素 [5]
DeepSeek昨天悄悄扔的炸弹,今天爆了
虎嗅APP· 2025-08-22 21:24
文章核心观点 - DeepSeek发布V3 1并补充UE8M0 FP8技术细节 引发资本市场强烈反应 算力与芯片板块大涨 反映国产芯片在算力赛道切入国际前沿的可能性 [5][6][15] - UE8M0 FP8格式通过创新数据压缩与动态范围管理 显著提升国产芯片在AI大模型训练与推理中的性能 降低对显存带宽的依赖 并减少75%带宽开销 [8][11][12] - 该技术突破被视为国产算力产业链的共振时刻 标志软硬件协同成果显现 为国产芯片生态提供差异化竞争力 并逐步减少对英伟达的依赖 [6][13][15] 技术解析:UE8M0 FP8 - FP8是一种8位浮点格式 用于压缩数据以减少AI大模型对显存带宽的压力 但国产芯片此前仅少数支持FP8 多数支持FP16导致性能折损一半 [8] - UE8M0是MX格式中的关键缩放因子 采用无符号8位指数表示法 无尾数设计 实现"只调档位不调微刻度"的高效数据管理 动态范围达2⁻¹²⁷至2¹²⁸ [10][11] - 该格式硬件执行简单 仅需整数次幂运算 避免复杂浮点操作 提升能效并几乎消除数值溢出或信息损失问题 错误率大幅降低 [11] - 相较于传统32位FP32缩放因子 UE8M0仅追加8位即可管理32个FP8数据 带宽开销降低75% 对HBM带宽受限的国产芯片至关重要 [12] 产业影响与市场反应 - DeepSeek官方表态触发A股市场超2800只个股上涨 算力股全线爆发 云天励飞等多股涨停 芯片股寒武纪涨停创历史新高 中芯国际大涨14% 海光信息涨停 [6] - 技术突破被视为国产芯片与国际前沿接轨的信号 头部国产芯片公司如摩尔线程 寒武纪等均已支持FP8 思元590及690系列均兼容 [13][14] - 摩尔线程MUSA架构原生支持硬件FP8张量加速 结合UE8M0 FP8 Scale可实现相对于FP16两倍的浮点算力提升 带宽效率及存储容量利用率优化 [14] - DeepSeek主动推动国产芯片生态发展 通过编译器优化 训练框架适配等全栈打通 实现渐进式对英伟达的生态解绑 [13][15]
DeepSeek昨天悄悄扔的炸弹,今天爆了
虎嗅· 2025-08-22 18:12
核心观点 - DeepSeek发布V3 1版本并补充UE8M0 FP8算力支持细节 引发资本市场强烈反应 国产算力及芯片板块集体大涨 标志国产芯片在算力赛道上切入国际前沿的技术突破和生态共振 [1][3][4][17] 技术突破 - UE8M0 FP8由FP8数据格式和UE8M0缩放因子构成 FP8以8位存储压缩数据 降低AI大模型训练推理的显存带宽压力 但国产芯片多数仅支持FP16 导致性能折损至少50% [5] - UE8M0是MX格式中的关键缩放因子 采用无符号8位指数设计(U代表无符号 E8代表8位指数 M0代表无尾数) 硬件执行时仅需整数次幂运算 极大缩短计算路径并提升能效 [8][9] - 动态范围达2⁻¹²⁷至2¹²⁸ 避免数值溢出或舍入导致的信息损失 错误率大幅降低 使国产芯片运行大模型时更快更省且能处理大数值 [10][11] - 相较于传统32位FP32缩放因子 UE8M0仅需追加8位即可高效管理32个FP8数据 带宽开销降低75% 突破内存墙限制 为HBM带宽追赶中的国产芯片提供架构级优化 [12] 产业生态影响 - DeepSeek主动支持国产芯片生态 被视为对英伟达捆绑的渐进式解绑 官方下场为国产芯片发展站位 推动产业软硬件协同全栈打通 [13][14][17] - 头部国产芯片公司均与DeepSeek接触 寒武纪思元590/690系列、摩尔线程MTT S5000等旗舰产品原生支持FP8 摩尔线程MUSA架构通过硬件原生FP8实现浮点算力提升2倍 并优化带宽效率及存储利用率 [5][15][16] - 清程极智等企业专门针对国产芯片做软件适配 提升运行DeepSeek时的性能 国内算力产业链在编译器优化、训练框架适配等环节实现突破 [6][14] 市场反应 - A股超2800只个股上涨 算力股全线爆发 云天励飞等多股涨停 芯片股集体大涨 寒武纪涨停创历史新高 中芯国际大涨14% 海光信息涨停 [3] - 资本市场反应反映国产芯片获得国际话语权的起点 中国芯片迎来技术前沿突破的窗口期 [4][17]
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
量子位· 2025-08-22 13:51
文章核心观点 - DeepSeek V3.1发布采用UE8M0 FP8参数精度 引发市场对国产芯片技术升级和生态协同的高度关注 带动相关企业股价显著上涨 [1][3][4] - UE8M0 FP8技术通过块级缩放和动态范围优化 显著降低带宽需求并提升计算效率 成为适配下一代国产芯片的关键创新 [10][11][19][20] - 国产AI芯片厂商如寒武纪、海光、沐曦等已布局FP8支持 软硬协同生态构建有望减少对国外算力依赖 提升行业竞争力 [23][24][33][34] 技术架构分析 - UE8M0 FP8由Open Compute Project定义 采用8位微缩块格式 通过分块缩放因子扩展动态范围数十倍 [8][10][11] - UE8M0格式无符号位和尾数位 全部分配8bit至指数位 处理器复原数据仅需移动指数位 无需浮点乘法或舍入逻辑 [14][19] - 相比传统FP32缩放 UE8M0使32个FP8数据仅追加8bit缩放因子 节省75%流量 显著优化带宽和功耗 [24] 国产芯片厂商动态 - 寒武纪早盘股价大涨近14% 总市值超4940亿元 跃居科创板首位 其MLU370-S4及思元590/690系列均支持FP8计算 [4][29] - 海光深算三号DCU、沐曦曦云C600、中昊芯英"刹那"TPU及摩尔线程MTT S5000均已支持FP8精度计算 [23][32] - 华为昇腾路线图显示2025Q4将支持原生FP8 预计2026年推出的新品可能成为"下一代芯片" [30] 产业生态影响 - 半导体ETF半日大涨5.89% 科创50指数涨3%创近三年半新高 芯片产业链集体走强 [4][31] - DeepSeek与15家厂商联合验证UE8M0格式 包括中国电信、昆仑芯等8家通过大模型适配 构建统一软硬协同生态 [23][27][34] - 技术升级提升国产芯片"性价比" 同等硬件可运行更大模型 实质性减少对英伟达、AMD等国外算力依赖 [33][34]