Workflow
AI训练
icon
搜索文档
优刻得涨2.00%,成交额3.86亿元,主力资金净流出65.15万元
新浪财经· 2025-08-22 10:01
资料显示,优刻得科技股份有限公司位于上海市杨浦区隆昌路619号10#B号楼201室,成立日期2012年3 月16日,上市日期2020年1月20日,公司主营业务涉及中立第三方云计算服务商,为客户打造一个安全、 可信赖的云计算服务平台。主营业务收入构成为:公有云50.63%,混合云35.41%,云通信8.26%,私有 云2.75%,解决方案及其他1.90%,边缘云1.05%。 资金流向方面,主力资金净流出65.15万元,特大单买入1946.72万元,占比5.05%,卖出1726.44万元, 占比4.48%;大单买入7661.03万元,占比19.87%,卖出7946.47万元,占比20.61%。 优刻得今年以来股价涨96.71%,近5个交易日涨4.44%,近20日涨4.25%,近60日涨35.53%。 今年以来优刻得已经8次登上龙虎榜,最近一次登上龙虎榜为2月14日,当日龙虎榜净买入1791.86万 元;买入总计3.37亿元 ,占总成交额比6.49%;卖出总计3.19亿元 ,占总成交额比6.15%。 8月22日,优刻得盘中上涨2.00%,截至09:42,报27.50元/股,成交3.86亿元,换手率3.51%,总市值 ...
院士孵化,机器人合成数据公司获合肥国资A轮融资丨早起看早期
36氪· 2025-08-22 08:21
以下文章来源于硬氪 ,作者张卓倩 硬氪 . 专注全球化、硬科技报道。36kr旗下官方账号。 "数据采集-数据处理-仿真训练" 闭环工具链。 文 | 张卓倩 "深信科创" 客户演示场景(图源/企业) 工信部《智能网联汽车准入与上路通行试点》要求 L3+ 车型完成 1000 万公里等效测试。传统人工建模 100 万公里需 6 个月,成 本高昂且极端场景覆盖率不足。同时,核电、港口等工业场景也面临数字孪生精度低、跨场景适配成本高的痛点。 编辑 | 袁斯来 来源| 硬氪(ID:south_36kr) 封面来源 | 企业供图 硬氪获悉,安徽深信科创信息技术有限公司(以下简称"深信科创")近日完成 A 轮融资,由合肥高投领投,合肥创新投、安徽省 创投、科大硅谷基金、青岛西海岸人才生态产业集团跟投,帕累托森林担任独家融资财务顾问。所融资金将用于合成数据生成技 术、持续学习框架及世界模型的研发,加快在自动驾驶、工业场景与具身机器人领域的应用。此前,"深信科创"已完成四轮融 资。 "深信科创"成立于 2019 年,由 2000 年图灵奖得主姚期智院士孵化,总部位于合肥高新区。公司专注"数据采集 - 数据处理 - 仿真 训练"闭 ...
GB200出货量上修,但NVL72目前尚未大规模训练
傅里叶的猫· 2025-08-20 19:32
GB200/300机架出货预测 - 2025年GB200/300机架出货量从3万上调至3.4万,其中Q3预计出货1.16万,Q4预计出货1.57万 [3] - GB200与GB300机架占比分别为87%和13% [3] - 上调主要受鸿海强劲指引推动,鸿海预计Q3 AI机架出货量环比增长300%,全年出货量预估达1.95万,占市场约57% [3] - 假设200万颗Blackwell芯片库存结转至2026年,下游组装商可能组装超6万机架 [3] - 主要代工厂偏好顺序为鸿海>纬创>广达 [3] GB200 NVL72与H100成本对比 - H100服务器价格下降至每台19万美元,超大规模数据中心运营商每台总Capex约25万美元 [12] - GB200 NVL72机架级系统服务器成本约310万美元,超大规模运营商总成本约390万美元每机架 [12] - GB200 NVL72每GPU全包资本成本为H100的1.6-1.7倍 [13] - 超大规模运营商H100每GPU Capex约3.1358万美元,GB200 NVL72为5.4166万美元 [13] - GB200 NVL72每GPU每小时Opex为4.09美元,H100为3.04美元,差异主要源于GB200芯片功耗更高(1200W vs 700W) [14] GB200 NVL72与H100性能比较 - GB200 NVL72总拥有成本(TCO)为H100的1.6倍,需至少比H100快1.6倍才能占据优势 [15] - 截至2025年5月GB200 NVL72性能/TCO尚未超过H100,但7月达到H100的1.5倍,预测未来3-6个月可能达2.7倍 [30] - 2025年7月GB200 NVL72吞吐量在Token/s/GPU方面达H100的2.5倍,12月预测BF16性能比H100好4.7倍,MFU达42.0% [31] - DeepSeek 670B预训练14.8T Token成本在2025年7月为4.5M美元(BF16),预测12月降至2.5M美元 [32] 软件优化与能耗表现 - 2024年1月至12月软件优化使H100 BF16 MFU从34%提升至54%,FP8从29.5%提升至39.5% [20] - FP8训练成本从每百万Token 0.72美元降至0.542美元,300B Token总成本从218k美元降至162k美元 [20] - 训练Llama3 405B模型15T Token能耗相当于3400个美国家庭年能耗 [25] - Llama3 70B模型在2048台H100上训练FP8能耗比64台H100高出10% [29] GB200 NVL72可靠性挑战 - 早期GB200 NVL72运营商普遍面临XID 149错误,背板卡匣连接器金镀层耐用性仅200次插拔 [34] - GB200 NVL72 MTBI为1000-3000 GPU-天,低于H100的2000-5000 GPU-天 [36] - 目前GB200 NVL72仅用于推理、小实验和开发工作,未用于大规模训练 [35] 行业趋势与建议 - SemiAnalysis建议英伟达扩展基准并增加透明度,公开hyperscaler和NCP基准数据 [16] - 建议加速GB200 NVL72诊断工具开发,加强ODM/OEM验收测试 [17] - 软件优化是性能提升关键,GB200 NVL72有潜力但可靠性是瓶颈,预测年底将主导市场 [37]
英伟达的“狙击者”
虎嗅APP· 2025-08-18 17:47
AI推理市场爆发式增长 - AI推理芯片市场规模2023年为158亿美元,预计2030年将达到906亿美元[7] - 推理成本在18个月内从每百万token 20美元降至0.07美元,下降280倍[7] - 企业AI硬件成本每年下降30%,能源效率每年提高40%[7] - 英伟达数据中心40%收入来自推理业务[7] 训练与推理的商业价值差异 - 训练阶段是高成本、高风险、长周期的"资本赌局"[6] - 推理阶段是持续创造价值的"现金印钞机"[6] - 生成式AI时代基础模型训练趋向稳定,推理成为主要价值创造环节[6] - 推理需求与商业收入形成良性循环,推动技术迭代升级[7] 科技巨头在推理市场的布局 - AWS向客户推销自研推理芯片Trainium,并提供25%折扣[12] - OpenAI通过租用谷歌TPU降低推理成本和对英伟达依赖[13] - 亚马逊向Anthropic投资40亿美元,后者使用AWS推理芯片[12] - 科技巨头平均利润率普遍突破50%,英伟达GB200利润率达77.6%[10] 初创公司的差异化竞争策略 - Rivos正在寻求4-5亿美元融资,累计融资将超8.7亿美元[4] - 25家AI芯片初创公司共融资超70亿美元,总估值290亿美元[17] - Groq累计融资超10亿美元,与沙特达成15亿美元芯片协议[17] - 初创公司聚焦ASIC芯片研发,在特定推理任务中具有性能优势[16] 技术架构与市场格局变化 - Transformer架构使基础模型训练趋向稳定[6] - MOE架构只需局部训练新信息,推动推理市场爆发[7] - 边缘侧小型分散推理需求正在爆发[18] - 推理对CUDA生态依赖较小,可使用多样化硬件平台[11]
增长迅猛如火箭!网络业务成英伟达(NVDA.US)AI芯片霸主地位隐形支柱
智通财经网· 2025-08-11 10:41
数据中心业务 - 英伟达第二季度财报焦点集中在数据中心业务 该板块是公司销售高性能AI处理器实现营收的核心 [1] - 数据中心业务不仅包括芯片销售 还涵盖网络技术产品如NVLink InfiniBand和以太网解决方案 这些技术对芯片通信和服务器互联至关重要 [1] - 上一财年数据中心板块总收入1151亿美元 其中网络业务贡献129亿美元 超过游戏板块的113亿美元 [1] 网络业务表现 - 第一季度网络业务为数据中心板块391亿美元营收贡献49亿美元 随着AI算力扩展需求增长 该业务将持续扩张 [2] - 网络业务占数据中心营收11% 但增长速度极快 被Deepwater Asset Management称为最被低估的部分 [2] - 网络技术包括NVLink(连接GPU) InfiniBand(连接服务器节点)和以太网(前端网络) 三种网络对构建AI计算机均不可或缺 [2][3] 技术需求与行业趋势 - AI推理需求增强 企业开发大型AI模型和自主代理功能时 GPU间同步要求提高 网络技术对推理性能至关重要 [3][4] - 行业初期误认为推理算力需求低 但实际运行中高性能系统能显著提升推理速度和处理能力 网络技术与CPU GPU DPU耦合对推理体验起关键作用 [4][5] - 竞争对手如AMD和云计算巨头(亚马逊 谷歌 微软)研发自有AI芯片 行业组织推出UALink技术挑战NVLink 但英伟达仍保持领先地位 [5]
北美AI军备竞争2
2025-07-29 10:10
纪要涉及的行业和公司 - **行业**:AI、半导体、光模块、PCB - **公司**:谷歌、Meta、OpenAI、Oracle、英伟达、AMD、芬尼萨 纪要提到的核心观点和论据 - **AI 产业链从训练转向推理**:1.0 阶段聚焦 AI 训练,以通用 GPU 为主导,市场对模型训练持续性存疑;2.0 阶段转向 AI 推理,算力卡从 GPGPU 转向云商自研 ASIC,推理业务可实现商业正循环 [3] - **北美主要科技公司加大 AI 推理投入**:谷歌 2025 年 Q2 资本支出达 224 亿美元,同比增长近 70%;Meta 规划激进数据中心建设;OpenAI 与 Oracle 合作新增 4.5GW 数据中心容量 [1][5] - **ASIC 在 AI 产业链地位提升**:2026 年 ASIC 的 Flops 占比将从 2025 年的 13%增至 18%,CAPEX 占比从 6%增至 8%,成为云商实现商业正循环的关键工具 [1][6] - **未来推理算力依赖 ASIC**:博通预测 2027/28 年或 2030 年 ASIC 市场占比将超 GPU,半导体市场规模预计达 600 - 900 亿美元 [1][7] - **ASIC 与 GPU 成本差异大**:ASIC 单位 Flops 投入成本仅为 GPU 的 1/2 到 1/3,光模块和 PCB 价值量约为 GPU 的 4 倍,整体成本差异接近 9 倍 [1][9] - **AI 集群网络侧发展趋势**:AI 集群规模扩大,对训练和推理性能要求提高,未来 AI 集群会维持较高带宽水平及较大配比差距,网络侧占比将显著提升 [10][11] - **光模块及 PCB 板块优势显著**:中国光模块厂商价格有竞争优势,毛利率 40% - 50%,净利率 30% - 40%;光模块和 PCB 板块在未来 KPI 比例中占比将急剧增加,有望实现超额增速 [1][13] - **看好未来 AI 行业特别是光模块行业**:云服务提供商提升资本支出,供应商上修 EPS,龙头公司估值较低,预计挑战 20 倍,GPT - 5 等关键模型发布将产生强劲拉动作用 [2][14] 其他重要但可能被忽略的内容 - **AI 训练阶段市场问题**:2023 年下半年至 2025 年期间,多次出现股价回撤,反映市场对预训练模型天花板以及训练所需算力不足等问题的担忧,且训练无直接收入和利润,被认为不可持续 [3] - **ASIC 协同方式**:单个 ASIC 卡性能较弱,需通过高速带宽连接多个 ASIC 卡实现高效协同以与单张 GPU 卡竞争 [7][8] - **光模块市场格局**:光模块市场一线与二线公司良品率有差距,整体产能非瓶颈,核心瓶颈在于上游物料,被头部公司掌握,二线公司难获足够低成本物料供应 [13]
AMD:推理之王
美股研究社· 2025-07-25 20:13
AMD股价与市场表现 - 公司股价跑输标普500和纳斯达克100指数,因前期估值过高 [1] - 当前市值2550亿美元,远低于英伟达的4.1万亿美元,但实际技术差距更小 [1] - 过去一个月股价飙升20%,预期市盈率78倍,高于英伟达的42倍 [29] 新产品与技术优势 - MI400系列GPU将于2026年推出,内存容量提升至432GB,带宽达19.6TB/s,性能为MI355的10倍 [12][13] - MI355X GPU内存带宽比英伟达B200高40%,支持单GPU推理,降低延迟和成本 [10] - Helios AI机架整合自研CPU/GPU/网卡/软件,对标英伟达DGX系统 [13] AI推理领域战略 - 专注AI推理市场,OpenAI已采用MI400X,Meta使用MI300X进行推理 [4][25] - 2023-2028年推理业务CAGR达80%,预计2028年AI处理器TAM达5000亿美元 [15][30] - 推理收入占比未来将超过训练,公司有望挑战英伟达市场份额 [15] CPU市场进展 - 2纳米Zen 5 EPYC CPU已发布,性能超越英特尔至强6s [21][23] - 服务器CPU份额从2014年11%升至2025年24.7%,预计2029年达39.2% [19][24] - 谷歌云、微软、甲骨文等采用EPYC CPU,云领域主导地位增强 [23] 财务与客户动态 - Q1数据中心收入同比增长57%,客户端收入增长28% [26][27] - 董事会批准60亿美元股票回购,总额达100亿美元 [25] - Meta招募AI人才扩大Llama模型规模,将增加AMD GPU需求 [25] 市场增长预测 - 2023年数据中心TAM为450亿美元,公司占比14.44%,2028年TAM预计5000亿美元 [30] - 若主导推理市场,2028年数据中心收入或超722亿美元 [30]
博通管理层会议:AI推理需求激增,甚至超过当前产能,并未反映在当前预期内
华尔街见闻· 2025-07-10 16:46
AI推理需求 - AI推理需求正迅速放量且处于上升通道早期,未来可能带来市场规模和产能配置的重估及利润系统性上修 [1] - 过去两个月AI推理订单大幅上升,客户希望更快变现AI投资,当前推理需求已超过产能 [1][2] - 推理需求未被纳入此前市场规模预测(2027年对三个现有AI客户的预测为600-900亿美元),代表潜在上行机会 [3] AI XPU芯片业务 - 定制AI XPU芯片业务依然强劲,增长跑道清晰可见 [2] - 正与四个潜在AI XPU客户合作,计划今年为两个主要潜在客户(可能为Arm/软银和OpenAI)完成第一代AI XPU产品流片 [3] - 引领行业向2nm 3.5D封装AI XPU架构转型,计划今年完成2nm 3.5D AI XPU流片 [3] 网络产品与技术 - AI工作负载需要更高性能网络产品,计算与网络支出比例为3:1 [3] - 规模化扩展网络(scale-up networking)内容价值比规模化扩散网络(scale-out networking)高出5-10倍 [3] - 共封装光学器件(CPO)因光学组件故障率较高(5-8%)面临挑战,需更换整个CPO解决方案 [3] 非AI业务复苏 - 非AI半导体业务(服务器/存储、企业网络、通用数据中心、宽带)出现渐进式"U"型复苏 [4] - VMware通过VCF平台驱动增长,预计年化收入达200亿美元并维持强劲增长至2026/2027年底 [4] 财务与利润率 - 2026财年AI收入预计同比增长60%,运营费用不会同步高增长 [5] - AI网络收入(占AI收入30%)毛利率高于公司平均水平,具有强劲运营杠杆效应 [5] - 2025财年EPS预计同比增长38%至6.71美元,2026年增长25%至8.38美元 [5] - 2026年自由现金流预计达390亿美元,净负债率由2024年0.9降至2026年0.2 [5] 财务指标 - 2024-2026年营收预计从51574百万美元增至76362百万美元,年增速23%-20.4% [6] - 2024-2026年EBIT利润率从59.6%提升至66.2%,EBITDA利润率从68%降至59.7% [6] - 2026年ROE为43.6%,净负债/EBITDA从1.7降至0.4 [6] 战略与估值 - 专注于七个关键AI XPU客户合作机会,优先再投资而非并购 [6] - 摩根大通给出325美元目标价,较当前股价高16.9%,年内股价已累计上涨近20% [7]
【马斯克:将于今年晚些时候上线Dojo 2】马斯克表示,Tesla Dojo AI训练计算机正在取得进展。我们将于今年晚些时候上线Dojo 2。一项新技术需要经历三次重大迭代才能走向卓越。Dojo 2已经很好了,但Dojo 3一定会更出色。
快讯· 2025-06-06 02:29
Tesla Dojo AI训练计算机进展 - Tesla Dojo AI训练计算机正在取得进展 [1] - 公司将于今年晚些时候上线Dojo 2 [1] - 一项新技术需要经历三次重大迭代才能走向卓越 [1] - Dojo 2已经很好了 但Dojo 3一定会更出色 [1]
昇腾+鲲鹏联手上大招!华为爆改MoE训练,吞吐再飙升20%,内存省70%
华尔街见闻· 2025-06-04 19:01
华为MoE训练系统技术突破 - 公司推出MoE训练算子和内存优化新方案,实现三大核心算子全面提速,系统吞吐提升20%,Selective R/S内存节省70% [1] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径,支持千亿至万亿参数规模 [3][11] - 通过昇腾与鲲鹏算力深度协同,从单节点视角优化NPU和CPU内部算子计算、下发及内存使用,实现技术突破并引领行业风向 [4][5][15] MoE训练效率挑战 - 单节点训练面临两大核心挑战:算子计算效率低导致Cube利用率不足,专家路由机制引发频繁算子下发中断 [7][8][9] - NPU内存资源紧张问题突出,大模型参数和前向传播激活值导致内存溢出风险,成为大规模训练永恒主题 [11][12][13][14] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention、MatMul、Vector三大核心算子,提出"瘦身术"、"均衡术"、"搬运术"优化策略 [16][17] - FlashAttention优化计算顺序和流水排布,支持非对齐计算,前/反向性能提升50%/30% [19][20][21][24] - MatMul通过双级数据流水优化和矩阵子块斜向分配,Cube利用率提升10% [25][26][28] - Vector算子融合小算子减少数据搬运,性能提升3倍以上 [30][31][32] 昇腾鲲鹏协同优化 - Host-Device协同实现算子下发"零等待"(free时间<2%),训练吞吐再提升4%,累计加速达19.6% [33][42] - 等效计算同步消除和重排下发序优化使单次Host-Bound从2.1ms降至0.6ms [34][35][38] - 采用每NPU绑24核的粗粒度绑核方式,完全消除系统型持续Host-Bound [39][41] 内存优化技术 - Selective R/S技术实现多维度内存解剖,节省70%激活值内存 [33][43] - 建立包含细粒度重计算和Swap策略的"显微手术器械库",支持MLA、RmsNorm等模块优化 [45][46][48] - 创新内存管理机制,通过贪心算法和Swap带宽分析确定最优策略组合 [51][52] 行业影响 - 方案为Pangu Ultra MoE 718B模型训练提供高效低成本解决方案,扫清大规模训练障碍 [18][42][43][53] - 技术突破展现公司在AI算力领域深厚积累,为行业提供参考路径 [54]