算力优化

搜索文档
金、银、铜、钴,动态扫描及观点更新
2025-10-09 10:00
行业与公司 * 纪要涉及的行业为有色金属行业,具体包括贵金属(黄金、白银)和工业金属(铜、钴)[1] * 纪要重点讨论的公司包括国际矿业巨头嘉能可[5],以及一系列国内矿业公司,如山东黄金、中金黄金、紫金矿业、洛阳钼业、华友钴业等[7][8][16] 核心观点与论据 宏观与政策驱动因素 * 日本新首相高市早苗采取偏宽松货币政策,与市场预期的紧缩相反,缓解了美元强势压力,并刺激了贵金属交易,增强了全球主流货币贬值预期,对商品价格形成积极刺激[1][3][4] * 美国政府停摆造成数据空窗期,引发市场情绪炒作,同时法国政局不稳定及日本政局更迭都激发了黄金的避险属性[1][3][11] * 央行购金行为为金价提供支持,中国央行连续11个月购金,截至9月份储备总量达到2,303.5吨,但月度购金量出现边际下滑[15] 贵金属市场动态(黄金、白银) * 10月1日至8日,伦敦现货黄金上涨4.62%,突破4,000美元每盎司;白银上涨4.84%,高点达到49美元每盎司[1][9] * 美股科技股业绩不佳(如甲骨文云业务毛利率仅14%)可能提升黄金在个人资产配置中的比例,达利奥呼吁将黄金配置比例提高至15%-20%[1][10] * 白银近期表现优于黄金,主要由于金融属性一致外,市场存在逼仓行为,白银租赁利率飙升至7%(远高于平均水平2%),因美国内政部将白银列入关键矿产名单引发担忧[12] 工业金属市场动态与供需展望(铜、钴) * 铜价看涨预期坚定,主要驱动因素包括:中非铜矿带资产变化(如刚果金政府政策摇摆、美国洛比托走廊计划)提升了嘉能可等公司的定价能力;逆全球化背景下资源端投资加强;Grasberg减产加剧供给紧张[1][5] * 需求端,预计到2030年,中美电力网投资共振将显著拉动工业金属需求,算力优化带来的能耗压减,中性判断2025至2030年间电力需求将比2024年翻倍至1.5倍,美国算力增量预计将拉动2-3个百分点的铜需求[1][6] * 钴价因刚果金9月21日出台的配额政策大幅提升,国内报价从二十六七万元每吨上升至34万元每吨以上,海外报价约为16~17美元每磅(折算人民币约30万元每吨)[2][13] * 钴配额数量为9.66万吨,不足以满足全球供需最低水平,且政策持续至2027年,叠加运输周期影响,国内供给偏紧格局确定性高,看涨情绪明显[2][13][14] 国内矿业公司估值与投资机会 * 国内矿业公司估值体系逐渐成熟,但相较国际主流投资估值仍处于低估状态[1][7] * 国内公司在资本开支、资源捕获后的增储空间及成本压减方面具备国际领先优势,盈利能力及资产质量处于国际领先地位[1][7][8] * 在商品涨价周期与估值体系建立周期共振下,对其未来发展持坚定看好态度[7][8] 其他重要内容 * 纪要明确列出了看好的股票标的:贵金属领域推荐山东黄金、山金国际、中金黄金、赤峰黄金等,港股建议关注紫金矿业、招金矿业和灵宝矿业;钴板块推荐洛阳钼业、腾远钴业、寒锐钴业(享受出口配额红利),以及华友钴业、格林美、力勤资源(拥有独立产能)[16]
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
财联社· 2025-08-24 12:34
文章核心观点 - DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 引发资本市场对国产AI芯片企业的关注 寒武纪等公司股价大幅上涨[1][4] - FP8精度标准被视为国产算力生态升级的关键方向 但产业界对其实际落地效果持审慎态度[1][4] - FP8技术通过降低数据宽度至8位提升算力效率并减少通信开销 但需通过混合精度训练平衡效率与准确性[2][3] FP8技术特性与优势 - FP8将数据宽度压缩至8位 相比FP32(32位浮点数)和FP16(16位浮点数)进一步减少存储和通信开销[2] - FP8使算力效率翻倍 传输FP8数值仅需1字节(原FP32需4字节) 单位时间内传输信息量增加且存储要求降低[2] - 在相同功耗下 AI芯片可训练更大模型或缩短训练时间[2] FP8技术挑战与局限性 - FP8低精度训练易因数值范围太小导致计算出错 需根据计算类型动态选择精度[3] - 矩阵乘法等操作对精度不敏感可用FP8 但累加或某些函数需较高精度 需采用混合精度训练兼顾效率与准确[3] 国产算力生态发展 - DeepSeek验证FP8在大规模模型上的可行性 为国产算力厂商提供发展机会[4] - 精度标准变化需芯片、框架、算力平台到应用层闭环适配 国产算力生态需同步升级[5] - 大模型训练核心瓶颈包括能耗、稳定性和集群利用 需提高单卡效率与集群调度优化而非简单堆砌硬件[5] 行业趋势与方向 - 大模型对精度容忍度逐步提高 从FP32到FP16再到FP8是行业验证过的技术路径[4] - FP8代表算力优化正确方向 未来可能在FP8标准乃至更高精度上进行研究或训练[4]
华为“数字化风洞”小时级预演万卡集群方案,昇腾助力大模型运行“又快又稳”
第一财经· 2025-06-11 20:12
大模型训推系统的效率挑战 - 超过60%的算力浪费在硬件资源错配与系统耦合上,传统优化方法难以解决芯片特性的"三角矛盾"(算力-带宽-容量失衡)[1] - 大规模训练集群存在利用率黑洞,MoE模型需要精准平衡计算与内存配比,极致压缩通信占比,否则效率骤降[3] - 动态实时推理系统任务两极分化,需同时满足高吞吐与低延迟,在不同任务场景实现动态效率最优[3] 数字化风洞技术 - 在虚拟环境中"彩排"AI模型训推,模拟不同参数、输入和资源分配方案,提前发现计算系统瓶颈点和逻辑漏洞[2] - 华为构建昇腾"数字化风洞",能够小时级预演万卡集群方案,通过性能加速与高可用性实现大模型"又快又稳"运行[2] - 动静态融合的大规模训练集群建模仿真方法,通过有向无环图精准刻画模型对计算、内存、通信的需求[7] Sim2Train训练集群优化 - 通过全量部署空间搜索、动态性能感知调度优化等技术释放算力潜能,实现并行配置、内存管理等小时级自动寻优,支撑MFU达成41%[4] - 负载-软件-硬件协同优化范式发现最优设计与优化方案,包括模型结构智能搜索、全栈架构建模与策略联合优化等[7] - 实现毫秒级资源再平衡与故障容错,保障作业万级小时无间断运行[3] Sim2Infer推理系统优化 - 通过推理服务多层级量化建模、动态智能优化等技术,实现高性能动态专家激活、自适应混合精度推理等,端到端推理性能提升30%+[5] - 构建多层次推理系统建模仿真,集成负载特征建模、层次化系统架构分析等五大核心功能模块[10] - 通过多维代价模型建模实现软硬件协同推理加速创新,在昇腾平台上综合实现推理性能提升30%+[10] Sim2Availability高可用架构 - 通过随机优化搜索、灵敏度分析等技术实现集群硬件架构可靠性瓶颈定位及优化,支撑万卡集群分钟级快恢,可用度达成98%[9] - 硬件故障模式全栈监控,通过马尔科夫链刻画系统随机行为,构建状态转移模型[9][11] - 软件统一协同管控仿真,通过动态规划弹性调度、极致去冗余并行掩盖优化等技术提升算力系统可用度[11] 未来发展方向 - 随着新型应用快速变化和系统架构持续创新,算力基础设施的架构设计与优化空间持续激增[12] - 需要深化负载自动图化建模、多维架构耦合仿真等关键技术,在系统瓶颈分析、最优部署策略求解等领域发力[12] - 推动国产算力基础设施建设与AI计算技术创新,助力华为昇腾集群高效平稳运行[12]