并行计算

搜索文档
当前处理器架构,还有哪些提升机会?
半导体行业观察· 2025-07-20 12:06
处理器架构效率提升的挑战与机遇 核心观点 - 处理器设计从单纯追求性能转向性能与功耗平衡 性能的小幅提升若导致功耗不成比例增加 设计人员可能放弃改进转而采用更具能效的方案[3] - 当前架构在性能和功耗方面的持续改进变得越来越困难 行业正在通过微架构重新设计、工艺改进、3D-IC等技术寻求突破[3][4] - 架构层面的优化比实现层面更具潜力 但需权衡面积、功耗与性能的关系[6][8] 工艺与封装技术 - 工艺改进仍是降低功耗的首要方法 22纳米比28纳米能耗特性更好 12纳米是高效设计的流行节点[3] - 3D-IC的功耗介于单片芯片和PCB级组件之间 比传统多芯片方案功耗更低、速度更高[4] - 共封装光学器件(CPO)降低功耗的技术经济性正在改善 因高速数字通信需求增强[4] 架构优化技术 - 推测执行(分支预测)和乱序执行可提升性能但增加复杂度 分支预测性能提升可达30% 总开销在20%-30%之间[7][8] - 并行化是提高性能的关键机会 但受限于阿姆达尔定律和编程复杂性 数据中心服务器处理器核心数达约100个[9][10] - "杀戮法则"指出 若新增功能增加的面积大于性能提升 则不应添加该功能[8] 加速器与异构计算 - 定制NPU比通用NPU效率更高 Expedera数据显示定制NPU使处理器效率(TOPS/W)提升3-4倍 利用率提升2倍以上[14][15] - 加速器作为非阻塞卸载可有效处理特定任务 同时让CPU执行其他工作或休眠[12][14] - 异构计算结合处理核心和NPU 针对AI处理的优化可避免低效的CPU和GPU运算[14] 技术局限性 - 异步设计因性能不可预测和触发器复杂度高 未能成为主流设计方法[5] - 数据和时钟门控可抑制杂散功耗 但实现层面的节能机会有限[5][6] - 多核处理器商业失败主因是开发者拒绝显式并行编程 GPU/TPU是少数成功渗透的领域[11] 未来方向 - 大量简单CPU组成的阵列可能是可行之路 但需AI创建并行编译器来改变编程方法[12] - 新处理器架构可能成为最终解决方案 但受限于现有生态系统的转换难度[16]
处理器架构,走向尽头?
半导体芯闻· 2025-07-17 18:32
处理器架构效率提升的挑战与机遇 - 行业从单纯追求性能转向性能与功耗平衡,小幅性能提升若伴随不成比例功耗增加可能被放弃[1] - 乱序执行等传统性能提升技术因增加电路复杂度和功耗,在当前设计中接受度下降[1] - 22纳米工艺比28纳米能耗特性显著改善,12纳米成为高效设计流行节点[1] 工艺与封装技术创新 - 3D-IC在功耗表现上介于单片芯片与PCB方案之间,优于传统多芯片PCB连接方案[2] - 共封装光学器件(CPO)因高速数字通信需求增长而经济可行性提升,技术成熟度改善[2] - 异步设计因时序不可预测性和触发器功耗增加问题,尚未成为主流设计方法[3] 架构层面的功耗优化 - 分支预测器规模与性能呈非线性关系:小型预测器提升15%性能,复杂版本提升30%但面积增加10倍[9] - 编解码器重构减少5%分支数量可带来5-15%性能提升,典型程序中20%指令为分支[9] - 推测执行与乱序执行总开销约20-30%,成功预测可提升30%以上指令执行效率[9] 并行计算的潜力与局限 - 主流处理器通过多核架构(最高约100核)和核心内多功能单元实现有限并行[10][11] - 数据中心服务器多核主要用于多任务并行而非单程序加速,编程复杂度阻碍普及[11][13] - 分形计算等算法可通过像素级并行实现加速,但阿姆达尔定律限制串行代码段[11] 专用加速器的效率突破 - 定制NPU相比通用NPU可实现3-4倍能效(TOPS/W)提升和2倍以上利用率改善[18] - 专用MAC阵列针对特定数据类型优化的NPU,比可配置计算单元方案更高效[17][18] - AI训练/推理加速器通过非阻塞卸载机制,允许CPU执行其他任务或进入休眠[15] 未来架构演进方向 - 简单CPU阵列需配合并行编译技术突破,AI可能推动自动化并行工具发展[14] - 处理器子系统效率接近极限时,需考虑新架构但受限于现有生态系统惯性[19]
OpenAI甩开英伟达,谷歌TPU“横刀夺爱”
36氪· 2025-07-03 07:10
行业动态 - 英伟达超越微软重夺全球市值第一宝座 [1] - OpenAI计划采购谷歌TPU芯片以替代部分英伟达GPU [1][3] - 谷歌TPUv5p因低成本特性获苹果和OpenAI订单 [5][13] 技术对比 - 英伟达B200芯片拥有2080亿晶体管、192GB HBM3E内存、8TB/s带宽,FP8/FP6性能达20PFLOPS,是H100的2.5倍 [3] - 谷歌TPUv5p单价仅数千美元,远低于英伟达DGX B200服务器50万美元售价 [5][8] - TPU专为AI计算优化,采用脉动阵列设计,比通用GPU更高效且成本更低 [8][11] 市场趋势 - 英伟达Blackwell GPU未来12个月产能已被预订一空 [5] - 行业需求从"预训练"转向"推理",TPUv5p因支持混合精度更适配推理场景 [13][15] - DeepSeek开源模型推动AI厂商转向智能体和应用开发,降低训练算力需求 [13][15] 企业策略 - OpenAI通过采购TPU实现算力供应多元化,减少对英伟达依赖 [3][5] - 谷歌TPU商用化突破"自家玩具"定位,获大厂订单 [3][13] - 国内AI厂商或受益于TPU替代GPU的可行性 [15] 产品定价 - OpenAI GPT-3输入/输出定价为10美元/40美元每百万tokens [5] - 谷歌Gemini 2.5 Pro输入/输出定价仅1美元/4美元每百万tokens [6]
量子算力跨越临界点
2025-06-19 17:46
纪要涉及的行业 量子信息技术行业,细分领域包括量子计算、量子通信和量子精密测量 纪要提到的核心观点和论据 量子计算 - **原理与优势**:利用量子比特叠加和纠缠特性实现并行计算,理论上特定算法可指数级加速,解决经典计算机难处理的复杂问题,如优化、模拟等;信息基本单位量子比特可处于 0 和 1 间状态,多个比特系统能表达 2^n 种状态,每增加一个比特表达能力翻倍,带来巨大应用潜力 [1][5] - **技术路线**:常见实现技术有超导、离子阱、中性原子光镊技术、光子偏振状态表示、半导体和拓扑结构;超导门保真度高、相干时间长,被谷歌、IBM 等采用;离子阱门保真度更高但扩展有困难;中性原子光镊技术对环境要求低但部分操作时间长;英特尔希望用半导体技术制备比特;微软押注拓扑结构但进展小 [1][6] - **发展现状**:产业处于早期,超导技术较成熟,各主要技术路线均有真机;应用场景包括金融、材料、生物医药等行业,重要企业联合探索用量子计算解决计算难题;目前主要应用于教育和科研市场,该市场呈上升趋势 [1][16][21] - **关键问题**:环境噪声影响物理量子,实现逻辑量子纠错困难;上游产业链浅,稀释制冷剂国外禁运,需研发替代品;测控系统设备需优化以适应低温环境;需设计芯片及 EDA 软件进行版图设计和模拟;软件算法方面需开发操作系统、编程框架等支持硬件使用 [1][17] - **未来预期**:2025 - 2030 年,专用型量子计算机将进入使用阶段,特定领域应用逐步实现,通用型量子计算机将发挥一定作用,但全面应用可能要到 2030 年后 [23] 量子通信 - **主要方向**:量子密钥分发(QKD)基于非对称加密概念,用光量子形式解决密钥安全分发问题,传递加密密钥,实际信息仍通过经典通道传递;量子隐形传态利用纠缠粒子特性传递量子态;量子直接通信将经典信息编码到光等载体上传递,已有几百公里长距离传输实验成果;还有量子随机数生成器和抗量子密码学 [9][10] - **发展现状**:量子密钥分发和量子随机数发生器已进入实用化阶段,优先用于政务、大银行、军事国防等特殊场景,未来五年应用将增多;抗抵赖密码标准推进迅速,但存在理论与实际不符问题;直接通信研究难度较小,有望取得更多进展;隐形传态仍处实验室阶段 [24][25][26] - **优势**:理论协议层面比经典协议安全性更高,信息不可克隆、复制,传递信息无法被窃取,但现有技术仍依赖经典通信信道,无超光速信息传递 [15] 量子精密测量 - **应用情况**:涉及原子钟、传感器等测量产品,应用落地较快,产品为专门目的设计,在军事和科研领域有应用,通过微观系统变化获取宏观数据 [2][4][27] 其他重要但是可能被忽略的内容 - **量子概念**:“量子”指能量以离散单位发射和吸收的形式,衍生出量子力学,研究微观世界需用量子力学原理 [3] - **量子纠错突破**:谷歌 Sycamore 量子计算机在量子纠错方面取得突破,证明逻辑量子计算机可行性,带动相关股票上涨 [4][54] - **量子比特与算力关系**:量子比特数是影响量子计算机性能的核心因素,数量增加算力指数增加,如 20 个量子比特计算机可用经典计算机模拟,50 个则几乎不可能 [39] - **超导量子计算机价格与成本**:超导技术路线下,不同规模超导量子计算机价格差异明显,20 个和 50 个比特规模价格约相差一倍,百比特规模价格差异更大;成本主要包括吸热制冷剂、芯片、测控系统和低温线缆,吸热制冷剂尤其昂贵 [40][41] - **经典计算与量子计算比较**:两者不能完全替代,经典计算机在四则运算上更快,量子计算机适合解决基于量子力学理论的复杂问题,如新材料研究等 [36] - **量子计算系统代际变化**:代际变化无严格过程,基于功能和技术突破,如第六代商业级量子计算系统量子比特数量增加,对制冷剂需求跳跃式增长 [48] - **国内招标情况**:国内量子计算、通信或测量领域招标标的规模大,多为千万级别,个别达亿元级别,每次招投标单位数量不多 [49] - **经典与量子随机数区别**:经典计算机生成伪随机数可破解,分布可能有规律;量子随机数由物理机制产生,安全性更高,无分布规律问题 [50] - **海外企业资金支持**:海外谷歌主要靠自有资金投入,IBM、IQE 和欧洲 IQM 等获政府项目资金支持 [51] - **超导技术材料**:涉及微纳加工中的铝膜及其他合金材料,高温超导与低温超导使用不同材料 [52] - **英伟达 GPU 与量子计算**:英伟达强调 GPU 在模拟量子计算中的重要性,当前阶段许多问题需借助 GPU 模拟,经典与量子结合是重要方向 [55] - **专用与通用量子计算机**:专用量子计算机专门解决优化问题,通用量子计算机能处理各种类型问题,未来五年专用设备可能率先在优化场景取得突破 [57] - **未来受益领域**:未来几年人工智能领域可能受益于专用或通用型进展,可降低能源消耗,提高经济效益 [58]
网络系列报告之CPO概览:光电协同,算力革新
国元证券· 2025-06-17 14:13
报告行业投资评级 - 推荐(首次) [6] 报告的核心观点 - 随着规模定律扩展,并行计算推动集群互联带宽需求,CPO技术因低功耗、高速率优势受重视,长期或成数据中心光电转换模块终局结构,国内供应商多布局产业链上游且全球化产能布局,看好天孚通信、太辰光等公司 [1][2][3] 根据相关目录分别进行总结 1 规模定律下模型参数量高增,并行及功耗需求推高集成 1.1 规模定律下参数量高增,计算并行流增长推集群互联带宽提升 - 模型规模扩展使算力需求增加,推理阶段算力需求指数型增长推动算力集群扩张,并行计算推动集群内互联带宽和通信器件需求提升 [14][17] 1.2 集群大规模、高速率、低功耗需求下,集成式模块或为更优选择 - 集群TCO中电费占比高,降低功耗可优化OPEX;集群规模扩张使通信设备价值量占比上行,CPO技术可提升带宽、功耗和空间效率,降低成本 [20][24][28] 1.3 CPO高性能、低功耗优势推渗透提升,上游器件供应商弹性可观 - CPO技术可形成“技术升级 - 成本下降 - 渗透加速”正向循环,预计到2027年800G和1.6T端口总数中CPO端口将占近30%;介绍了CPO系统组成架构及相关器件 [33][35][42] 1.4 行业头部通信设备厂已有成熟方案,CPO交换机产业化或在即 - 博通推出多款CPO交换机,不断提升交换容量、降低功耗;英伟达发布两款CPO交换机,降低了端口功耗 [52][58][63] 2 行业内重点公司分析 2.1 太辰光:产品成功导入康宁,MPO及光纤柔性板的领先供应商 - 太辰光产品应用广泛,客户包括康宁;营业收入和归母净利润整体增长,光器件产品占比提升;MPO产品领先,shuffle产品和光柔性板产品有优势,FAU产品开展相关工作 [67][70][74] 2.2 光库科技:子公司加华微捷业绩高增,前瞻布局薄膜铌酸锂 - 光库科技产品应用领域广,有多家子公司;营业收入和归母净利润整体增长,光纤激光器和光通讯器件占比近年下降;子公司加华微捷FAU产品布局全面,公司在薄膜铌酸锂材料有积累 [77][80][83] 2.3 天孚通信:英伟达CPO交换机技术合作伙伴,CPO板块多产品布局 - 天孚通信是光器件解决方案和封装制造服务商,产品应用广泛;营业收入和归母净利润高速增长,光有源和无源器件占主导;是英伟达CPO交换机合作伙伴,部分产品小批量生产,泰国产能布局推进 [87][91][95] 2.4 仕佳光子:领先光芯片供应商,间接投资MT插芯供应商福可喜玛 - 仕佳光子聚焦光通信,产品包括多种芯片和连接器;营业收入和归母净利润波动大,光芯片及器件产品占比提升;建立MPO生产基地,间接投资福可喜玛保障MT插芯供给 [98][102][105] 2.5 源杰科技:大功率激光器获千万级订单,推动业绩Q1同比高增 - 源杰科技专注高速半导体芯片,产品应用广泛;营业收入和归母净利润波动大,电信市场类收入占主导;数据中心产品有进展,研发CPO相关产品 [108][111][114] 2.6 光迅科技:前瞻布局CPO光源模块,受益国内云服务商的IDC建设 - 光迅科技是光电器件一站式服务提供商,产品应用广泛;营业收入和归母净利润稳健增长;前瞻布局CPO ELS光源模块 [116][117][120]
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
量子位· 2025-05-28 12:22
核心观点 - 阿里通义团队提出PARSCALE方法,通过并行计算扩展提升模型性能,不显著增加内存和时间成本 [1][4] - 对于1.6B模型,性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6 [2] - 可直接应用于现有模型(如Qwen-2.5),无需从头训练 [3] 技术细节 并行计算框架 - 将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入 [15] - 并行前向传播后通过动态加权聚合输出,MLP动态计算各路径输出的聚合权重 [16] - 利用GPU并行计算能力,一次性完成P路前向传播,计算效率随P线性增长 [21] 性能提升 - 当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%) [18] - 在GSM8K数学推理任务中,P=8使1.8B模型性能提升34% [20] 训练策略 - 阶段1:用传统方法预训练模型至收敛(1T tokens) [23] - 阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20B tokens,占总数据的2%),训练成本降低约98% [24][25] 适配现有模型 - 在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重 [27] - PEFT方法使代码生成任务(HumanEval+)中Pass@1提升15% [28] 行业应用 - PARSCALE将CFG的"双路径启发"升级为通用的计算缩放范式,适用于训练和推理全流程 [29] - 研究团队已公开论文和代码,可供进一步研究 [31]
“黄仁勋最信赖的作者”深度交流:英伟达传奇背后以及AI的下一步
聪明投资者· 2025-04-02 11:23
英伟达的成功因素 - 神经网络与并行计算的意外结合推动公司成为全球最有价值企业 [8][15] - CUDA平台将廉价显卡转化为高性能计算工具,为科学家提供开放平台 [11] - 长期坚持"零亿美元市场"策略,即使亏损10年仍专注服务小众科学客户 [12][14][19] - 2012年GPU训练神经网络速度提升1000倍成为关键转折点 [15] - 2014年果断转型为AI公司,仅用周末完成战略调整 [16][17] - 目前占据AI硬件市场90%以上份额 [18] 黄仁勋的领导特质 - 采用"光速"管理理念,设定理论极限速度并倒推执行 [20][21] - 从第一性原理出发,专注打造世界级计算机技术 [22] - 办公室设计为中央观察点,墙面布满战略规划可视化图表 [23][24] - 识别"一生一次机会"(OIALO)后全力投入AI领域 [25][26] - 扁平化管理结构,直接管理60名高管无中间层 [44] 技术战略与竞争优势 - 开发专用软件开发工具包为客户工作流程提速1000倍 [43] - 销售团队由博士级技术专家组成,深入量子物理等前沿领域定制解决方案 [43] - 研发人员占比60%,组织架构类似大型科学实验室 [47] - "全宇宙"计划构建现实模拟器训练机器人,降低实物损耗成本 [66][68] - 预测10年内机器人将普及并成为核心业务 [69] 人工智能行业观察 - AI仍处早期阶段但已在航班调度、医疗诊断等隐形领域产生价值 [3] - 电力需求成为关键瓶颈,单个GPU耗电量等同家庭用电量 [70] - 美国数据中心2028年用电量或达全国15%,台积电2030年用电量或达台湾25% [72] - AI代理订票等日常应用普及将验证投资回报 [63] - 缺乏顶尖AI程序员可能限制硬件性能发挥 [64] 组织文化与人才管理 - "痛苦与磨难"文化引导员工专注攻克最难技术问题 [13] - 75%员工来自美国以外地区,形成全球化人才网络 [46] - 通过技术梦想而非单纯财富激励顶尖工程师长期追随 [3][56] - 创始人兼具中国式勤奋与美国式冒险精神 [34][36][39] - 超强学习能力,3周掌握AI核心知识并超越专家 [28][29]
又一个芯片架构,走向消亡?
半导体行业观察· 2025-04-02 09:04
核心观点 - 索尼、IBM和东芝联合开发的Cell处理器旨在打破传统计算架构限制,构建高性能并行计算网络 [1][3] - Cell处理器采用创新的多核设计,理论性能远超同期产品,但面临编程复杂、功耗高、成本高等挑战 [8][11][13] - 尽管在游戏主机市场表现不佳,Cell在科学计算领域取得突破性应用 [16][17][18] - Cell架构的创新理念对后续GPU计算和异构计算发展产生深远影响 [21] 强强合作 - 2000年索尼联合IBM和东芝共同开发Cell处理器,IBM投资4亿美元设立设计中心和晶圆厂 [3][4] - 合作方分工明确:IBM提供100纳米SOI工艺授权,东芝使用自有100纳米工艺技术 [4] - 目标性能为每秒1万亿次浮点运算,未来计划达到1千万亿次 [3] 技术架构 - 核心采用64位PowerPC处理单元(PPE)作为控制中心,配备23级流水线和三级缓存 [8] - 8个协同处理单元(SPE)专为数据并行优化,每个具有256 KiB本地存储空间 [8] - 单元互连总线(EIB)采用四环结构,总带宽超过200 GB/s [9] - 采用非常规内存架构,SPE通过DMA操作访问主内存,使用Rambus XDR内存 [9] 产品化进程 - 2005年首批样品采用90nm工艺,集成32个SPE,峰值性能达1TFLOPS [11] - 量产版本调整为1个3.2GHz PPE和8个SPE(实际可用6个),单精度浮点性能230 GFLOPS [12] - PS3搭载Cell处理器,但硬件成本高达805-840美元(售价499美元),每台亏损严重 [13] 市场表现 - PS3因开发难度高、架构复杂、售价高昂(499美元)在主机市场竞争中处于劣势 [13] - 2006年IBM推出Cell Blade服务器系列,但2010年即停止支持 [16] - 2008年Cell架构超级计算机Roadrunner成为全球首台突破1 PetaFLOPS的超算 [16] - 2010年美国空军用1760台PS3组建"秃鹰群"超算,成本仅200万美元 [17] 技术影响 - SPE架构的并行计算思路为后续GPU计算模式(CUDA/OpenCL)提供灵感 [21] - 2007年PS3加入Folding@home项目,贡献1.2PFlops算力(占总量35%) [18] - 2012年IBM宣布停止Cell架构更新,2023年Linux内核移除对Cell的支持 [19]
深度|英伟达黄仁勋:GPU是一台时光机,让人们看到未来;下一个十年AI将在某些领域超越人类的同时赋能人类
Z Potentials· 2025-03-01 11:53
回望来路:NVIDIA的技术演进路径 - 90年代通过解决游戏图形处理的并行计算需求,开创现代GPU架构,观察到10%代码完成99%可并行处理的关键技术突破[3][4] - 选择游戏作为突破口因市场规模庞大(预计成为最大娱乐市场),形成研发投入与市场扩张的良性循环[5] - 2006年推出CUDA平台降低并行计算使用门槛,促使GPU应用从游戏扩展至医疗影像、科学计算等领域[7][8][9] - 2012年AlexNet在GPU上实现图像识别突破,验证深度学习潜力,推动公司全面转向AI计算架构重构[11][12][13] 当前技术革命的核心驱动力 - 两大核心信念:加速计算(CPU+GPU协同)的可扩展性、深度学习网络(DNN)对多模态数据的无限学习能力[17][18] - 计算效率8年内提升10,000倍,DGX-1(2016年)到当前原型性能提升6倍而能耗仅为1/10,000[31][32] - 物理限制突破方向聚焦能源效率,通过半导体工艺改进(与台积电合作)、冷却系统创新(液体/空气动力学设计)持续突破[36] 未来战略布局 - Omniverse+Cosmos构建物理世界数字孪生系统,实现机器人训练效率指数级提升(虚拟环境日训练量超物理世界数年)[22][24][25] - 三大重点领域:人形机器人(5年内商业化)、数字生物学(分子/细胞语言解码)、区域气候精准预测[37][38][39] - 生成式AI演进路径:从基础模型(如ChatGPT)→事实约束模型→物理世界模型(Cosmos),解决AI幻觉问题[23][24] 产业影响与产品迭代 - GeForce RTX 50系列实现800万像素图像中仅需处理50万像素,AI补全剩余部分,图形处理效率提升16倍[43] - AI超级计算机从25万美元(DGX-1)降至3000美元消费级产品,推动AI研发民主化[44] - 预测所有移动物体将自动化(自动驾驶车辆、服务机器人等),物理AI将重构物流、农业等产业[26][27] 技术哲学与创新方法论 - 坚持第一性原理:基于物理定律/数学限制推演技术路径,非短期市场导向[15][16] - 硬件设计保持通用性,反对固化特定算法架构(如Transformer),保留支持未来未知创新的灵活性[33][34] - 创新"混合体"模式:30%用户需求(游戏开发者)+30%内部需求(虚拟世界物理模拟)+40%前沿研究启发(医疗影像)[7][8] 社会应用展望 - AI导师系统将降低各领域学习门槛,形成"人类+AI"的增强智能范式[41][42] - 工作范式变革:创意实现周期从周级缩短至分钟级,重复劳动近乎消失[41] - 安全体系构建:借鉴航空业三重冗余设计,建立AI安全社区架构应对偏见/幻觉/系统故障[29][30]