异构计算

搜索文档
麻省理工大学:《通往通用人工智能之路》的研究报告
欧米伽未来研究所2025· 2025-08-15 14:45
通用人工智能(AGI)发展现状 - AGI定义为实现经济价值领域超越人类的全自主系统 但专家认为需涵盖更广的智能维度如适应性重组能力[4] - 当前AI在专业领域(药物发现 代码编写)表现优异 但解决基础谜题能力远逊人类 显示认知鸿沟[2] - 最先进大型语言模型在ARC-AGI-2基准测试得分为0% 而人类接近满分 凸显适应性缺陷[4] AGI实现时间表加速 - GPT出现前AGI预测需80年 GPT-3发布后缩短至50年 2024年底预测进一步骤降至5年[3] - 行业领袖预测: Anthropic联合创始人认为"强大AI"可能2026年出现 具备跨界面自主推理能力[3] - 综合预测显示50%概率2028年前实现多项AGI里程碑 2047年机器全面超越人类概率达50%[4] 技术瓶颈与突破路径 - 计算能力需求: AGI可能需要超10^16 teraflops 2037年计算成本或超美国GDP[5] - 深度学习时代计算量翻倍时间从21个月缩短至5.7个月 需转向高效异构计算架构[5][6] - 硬件创新需结合CPU/GPU/NPU/TPU 配套软件工具实现跨平台代码运行[7] - 根本性障碍在于智能定义本身 需突破概率图谱技术基础 寻求类似Transformer的架构革命[7][8] 智能本质的重新定义 - 需建立超越人类成就的新框架 纳入流体智能/社交智能/具身智能等维度[8] - 智能被重新定义为"有效重组已知事物解决新问题的能力" 当前AI缺乏此核心特质[4] - 视觉感知/精细运动/创造力/情感互动等8项人类能力仍是AI显著短板[5] 行业生态发展趋势 - OpenAI CEO认为AGI将引发堪比电力/互联网的社会变革 创造超指数级社会经济价值[3] - 实现路径需硬件/软件/算法/定义的四重革命 形成统一生态系统[8][9] - 麦肯锡数据显示当前AI在色彩一致性/上下文理解/同理心等方面存在明显不足[5]
云工场(02512)与香农芯创订立合资协议
智通财经网· 2025-08-12 21:29
合资公司成立 - 云工场与香农芯创成立合资公司,注册资本为人民币1.2亿元,云工场出资9000万元占比75%,香农芯创出资3000万元占比25% [1] - 合资公司将作为云工场附属公司入账,财务业绩并入集团综合财务报表 [1] - 合资公司旨在开拓智算服务市场,整合双方技术知识、行业协调能力和业务网络 [1] 业务协同与战略意义 - 智算业务与公司现有业务相辅相成,可产生协同效应,现有客户对计算资源和处理能力需求稳定增长 [1] - 公司凭借技术专长、分布式运算投入、成熟供应链和自主研发资源调度平台,具备提供智算服务能力 [1] - 合资公司将强化技术升级,获取先进计算芯片,丰富异构计算资源池 [1] 市场拓展计划 - 合资公司将加速智算业务拓展,包括为各类客户建立智算中心,提升无锡及长三角地区计算资源可用性 [1] - 公司可通过合资公司深化与当地政府及行业主要参与者合作,接触大型国际及本地企业客户 [1] - 合资公司将帮助公司抢占智算行业先发优势,巩固在边缘计算、人工智能及异构计算领域的领先地位 [1] 技术发展机遇 - 合资公司将使公司更容易获取大型企业的国际国内技术资源,优化边缘多模态大模型推理框架 [1] - 通过合资公司网络可获取多元化先进智算设备,建立市场竞争壁垒,提升品牌知名度 [1] - 合资公司将吸引尖端互联网企业及金融、能源等行业客户 [1]
PCIe,狂飙20年
半导体行业观察· 2025-08-10 09:52
PCIe技术发展历程 - PCIe 8.0标准发布,数据传输速率达256GT/s,实现带宽翻倍,成为技术发展里程碑[1] - PCIe技术用20余年重构计算机数据传输格局,从串行总线革命到每秒256GT速度突破[1] - PCIe最初由Intel在2001年提出,旨在替代旧的PCI、PCI-X和AGP总线标准[3] - PCIe通过串行总线架构实现对传统PCI并行总线的全面革新[9] - PCIe技术历经8代迭代,从1.0的2.5GT/s到8.0的256GT/s,每代实现速率翻倍[13][43] PCIe核心技术特性 - 串行通信机制:以串行传输替代并行架构,减少信号干扰,提升传输效率[11] - 点对点连接设计:每个外设通过独立链路直接对接根复合体,消除总线竞争瓶颈[11] - 可扩展带宽能力:支持通过通道数量线性扩展带宽,匹配不同设备需求[11] - 采用PAM4调制技术替代传统NRZ编码,实现带宽翻倍[23] - 引入流量控制单元(FLIT)编码,提升传输效率[27] PCIe各代技术演进 - PCIe 1.0:2003年推出,单通道2.5GT/s,带宽250MB/s[14] - PCIe 2.0:2007年发布,速率翻倍至5GT/s,带宽500MB/s[15][17] - PCIe 3.0:2010年发布,速率8GT/s,带宽约1GB/s[17][18] - PCIe 4.0:2017年问世,速率16GT/s,带宽约2GB/s[19] - PCIe 5.0:2019年发布,速率32GT/s,带宽约4GB/s[22] - PCIe 6.0:2022年发布,速率64GT/s,带宽8GB/s[23] - PCIe 7.0:2024年公布,速率128GT/s,带宽16GB/s[27][31] - PCIe 8.0:2025年开发中,速率256GT/s,带宽32GB/s[38][42] PCIe市场应用 - 云计算领域占据最大份额(超过50%),主导数据中心和服务器应用[46] - 汽车行业采用率自2020年起稳步上升,满足AI和ADAS需求[46] - 移动设备市场份额稳定在10%-20%,用于智能设备和高效互联[46] - 消费类电子市场份额逐步扩大,应用于家庭设备和个人电脑[46] - 工业领域采用率缓慢增长,重要性随工业自动化和IoT发展日益凸显[46] PCIe技术挑战与竞争 - 面临NVLink、Infinity Fabric等专用互联技术的挑战[55] - UALink联盟成立,开发开放行业标准应对AI数据中心需求[56] - CXL协议推出,实现与PCIe兼容的同时满足异构计算需求[63] - 光互连技术有望突破电信号传输物理瓶颈[37][71] - 速率持续翻倍面临信号质量、走线设计和封装材料等挑战[43]
人工智能引领 生态优势显著 海光信息上半年业绩高增长
上海证券报· 2025-08-06 02:16
核心观点 - 海光信息2025年上半年实现营业收入54.64亿元,同比增长45.21%,净利润12.01亿元,同比增长40.78% [1] - 业绩高增长主要受益于人工智能引领和生态优势,高端处理器产品在产业生态中的版图不断扩张 [1][2] - "CPU+AI加速处理器"的异构计算新范式正重塑算力格局,公司独特优势将充分受益于国产AI集群时代全面开启 [3][5] - 公司具有兼容x86和CUDA的显著生态优势,CPU兼容x86指令集,DCU具有"类CUDA"计算环境 [6] - 2025年上半年研发投入17.11亿元,同比增长24.68%,占营收31.31%,累计取得多项知识产权 [8] - 公司正推进吸收合并中科曙光,旨在实现芯片与整机领域的优势互补和深度融合 [8][9][10] 财务表现 - 2025年上半年营业收入54.64亿元,同比增长45.21% [1] - 归属于上市公司股东的净利润12.01亿元,同比增长40.78% [1] - 一季度营收和净利润分别同比增长50.76%和75.33% [1] - 研发投入17.11亿元,同比增长24.68%,占营收31.31% [8] 产品与技术优势 - 主要产品包括高端通用处理器(CPU)和协处理器(DCU) [2] - CPU支持数据中心、云计算等高端服务器及政务、企业等中低端服务器 [2] - DCU实现"训推一体"AI场景全覆盖,适配不同API接口和编译器 [2] - CPU兼容x86指令集,能兼容数百万款基于x86的软件 [6] - DCU采用通用并行计算架构,适配国际主流商业计算和AI软件 [6] - 构建覆盖固件层到应用层的全栈安全防护,实现数据全生命周期隔离保护 [6] 市场与生态布局 - 高端处理器涉及的行业应用及新兴AI大模型产业逐渐增多 [1] - 联合国内主流服务器厂商打造万余项产品和联合解决方案 [7] - CPU已应用于电信、金融、互联网、教育、交通等行业 [7] - DCU主要面向大数据处理、商业计算等计算密集型领域 [7] - AI算力正迈入"系统级融合"时代,注重万卡级训练集群等全面能力 [5] 研发与知识产权 - 2025年上半年研发投入17.11亿元,同比增长24.68% [8] - 累计取得发明专利923项、实用新型专利118项、外观设计专利3项 [8] - 累计取得集成电路布图设计登记证书309项、软件著作权338项 [8] - 累计申请知识产权项目3011项 [8] 战略发展 - 推进吸收合并中科曙光,构建从芯片设计到算力服务的全栈能力 [8][9][10] - 交易旨在实现芯片与整机领域的优势互补和深度融合 [9] - 通过产业链垂直整合提升与国际龙头企业的竞争能力 [10]
当前处理器架构,还有哪些提升机会?
半导体行业观察· 2025-07-20 12:06
处理器架构效率提升的挑战与机遇 核心观点 - 处理器设计从单纯追求性能转向性能与功耗平衡 性能的小幅提升若导致功耗不成比例增加 设计人员可能放弃改进转而采用更具能效的方案[3] - 当前架构在性能和功耗方面的持续改进变得越来越困难 行业正在通过微架构重新设计、工艺改进、3D-IC等技术寻求突破[3][4] - 架构层面的优化比实现层面更具潜力 但需权衡面积、功耗与性能的关系[6][8] 工艺与封装技术 - 工艺改进仍是降低功耗的首要方法 22纳米比28纳米能耗特性更好 12纳米是高效设计的流行节点[3] - 3D-IC的功耗介于单片芯片和PCB级组件之间 比传统多芯片方案功耗更低、速度更高[4] - 共封装光学器件(CPO)降低功耗的技术经济性正在改善 因高速数字通信需求增强[4] 架构优化技术 - 推测执行(分支预测)和乱序执行可提升性能但增加复杂度 分支预测性能提升可达30% 总开销在20%-30%之间[7][8] - 并行化是提高性能的关键机会 但受限于阿姆达尔定律和编程复杂性 数据中心服务器处理器核心数达约100个[9][10] - "杀戮法则"指出 若新增功能增加的面积大于性能提升 则不应添加该功能[8] 加速器与异构计算 - 定制NPU比通用NPU效率更高 Expedera数据显示定制NPU使处理器效率(TOPS/W)提升3-4倍 利用率提升2倍以上[14][15] - 加速器作为非阻塞卸载可有效处理特定任务 同时让CPU执行其他工作或休眠[12][14] - 异构计算结合处理核心和NPU 针对AI处理的优化可避免低效的CPU和GPU运算[14] 技术局限性 - 异步设计因性能不可预测和触发器复杂度高 未能成为主流设计方法[5] - 数据和时钟门控可抑制杂散功耗 但实现层面的节能机会有限[5][6] - 多核处理器商业失败主因是开发者拒绝显式并行编程 GPU/TPU是少数成功渗透的领域[11] 未来方向 - 大量简单CPU组成的阵列可能是可行之路 但需AI创建并行编译器来改变编程方法[12] - 新处理器架构可能成为最终解决方案 但受限于现有生态系统的转换难度[16]
赛道Hyper | 英伟达携手联发科入局电竞本市场
华尔街见闻· 2025-06-03 10:47
合作与技术细节 - 英伟达与联发科联合开发高性能APU,计划2026年初推出,并与戴尔Alienware合作推出新机 [1] - APU采用英伟达Blackwell架构GPU模块(推测为GB206或GB207精简版)和联发科定制Arm架构CPU核心 [1] - Blackwell架构基于台积电4nm工艺,光线追踪性能提升2倍,AI推理速度提升4倍 [1] - GB206配备36组SM、4608个CUDA核心,搭配128-bit GDDR7显存,性能接近65W版RTX 4070移动显卡 [1] - 联发科新一代CPU核心(类似天玑9500架构)与GPU协同优化后,整体能效比提升约30% [1] - APU的TDP控制在65W左右,较传统方案降低约30%功耗 [2] - 联发科能效管理技术与英伟达DLSS 3.5技术结合,延长续航时间 [2] - 台积电CoWoS先进封装技术用于芯片高密度集成,2025年底月产能将达7.5-8万片晶圆 [3] 市场机遇 - 合作瞄准电竞笔记本性能革新,APU方案可将机身厚度降低15%-20% [5][6] - 2024年全球游戏笔记本出货量同比增长9%,预计2028年中国市场出货量达920万台,年复合增长率4.2% [6] - 戴尔Alienware新机可能采用液态金属散热技术,65W TDP下实现接近120W独显性能 [6] - APU集成NPU支持生成式AI应用,抢占企业级AI PC市场 [7][8] - 2025年全球AI PC出货量预计突破1.03亿台,占PC总出货量40% [9] 竞争格局 - 合作将打破AMD在APU领域的垄断地位 [1] - AMD Ryzen APU在轻薄本市场占优,最新Strix Halo APU核显性能接近RTX 3080 [9] - AMD与台积电3nm制程合作可能强化其高性能计算地位 [9] - 英特尔加速推进Intel 4工艺和Arc显卡技术,Meteor Lake处理器集成CPU、GPU、NPU [9] - 英特尔计划将Falcon Shores AI芯片采用台积电3nm工艺,对标英伟达APU布局 [10] 行业影响 - APU技术进入高性能时代,可能推动轻薄电竞本成为主流 [10] - 戴尔Alienware新机可能采用无风扇或液态金属散热技术 [10] - APU普及可能推动UCIe等开放标准应用,促进不同厂商芯片互操作性 [10] - 英伟达NVLink Fusion技术为跨厂商硬件协同提供基础 [10] - 市场竞争加剧,AMD可能加速Zen5与RDNA4整合,英特尔加大Arc显卡投入 [10]
混合键合,风云再起
半导体行业观察· 2025-05-03 10:05
混合键合技术概述 - 混合键合技术是后摩尔时代突破芯片性能瓶颈的关键路径,通过铜-铜直接键合与介质键合实现高密度垂直互连,互连间距可缩小至亚微米级甚至纳米级 [1][3] - 该技术相较传统凸块键合(20μm以上)可将单位面积I/O接点数量提升千倍以上,数据传输带宽大幅提升 [3] - 技术优势包括极致互连密度与性能突破、热管理与可靠性提升、三维集成与异构设计灵活性、工艺兼容性与成本优化潜力 [3] 技术应用进展 - SK海力士在HBM3E中采用混合键合技术,散热性能显著提升,成功通过12层以上堆叠可靠性测试 [5] - 三星在3D DRAM中通过混合键合替代部分TSV,芯片表面积降低30%,计划从2025年下半年量产的V10 NAND开始引入该技术 [8] - 台积电SoIC技术通过混合键合实现逻辑芯片与SRAM堆叠,使AMD 3D V-Cache处理器L3缓存容量提升3倍,性能提高15% [8] - 博通3.5D XDSiP平台通过混合键合实现7倍于传统封装的信号密度,平面芯片间PHY接口功耗降低90% [8] - 索尼2016年为三星Galaxy S7 Edge生产的IMX260 CIS是首个采用混合键合技术的商用化产品,接点间距仅9µm [11] 设备市场发展 - 全球混合键合设备市场规模2023年约4.21亿美元,预计2030年达13.32亿美元,年复合增长率30% [13] - 应用材料通过收购BESI 9%股权构建混合键合全链条能力,目标覆盖从介电层沉积到键合的全链条需求 [14][15] - ASMPT聚焦热压键合与混合键合双技术路线,2024年推出AOR TCB™技术支持12-16层HBM堆叠,I/O间距缩小至个位数微米 [16] - BESI预计2025年混合键合系统需求将急剧增加,目标市占率提升至40%,计划越南工厂二期扩产新增年产180台混合键合机产能 [18] - 库力索法主推Fluxless TCB技术,成本较混合键合低40%,计划2026年推出支持90×120mm大芯片的机型 [20][21] 行业竞争格局 - 混合键合设备市场竞争本质是"精度、成本、生态"的三重博弈 [22] - 应用材料通过全流程整合形成全产业链整合能力,ASMPT以精度壁垒引领HBM封装升级,BESI凭借高精度设备在AI领域实现快速增长,库力索法以TCB性价比延缓技术替代 [22] - 国产设备厂商如拓荆科技、青禾晶元、芯慧联等加速布局混合键合领域,推动国产替代进程 [22] 技术发展前景 - 混合键合技术预计到2030年将覆盖全球30%以上的高端芯片市场 [12] - 该技术将持续推动半导体产业向更高密度、更低功耗的方向演进,成为后摩尔时代的核心竞争力 [12] - 随着HBM4量产临近(预计2026年),具备设备-材料-工艺协同能力的厂商将主导市场 [22]
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 08:15
DeepSeek-R1模型技术突破 - 模型性能指标与OpenAI等领军企业产品相当甚至超越 计算资源需求较同类减少30% [1] - 独创分布式训练框架和动态量化技术使单位算力推理效能提升40% [1] - 多头潜注意力机制(MLA)实现内存占用降低50% 但开发复杂度显著增加 [2] MLA技术创新与挑战 - 键值矩阵存储密度提升18-23倍 4096 tokens上下文窗口内存占用量从96GB降至7.2GB(降幅92.5%) [4][5] - 非英伟达GPU部署需手动实现37%算子级优化 工程周期平均延长2.8周 [5] - RISC-V架构处理器运行MLA时推理延迟激增300% [6] 全球AI算力发展格局 - 全球AI算力支出占比从2016年9%升至2022年18% 预计2025年达25% [9] - 2022年全球智能算力规模451EFlops首次超越基础算力(440EFlops) 同比增速94.4% [10] - GPT-4单次训练消耗超2.5万块A100 GPU 相当于1200个美国家庭年用电量 [10] 算力市场竞争态势 - 美国科技巨头2023年AI算力投入占资本开支超60% 中国2022年AI算力支出增速38% [11] - 中美欧形成三足鼎立格局(美34% 中33% 欧17%) 竞争转向生态控制 [12] - 中国国产AI芯片良率仅达国际水平60% 先进制程代工依赖构成隐忧 [13] 新一代计算基础设施需求 - 需实现即插即用式替换 开发者仅需最小化修改即可部署各类系统 [15] - 要求自适应实时性能优化 硬件能动态调整资源配置维持峰值利用率 [16] - 必须突破传统架构桎梏 构建多层次算力矩阵应对指数级增长需求 [18] 中国算力产业发展 - 2024年全国算力总规模突破280EFLOPS 智能算力占比超30% [18] - 2025年中国智能算力预计突破千亿EFLOPS 2026年实现两年翻番 [19] - 推理算力年复合增速将达训练算力四倍 推动形成三位一体算力生态 [20]
沐曦正式启动A股IPO:燧原科技、壁仞科技、摩尔线程早前均已签署辅导协议
IPO早知道· 2025-01-16 10:21
公司IPO进程 - 沐曦于2025年1月12日与华泰联合证券签署辅导协议,正式启动A股IPO进程 [2] - 沐曦是继燧原科技、壁仞科技和摩尔线程后,不到半年内第四家启动A股上市进程的芯片独角兽 [2] - 燧原科技、壁仞科技和摩尔线程分别于2024年8月23日、9月10日和11月6日与中金公司、国泰君安证券和中信证券签署A股辅导协议 [2] 公司业务与技术 - 沐曦致力于为异构计算提供全栈GPU芯片及解决方案 [1][2] - 解决方案可广泛应用于智算、智慧城市、云计算、自动驾驶、数字孪生、元宇宙等前沿领域 [2] - 团队核心成员平均拥有近20年高性能GPU产品端到端研发经验,曾主导过十多款世界主流高性能GPU产品研发及量产 [2] - 全栈GPU芯片产品包括:曦思®N系列GPU产品(智算推理)、曦云®C系列GPU产品(通用计算)、曦彩®G系列GPU产品(图形渲染) [3] - 产品采用完全自主研发的GPU IP,拥有完全自主知识产权的指令集和架构,并配有兼容主流GPU生态的完整软件栈(MXMACA®) [3] 公司融资情况 - 已获得和利资本、泰达科投、红杉中国、真格基金、经纬创投、光速光合、国调基金等数十家知名机构的投资 [3]