Workflow
异构计算
icon
搜索文档
算力需求井喷,英特尔至强6如何当好胜负手?
半导体芯闻· 2025-06-27 18:21
AI算力架构变革 - AI基础设施正从"GPU为中心"转向"多设备协同"的异构计算架构,传统GPU算力架构面临边际效能递减挑战[2][7] - 大模型负载需要CPU和GPU协同配合,涉及数据采集、清洗、标注、RAG等多个环节,要求企业同步升级两类算力资源[4][5] - 英特尔提出基于异构的四大解决方案:数据预处理CPU流水线(训练性价比提升10%)、投机执行CPU+GPU方案、KVCache QAT压缩优化(Qwen2.5-14B首词延迟下降)、稀疏感知MoE CPU卸载(DeepSeek-R1并发数从11提升至27)[6][7] 至强6处理器技术突破 - 至强6采用模块化设计,I/O与计算模块解耦,支持灵活扩展(最高288核),BIOS框架升级实现性能核与能效核动态调度[10] - 性能飞跃:内存带宽提升2.3倍(12通道DDR5达6400MT/s),PCIe带宽提升1.2倍,跨插槽通信提升1.8倍,支持CXL 2.0[12][13] - 内置硬件加速模块:单个QAT引擎可替代6.8个CPU核心,4个QAT模块释放32核资源;AMX加速器提升AI任务效率[13] - 场景性能:6900系列性能提升2倍,能效比提升1.4倍;云计算场景实现2倍核心密度,60%能效提升,30% TCO节省[13][14] 芯云协同实践 - 英特尔与火山引擎合作推出第四代ECS实例,CPU频率提升20%,网络存储带宽最大提升100%,IOPS/PPS提升30%[18][20] - RAG应用全链路优化:利用AMX加速器使任务耗时最多减少90%,CPU推理吞吐能力提升114%[20][22] - 双单路架构增强稳定性,新增支持Jumbo Frame、TDX机密计算及新型SSD云盘[20] 本地化部署方案 - 推出锐炫GPU+至强CPU的高性价比一体机,提供纯本地部署(数据不出域)和云边协同部署两种架构[24][27] - 锐炫Pro B60配备24GB显存,支持32K-128K token上下文窗口,通过EAP软件封装实现模型"零改造"迁移[28] - 集成Grafana监测系统,提供完整可观测性,支持与企业现有运维体系集成[28]
赛道Hyper | 英伟达携手联发科入局电竞本市场
华尔街见闻· 2025-06-03 10:47
合作与技术细节 - 英伟达与联发科联合开发高性能APU,计划2026年初推出,并与戴尔Alienware合作推出新机 [1] - APU采用英伟达Blackwell架构GPU模块(推测为GB206或GB207精简版)和联发科定制Arm架构CPU核心 [1] - Blackwell架构基于台积电4nm工艺,光线追踪性能提升2倍,AI推理速度提升4倍 [1] - GB206配备36组SM、4608个CUDA核心,搭配128-bit GDDR7显存,性能接近65W版RTX 4070移动显卡 [1] - 联发科新一代CPU核心(类似天玑9500架构)与GPU协同优化后,整体能效比提升约30% [1] - APU的TDP控制在65W左右,较传统方案降低约30%功耗 [2] - 联发科能效管理技术与英伟达DLSS 3.5技术结合,延长续航时间 [2] - 台积电CoWoS先进封装技术用于芯片高密度集成,2025年底月产能将达7.5-8万片晶圆 [3] 市场机遇 - 合作瞄准电竞笔记本性能革新,APU方案可将机身厚度降低15%-20% [5][6] - 2024年全球游戏笔记本出货量同比增长9%,预计2028年中国市场出货量达920万台,年复合增长率4.2% [6] - 戴尔Alienware新机可能采用液态金属散热技术,65W TDP下实现接近120W独显性能 [6] - APU集成NPU支持生成式AI应用,抢占企业级AI PC市场 [7][8] - 2025年全球AI PC出货量预计突破1.03亿台,占PC总出货量40% [9] 竞争格局 - 合作将打破AMD在APU领域的垄断地位 [1] - AMD Ryzen APU在轻薄本市场占优,最新Strix Halo APU核显性能接近RTX 3080 [9] - AMD与台积电3nm制程合作可能强化其高性能计算地位 [9] - 英特尔加速推进Intel 4工艺和Arc显卡技术,Meteor Lake处理器集成CPU、GPU、NPU [9] - 英特尔计划将Falcon Shores AI芯片采用台积电3nm工艺,对标英伟达APU布局 [10] 行业影响 - APU技术进入高性能时代,可能推动轻薄电竞本成为主流 [10] - 戴尔Alienware新机可能采用无风扇或液态金属散热技术 [10] - APU普及可能推动UCIe等开放标准应用,促进不同厂商芯片互操作性 [10] - 英伟达NVLink Fusion技术为跨厂商硬件协同提供基础 [10] - 市场竞争加剧,AMD可能加速Zen5与RDNA4整合,英特尔加大Arc显卡投入 [10]
芯原股份(688521):专用ASIC芯片领域持续变革,公司有望受益
群益证券· 2025-05-21 15:31
报告公司投资评级 - 投资评级为买进 [9][13] - 目标价为 108 元 [1] 报告的核心观点 - 报告研究的具体公司作为中国本土第一的 IP 企业,利用自身 IP 资源和研发能力为客户提供一站式芯片定制服务 2024 年公司量产业务新签订单较 2023 年增长 180%,反映 AI 浪潮带来的数据处理及物联网需求的高速增长 [9] - 英伟达发布新的 NVLink Fusion 降低第三方开发高性能互连芯片的开发门槛,有利于互联网厂商打造异构计算体系,将加速其在专用处理芯片 ASIC 领域的布局,公司有望从行业变革中持续受益 [9][13] - 目前公司股价对应 2027 年 PS(市销率)9 倍,考虑到公司业绩潜力较大,给予买进建议 [9][13] 公司基本资讯 - 产业别为电子 [2] - 2025 年 5 月 20 日 A 股价为 87.59 元,上证指数为 3380.48 [2] - 股价 12 个月高/低为 111/24.45 元 [2] - 总发行股数为 500.85 百万股,A 股数为 498.99 百万股,A 股市值为 437.06 亿元 [2] - 主要股东为芯原股份有限公司,持股比例 15.11% [2] - 每股净值为 3.84 元,股价/账面净值为 22.83 [2] - 股价一个月、三个月、一年涨跌分别为 -16.7%、39.1%、195.5% [2] 近期评等 - 2023 年 1 月 19 日前日收盘 57.18 元,评等为买进 [3] - 2022 年 12 月 23 日前日收盘 45.72 元,评等为买进 [3] 产品组合 - 芯片量产业务占比 43.4%,IP 授权使用费占比 33.5%,芯片设计业务占比 17.8%,特许权使用费占比 5.3% [4] 机构投资者占比 - 基金占流通 A 股比例为 29.7% [6] 财务数据 盈利预测 - 预计 2025 - 2027 年营收 30.7 亿元、38.4 亿元和 47.4 亿元,YOY 分别增长 32%、25%和 23%,实现净利润 -0.26 亿、0.53 亿元和 2 亿元,EPS 分别为 -0.05 元、0.11 元和 0.40 元 [13] - 2023 - 2027 年纯利分别为 -296 百万元、-601 百万元、-26 百万元、53 百万元、201 百万元,2027 年同比增减 278.2% [11] - 2023 - 2027 年每股盈余分别为 -0.59 元、-1.2 元、-0.05 元、0.11 元、0.40 元,2027 年同比增减 278.2% [11] - 2026 - 2027 年市盈率分别为 823.2 倍、217.7 倍 [11] - 2023 - 2027 年股利均为 0 元,股息率均为 0% [11] 合并损益表 |项目|2023|2024|2025F|2026F|2027F| | ---- | ---- | ---- | ---- | ---- | ---- | |营业收入(百万元)|2338|2322|3067|3836|4734|[18]| |经营成本(百万元)|1292|1396|1832|2404|3154|[18]| |营业利润(百万元)|-271|-583|-32|67|255|[18]| |利润总额(百万元)|-269|-582|-32|67|255|[18]| |归属于母公司所有者的净利润(百万元)|-296|-601|-26|53|201|[18]| 合并资产负债表 |项目|2023|2024|2025F|2026F|2027F| | ---- | ---- | ---- | ---- | ---- | ---- | |货币资金(百万元)|689|747|887|968|1145|[19]| |应收账款(百万元)|1022|943|989|1064|1171|[19]| |流动资产合计(百万元)|2718|2638|2794|2903|3045|[19]| |固定资产(百万元)|505|721|851|970|1018|[19]| |资产总计(百万元)|4406|4630|5264|5965|6842|[19]| |负债合计(百万元)|1706|2508|3167|3815|4491|[19]| |股东权益合计(百万元)|2700|2122|2097|2150|2351|[19]| 合并现金流量表 |项目|2023|2024|2025F|2026F|2027F| | ---- | ---- | ---- | ---- | ---- | ---- | |经营活动产生的现金流量净额(百万元)|-9|-346|-150|119|188|[20]| |投资活动产生的现金流量净额(百万元)|-426|47|-400|-340|-310|[20]| |筹资活动产生的现金流量净额(百万元)|357|248|690|302|299|[20]| |现金及现金等价物净增加额(百万元)|-77|-42|140|81|177|[20]| 行业动态 - 英伟达在 Compute X 上发布新的 NVLink Fusion,将自身专有互连技术与交换机开放给第三方定制加速器和 CPU,可提升数据传输速度与处理效率,降低延迟,构建更强大的异构计算系统,有望加速互联网厂商在专用处理芯片 ASIC 领域的布局 [13] 公司近况 - 2025 年一季度公司实现营收 3.9 亿元,YOY 增长 22.5%;亏损 2.2 亿元,亏损较上年扩大 0.13 亿元,EPS -0.44 元 [13] - 1Q25 公司晶片设计业务及量产业务均录得 4 成以上增长,带动收入端提升,但由于量产业务毛利率相对 ip 授权业务较低,致使综合毛利率较上年同期下降 6.6 个百分点至 39.1% [13]
Computex2025追踪:英伟达NVLinkFusion推动开放式异构计算
海通国际证券· 2025-05-20 19:27
报告行业投资评级 未提及 报告的核心观点 2025年5月19日英伟达CEO黄仁勋在Computex大会阐释公司在AI基础设施、物理AI及前沿技术应用的战略布局与突破,包括开放NVLink技术、推出GB300超级计算机、发展机器人全栈平台、提供企业级AI解决方案及强化台湾产业链合作等,有望推动AI产业发展并巩固英伟达生态话语权 [1][10] 根据相关目录分别进行总结 NVLink Fusion - 英伟达首次开放NVLink高速互连技术,支持第三方芯片与英伟达GPU协同,带宽达130TB/s,较传统PCIe提升10倍 [2][11] - 开放IP后客户可自主集成,虽可能牺牲部分性能,但能吸引合作伙伴构建联盟,巩固生态话语权 [2][11] - 通过相关技术可将千卡集群利用率从60%提升至90%,训练成本降低50%以上,支持异构计算场景 [2][11] GB300超级计算机 - 基于Blackwell Ultra架构,集成72个GPU和36个Grace CPU,推理性能较前代提升1.5倍,HBM3e显存容量达288GB,网络带宽翻倍至130TB/s [3][12] - 全液冷设计支持132kW/机架的功率密度,单机架算力达40 PetaFLOPS,能效提升5倍 [3][12] - 量产计划于2025年Q3启动,已获多家云服务商订单 [3][12] 机器人全栈平台与物理AI - Isaac Groot N1.5平台整合全流程,开源基础模型通过合成数据生成框架,仅需36小时即可完成传统需三个月的训练任务 [4][13] - 结合Newton物理引擎,机器人仿真精度达毫米级,实时性提升10倍,数据采集成本降低90% [4][13] - 英伟达提出“三台计算机”战略,目标2030年实现“单台机器人完成90%工业任务”,推动人形机器人成为万亿美元产业 [4][13] 企业级AI解决方案与开发者工具 - RTX Pro企业服务器支持LLaMA 70B模型推理性能达H100的1.7倍,DeepSeek - R1性能提升4倍,可同时运行工业软件与生成式AI模型 [5][14] - DGX Spark工作站提供1 PetaFLOPS算力,支持万亿参数模型本地化运行,ConnectX - 8网络模块带宽达800Gbps,推动AI开发从云端向边缘渗透 [5][14] - 英伟达联合企业通过Omniverse平台构建工业数字孪生,优化制造流程与能效 [5][14] 台湾产业链绑定与全球战略 - 英伟达强化与台积电、富士康合作,台湾供应链占据全球AI服务器60%以上产能 [6][15] - 新建台北办公中心支持本地研发与生产,与台积电、富士康共建台湾首座AI超算中心,巩固半导体制造中枢地位 [6][15] - 黄仁勋提出“AI工厂”愿景,预计未来十年AI算力每10年提升100万倍,市场规模达数万亿美元 [6][15]
混合键合,风云再起
半导体行业观察· 2025-05-03 10:05
混合键合技术概述 - 混合键合技术是后摩尔时代突破芯片性能瓶颈的关键路径,通过铜-铜直接键合与介质键合实现高密度垂直互连,互连间距可缩小至亚微米级甚至纳米级 [1][3] - 该技术相较传统凸块键合(20μm以上)可将单位面积I/O接点数量提升千倍以上,数据传输带宽大幅提升 [3] - 技术优势包括极致互连密度与性能突破、热管理与可靠性提升、三维集成与异构设计灵活性、工艺兼容性与成本优化潜力 [3] 技术应用进展 - SK海力士在HBM3E中采用混合键合技术,散热性能显著提升,成功通过12层以上堆叠可靠性测试 [5] - 三星在3D DRAM中通过混合键合替代部分TSV,芯片表面积降低30%,计划从2025年下半年量产的V10 NAND开始引入该技术 [8] - 台积电SoIC技术通过混合键合实现逻辑芯片与SRAM堆叠,使AMD 3D V-Cache处理器L3缓存容量提升3倍,性能提高15% [8] - 博通3.5D XDSiP平台通过混合键合实现7倍于传统封装的信号密度,平面芯片间PHY接口功耗降低90% [8] - 索尼2016年为三星Galaxy S7 Edge生产的IMX260 CIS是首个采用混合键合技术的商用化产品,接点间距仅9µm [11] 设备市场发展 - 全球混合键合设备市场规模2023年约4.21亿美元,预计2030年达13.32亿美元,年复合增长率30% [13] - 应用材料通过收购BESI 9%股权构建混合键合全链条能力,目标覆盖从介电层沉积到键合的全链条需求 [14][15] - ASMPT聚焦热压键合与混合键合双技术路线,2024年推出AOR TCB™技术支持12-16层HBM堆叠,I/O间距缩小至个位数微米 [16] - BESI预计2025年混合键合系统需求将急剧增加,目标市占率提升至40%,计划越南工厂二期扩产新增年产180台混合键合机产能 [18] - 库力索法主推Fluxless TCB技术,成本较混合键合低40%,计划2026年推出支持90×120mm大芯片的机型 [20][21] 行业竞争格局 - 混合键合设备市场竞争本质是"精度、成本、生态"的三重博弈 [22] - 应用材料通过全流程整合形成全产业链整合能力,ASMPT以精度壁垒引领HBM封装升级,BESI凭借高精度设备在AI领域实现快速增长,库力索法以TCB性价比延缓技术替代 [22] - 国产设备厂商如拓荆科技、青禾晶元、芯慧联等加速布局混合键合领域,推动国产替代进程 [22] 技术发展前景 - 混合键合技术预计到2030年将覆盖全球30%以上的高端芯片市场 [12] - 该技术将持续推动半导体产业向更高密度、更低功耗的方向演进,成为后摩尔时代的核心竞争力 [12] - 随着HBM4量产临近(预计2026年),具备设备-材料-工艺协同能力的厂商将主导市场 [22]
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 12:18
产品性能与定价 - 褐蚁HY90一体机搭载671B参数FP8精度原版DeepSeek模型,价格降至14.9万元级别,较传统百万级设备成本降低一个数量级[1][5][19][31] - 推理速度达22 tokens/s,优于DeepSeek官网表现,数学题等复杂任务仍保持20+ tokens/s[4][10][16] - 采用双路AMD 9005系列CPU+消费级GPU异构架构,1TB/s高内存带宽突破"内存墙",硬件成本控制在10万元内[24][25] 技术架构与创新 - 自主研发推理引擎框架,FP8精度下Decode阶段速度稳定20+TPS,128K上下文仍保持15TPS,16K上下文首字延迟≤80秒[26][27] - 支持INT4量化技术,Decode速度提升至28TPS(1K上下文),预留1.5T参数模型扩展能力[26][28] - 通过参数压缩与算法优化,实现满血FP8精度模型部署,未来将支持MoE类模型[27][29] 公司背景与团队 - 创始人季宇为清华90后博士,CCF优博奖得主,曾任华为昇腾AI芯片编译器专家,入选"天才少年"计划[6][35][38][39] - CTO余洪敏为中科院博士,主导过百度昆仑芯、华为车载昇腾芯片等10余款芯片流片与量产[40][41][42] - 获智谱AI、峰瑞资本等明星机构投资,成立两年即实现技术突破[42][43][44] 行业影响 - 改写行业格局,将满血671B模型部署成本从百万级降至10万元级,同类低配方案价格区间原为20-40万元[31][32] - 推动大模型在智能客服、数据分析等场景的普惠应用,为中小团队提供高扩展性AI部署方案[32][33]
超越DeepSeek?巨头们不敢说的技术暗战
36氪· 2025-04-29 08:15
无可置疑的,DeepSeek-R1模型的面世使中国AI技术发展有了极大的优势侧,也标志着人工智能领域的 里程碑式突破。 不过,技术创新往往伴随应用成本的转移。约65%的早期采用者反馈,在实际部署中需要投入大量开发 资源进行适配优化,这在一定程度上削弱了其理论上的效率优势。 这款具有颠覆性意义的推理模型不仅在研发效率上展现出显著优势,其性能指标可与OpenAI等业界领 军企业的产品分庭抗礼,甚至基于中国的应用场景,可能还有所超越,而其所需计算资源较同类产品大 幅缩减近30%。 该模型的成功实践既印证了算法创新的无限可能,也引出了关键的技术进化命题,即当未来算法突破与 传统计算架构出现适配瓶颈时,行业将面临怎样的转变挑战? 当前主流大模型(如GPT-4、Gemini Pro、Llama3等)正以每月迭代2-3次的频率推进技术革新,持续刷 新性能基准。DeepSeek-R1通过独创的分布式训练框架和动态量化技术,成功将单位算力下的推理效能 提升40%,其研发轨迹为行业提供了算法与系统工程协同进化的典型案例。 而且,该团队研发的多头潜注意力机制(MLA)在实现内存占用降低50%的突破性进展时,也带来了 开发复杂度的显 ...
当GPU遇见内窥镜:多核异构计算如何定义智能影像新范式
思宇MedTech· 2025-02-28 11:56
早期癌症筛查和复杂病变的识别一直是消化道疾病诊断的难题,初期病灶往往微小且隐匿,依赖医生的敏锐观察力和经验。传统内窥镜在图像清晰度和实时性方面的 局限,使得诊断更具挑战。尤其是硬件算力不足,难以满足高精度诊断需求。 据思宇了解, 开立医疗 是首家将独立显卡(GPU)集成到内镜主机的厂家,其 即将推出的 iEndo内镜平台 ,更是创新性地引入了基于CPU、GPU和FPGA的多核异 构架构 ,突破了传统内镜算力的局限。 # 多核异构计算:智能硬件的协同革命 多核异构计算技术 通过将图像采集、处理和分析任务分配给不同的计算单元,充分利用GPU、CPU和FPGA的协同作业,实现了图像处理与智能分析的实时无缝对 接。 借助多核异构计算技术的创新,开立医疗即将发布的 iEndo内镜平台,正在为内镜领域带来一场前所未有的革命。 从"单核时代"到"异构协同" 多核异构架构的优势在于通过智能分配任务, 突破了传统单核处理器的局限 。 每个处理器根据任务需求各司其职,CPU负责逻辑决策,GPU加速图像处理,NPU专 注AI推理。这种架构突破了传统单核处理器的瓶颈,提升了数据处理效率,同时降低了功耗,成为推动智能时代发展的核心算力 ...
沐曦正式启动A股IPO:燧原科技、壁仞科技、摩尔线程早前均已签署辅导协议
IPO早知道· 2025-01-16 10:21
致力于为异构计算提供全栈GPU芯片及解决方案。 本文为IPO早知道原创 作者|Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,沐曦集成电路(上海)股份有限公司(以下简称"沐曦")于2025年1月12日同 华泰联合证券签署辅导协议,正式启动A股IPO进程。 这意味着, 沐曦成为继 燧原科技 、 壁仞科技 和摩尔线程后,不到半年内第四家启动 A 股上市进 程的"芯片独角兽" ——2024年8月23日、9月10日和11月6日,燧原科技、壁仞科技和摩尔线程相 继与中金公司、国泰君安证券和中信证券签署A股辅导协议。 成立于2 020 年的 沐曦致力于为异构计算提供全栈GPU芯片及解决方案,可广泛应用于智算、智慧 城市、云计算、自动驾驶、数字孪生、元宇宙等前沿领域,为数字经济发展提供算力支撑 ;其团队 拥有丰富的设计和产业化经验,核心成员平均拥有近20年高性能GPU产品端到端研发经验,曾主导 过十多款世界主流高性能GPU产品研发及量产,包括GPU架构定义、GPU IP设计、GPU SoC设计 及GPU系统解决方案的量产交付全流程。 截至目前, 沐曦打造 的 全栈GPU芯片产品 涵盖 用于智算 ...