Cuzco

搜索文档
一文看遍热门芯片,Hot chips 2025首日盘点
半导体行业观察· 2025-08-26 09:28
高性能RISC-V处理器Cuzco设计 - Condor Computing开发首款高性能RISC-V核心Cuzco 团队规模仅50名工程师[4] - 设计目标为在相同功耗范围内提供最高性能 符合RISC-V RVA23规范并支持矢量指令[6][14] - 采用12级乱序执行流水线 配备256条目重排序缓冲区(ROB)和8条执行流水线[9][12] - 核心微架构采用基于时间的指令调度技术 通过硬件编译优化指令排序 已申请超过10项专利[16][18][19] - 性能表现方面 SPECint2006测试中每时钟性能达17.5分 较母公司AX65核心提升近一倍[30][31] - 产品形态为最多8核心配置 包含私有L2缓存和共享L3缓存 通过宽CHI总线连接[33] PEZY公司MIMD架构创新 - PEZY Computing专注于多指令多数据(MIMD)CPU设计 采用独特的多线程处理方案[35][38] - SC4s产品采用台积电5nm工艺 芯片面积556平方毫米 集成2048个处理单元(PE)和16384个线程[64][67] - 内存系统配备4个HBM3设备 提供3.2TB/s带宽和96GB容量 内部总线读写带宽分别达12TB/s和6TB/s[72][80] - 系统配置采用AMD EPYC 9555P主机CPU和4个PEZY-SC4s加速卡 90节点系统总计算能力达8.6PFLOPS[84] - 能效表现显著提升 与SC3设计相比DGEMM工作负载功率效率提高2倍以上 Smith-Waterman算法性能提升近4倍[87][90] - 下一代PEZY 5产品已启动设计 采用3nm或更先进工艺 预计2027年发布[92] IBM Power11架构演进 - Power11基于Power10架构优化 采用三星7nm工艺 重点提升速度而非密度[108] - 内存子系统升级为OMI架构 支持32个DDR5内存端口 传输速度达38.4Gbps 目标实现8TB DRAM和1TB/s以上带宽[117][118] - 集成AI功能 在Power10矩阵乘法引擎基础上进一步强化AI处理能力[102][105] - 采用硅中介层堆叠设计 专注于全系统堆栈优化 包括量子安全和系统更新部署[110][114] - 支持外部PCIe加速器 配备自有Spyre加速器技术[121] - 下一代Power Future正在开发中 重点解决带宽和芯片互连挑战[123] 英特尔Clearwater Forest处理器 - 采用英特尔18A工艺和3D封装技术 集成288个能效核心 专注多线程工作负载[125][128] - 架构改进包括前端解码宽度从6宽提升至9宽 后端乱序执行引擎每时钟周期操作数从5个增至8个[134][136] - 执行端口数量达26个 整数和向量执行吞吐量翻倍 存储地址生成能力提升[138] - 内存子系统L2未命中缓冲区容量增加一倍至128条目 二级缓存带宽达400GB/秒[140][142] - 采用3D芯片堆叠设计 CPU芯片位于基础芯片之上 基础芯片基于英特尔3.0工艺 IO芯片采用英特尔7.0工艺[144] - 能效表现显著提升 与Sierra相比机架级每瓦性能提高3.5倍[149] 微软Azure硬件安全创新 - Azure安全系统配备定制安全芯片 集成硬件安全模块(HSM) 支持AES和PKE加密加速[159][168] - 采用Caliptra 2.0开源硅信任根 总门数达1,640,145 包含ECC引擎(270,156门)和RISC-V处理器(117,796门)[176][179] - 安全架构从集中式转变为每服务器集成模式 降低功耗和尺寸要求[164][166] - 支持机密计算技术 保护多租户云环境中的使用中数据[171][173] - 系统规模覆盖70多个Azure区域和400多个数据中心 拥有3.4万名专职安全工程师[153] AMD RDNA 4 GPU架构 - 专注图形处理性能 对光线追踪和机器学习硬件进行重大更新[192] - 光线追踪性能提升约2倍 BVH吞吐量翻倍 增加专用硬件传输器和定向边界框技术[209][217] - 机器学习功能增强 支持FP8精度和结构化稀疏性 动态寄存器分配优化着色器性能[224][220] - 媒体引擎支持AV1编码B帧 显示引擎集成图像锐化功能 内存压缩降低结构带宽占用率25%[205][238] - 采用模块化设计 Navi 48 GPU可分割为更小变体 支持多实例GPU(MIG)功能[235][279] NVIDIA Blackwell架构特性 - 架构覆盖数据中心到移动端 专注FP4 ML计算以最大化性能[246][249] - 神经渲染技术利用机器学习生成帧 降低功耗最高达2倍[253][275] - 配备GDDR7内存 采用PAM3信号技术提高信噪比和时钟速度[266] - 着色器执行重排序技术保持SM满载 整数性能显著提升[260] - AI管理处理器协调图形和机器学习工作负载 支持通用MIG功能提升多客户端性能60%[271][283] Meta图像处理芯片技术 - 开发专用IC加速世界锁定渲染(WRL) 用于AR/VR眼镜应用[287][289] - Orion眼镜系统包含眼镜处理器和外部Puck 处理器采用5nm工艺集成24亿晶体管[299][303] - 显示处理器每眼配备独立芯片 使用片上SRAM存储 无外部存储器[305] - 计算协处理器处理计算机视觉和机器学习 包含57亿晶体管和LPDDR4X内存[308] - 系统注重低功耗设计 延迟敏感计算在眼镜端完成[297][301] Rebellions AI加速器 - REBEL-Quad加速器采用四个HBM3E接口 支持144GB内存 使用UCIe芯片互连技术[312][314] - 封装集成四个计算ASIC和四个硅电容器 基于三星SF4X和CoWoS-S技术[314] - 演示运行Llama 3.3 70B模型 输出速度达35.5毫秒/令牌[322][324] - 采用双PCIe Gen5 x16接口 可能支持PCIe Gen6以匹配行业趋势[314]