推测执行
搜索文档
CPU设计,又一次革命
半导体行业观察· 2025-11-03 08:39
处理器架构技术演进 - 现代CPU依赖推测执行技术已超过三十年,该技术通过预测分支指令和内存加载结果来避免处理器停顿,保持执行单元持续运行[2] - 推测执行技术带来了能源浪费、复杂性增加以及如Spectre和Meltdown等安全漏洞的代价[3] - 一种全新的确定性、基于时间的执行模型已被发明,并获得美国专利商标局批准的六项专利,这标志着自推测执行成为主流以来首次出现的重大架构挑战[3] 确定性执行模型核心技术 - 确定性框架用基于时间、容错性强的机制取代传统猜测,每条指令在流水线中被分配精确的执行槽,形成严格有序且可预测的执行流程[3] - 使用简单计时器确定性地设定指令未来执行的确切时间,指令根据数据依赖关系和资源可用性被分派到执行队列中预先设定执行时间[4] - 该架构核心是带有时间计数器的向量协处理器,用于静态分发指令,指令仅在数据依赖关系和延迟窗口完全已知时才发出,消除了猜测和代价高昂的流水线刷新[9] - 架构具有深度流水线(通常跨越12个阶段),结合支持高达8路解码的宽前端和超过250个条目的大型重排序缓冲区[9] 人工智能与高性能计算应用 - 该架构自然扩展到矩阵计算领域,目前RISC-V指令集提案正在接受社区审查,可配置的通用矩阵乘法单元规模从8×8到64×64不等[4] - 早期分析表明其可扩展性可与谷歌的TPU内核相媲美,同时保持显著更低的成本和功耗[4] - 在人工智能和机器学习内核中,确定性设计以周期精确的时序执行向量加载和矩阵运算,确保高利用率和稳定吞吐量,避免推测性CPU因未对齐或不可缓存加载操作触发的停顿或刷新[18] 与传统架构的性能对比 - 确定性设计直接将确定性调度应用于GEMM和向量单元,而传统CPU仍依赖推测和分支预测[5] - 时间计数器方法能够识别延迟并确定性地用有用工作填充它,避免回滚,指令保持乱序执行效率但无需寄存器重命名或推测性比较器的开销[6] - 确定性处理器保证可预测的调度和完成时间,消除推测带来的性能断崖和能量浪费,同时保留乱序执行的吞吐量优势[14] 编程模型与兼容性 - 从程序员视角看流程依然熟悉,RISC-V代码编译和执行方式不变,但执行契约变为保证可预测调度和完成时间[14] - 确定性处理器完全兼容RVA23规范及主流工具链如GCC、LLVM、FreeRTOS和Zephyr[18] - 编译器调度变得更简单,因为指令保证在正确周期发出无需回滚,程序员无需插入用于错误预测恢复的保护代码[16] 行业影响与前景 - 确定性处理器能在各种工作负载下提供可预测性能,确保无论任务复杂度如何都能保持一致行为[19] - 消除推测执行可提高能源效率,避免不必要计算开销,尤其适用于依赖高吞吐量并行性的人工智能工作负载[19] - 确定性执行可能代表自推测运算以来的下一个架构飞跃,将重新定义性能和效率[19]
AI创业圈又冲出一个288亿独角兽......
钛媒体APP· 2025-08-15 11:09
公司概况与创始人背景 - AI创业公司Fireworks AI估值达288亿美元,成为新晋独角兽 [1] - 创始人乔琳拥有复旦大学计算机系本硕学位及加州大学圣巴巴拉分校博士学位,曾在IBM、LinkedIn担任技术高管,并在Meta领导超过300人的工程团队,主导将PyTorch从科研工具打造为行业标杆 [1][2] - 公司创始团队由七位成员组成,包括六位PyTorch核心成员和一位前谷歌AI专家,被誉为AI基础设施领域的“梦之队” [2] 商业模式与核心技术 - 公司定位为AI算力服务提供商,通过租用英伟达等公司的GPU服务器,预先安装并优化主流开源大模型(如Llama、DeepSeek),为客户提供按流量付费的API调用服务 [5] - 核心优化技术包括“量化技术”和“推测执行”,前者通过模型压缩提升计算效率,后者通过预测性生成大幅加速推理过程 [9][10][11] - 技术应用效果显著,以客户Cursor为例,其AI模型推理速度提升至每秒生成约1000个token,比普通推理快13倍,比使用GPT-4快9倍 [11][12] - 自研的Fire Attention技术进一步优化推理速度并降低资源消耗,为客户节省成本 [11] 资本布局与行业竞争 - 公司获得红杉、Benchmark等顶级风投及产业巨头英伟达、AMD的共同投资 [1][13][14] - 英伟达作为A轮投资方,与公司存在深度技术合作和客户关系,但同时也收购了公司竞争对手Lepton,并推出自有GPU云服务市场,形成潜在竞争 [14][15] - 创始人乔琳指出,英伟达对有利可图的市场均可能进入,竞争是必然趋势,且预计竞争将很快发生 [15][16] - 公司当前40亿美元估值反映了市场对其技术的认可,但需在英伟达等巨头全面入场前快速扩大规模并建立护城河 [17]
22年前的一篇报告,预言了今天的CPU
半导体行业观察· 2025-06-25 09:56
计算机架构发展趋势 - 2003年迈克尔·J·弗林预测计算的未来将依赖简单、并行、确定性和领域特定性设计,而非复杂通用处理器 [1] - 二十年后,推测执行的漏洞(如2018年Spectre和Meltdown)验证了弗林对复杂架构的批评 [4] - 行业领导者(谷歌、NVIDIA、Meta)和新兴企业(如Simplex Micro)的设计理念已转向简洁性、确定性和专业化 [1][5] 推测执行的局限性与行业调整 - 推测执行带来性能提升的同时导致高功耗、验证困难及安全隐患 [4] - 英特尔Lunar Lake和Sierra Forest核心转向效率优化,苹果M系列芯片强调可预测延迟,Arm Cortex-M放弃推测逻辑以满足实时性需求 [5] - RISC-V生态系统推动无推测设计,Simplex Micro等公司采用确定性执行模型 [6] 人工智能加速器与弗林愿景的契合 - 谷歌TPU、Cerebras晶圆级引擎、Groq数据流处理器均摒弃推测执行,采用大规模并行确定性计算 [9][10] - 谷歌TPU通过脉动阵列实现高吞吐量和确定性延迟,Cerebras通过无缓存设计优化数据局部性 [9] - Meta MTIA芯片针对推荐系统优化,体现领域特定架构(DSA)理念 [10] 领域特定架构(DSA)的兴起 - 弗林预测计算将分裂为针对不同任务的定制化架构(如服务器、AI、嵌入式系统) [12] - 现代硬件生态涵盖AI处理器(TPU)、网络加速器(SmartNIC)、安全微控制器(汽车RISC-V)等DSA [17] - GPU演化成针对机器学习的DSA,集成张量核心和低精度流水线 [13] 行业现状与未来方向 - 数据流架构、显式调度和确定性流水线成为主流,符合弗林对简洁性和可扩展性的主张 [15] - 在AI推理、汽车安全和边缘计算领域,安全性、能效和实时可靠性需求推动后推测计算发展 [15] - 弗林的理念已渗透至TPU、RISC-V等架构设计,但较少被明确提及 [15]