推测执行 - 财报，业绩电话会，研报，新闻

推测执行

搜索文档

半导体行业观察· 2026-03-05 09:13

文章核心观点 - RISC-V RVA23 规范标志着CPU性能扩展方式的根本性转折，它将向量扩展(RVV)从可选加速器提升为软件可依赖的基础架构功能，从而终结了推测执行在处理器设计中的垄断地位[2][9] - 该转变将性能扩展的重心从依赖更深层、更复杂的推测执行机制，转向了结构化、显式的并行向量计算，为确定性、低功耗的设计方法开辟了道路[2][3][8] - 对于人工智能、机器学习等具有结构化、数据并行特征的工作负载，显式并行比推测性猜测更具优势，RVA23通过强制支持RVV确保了硬件对此类工作负载的优化支持[7][8] 根据相关目录分别进行总结 CPU架构设计范式的转变 - RVA23强制要求使用RISC-V向量扩展(RVV)，使向量计算成为与标量执行地位平等的基础架构功能，而不再是附加的加速器[2] - 设计重心转移：硬件设计者不再被迫完全依赖更深层次的推测（如更大的分支预测器、更宽的重排序缓冲区）来保持竞争力，可以将面积和功耗转移到向量吞吐量和内存带宽上[3] - 这使得配备强大向量引擎的更简单的顺序执行内核，对于曾经需要复杂推测机制的工作负载变得可行[3] 推测执行的历史与成本 - 推测执行技术自20世纪60-70年代逐步发展，通过动态调度、乱序执行和分支预测等手段提升性能，但代价是增加了功耗、复杂性和安全风险[4] - 能源已成为计算主要制约因素：算术运算仅消耗几个皮焦耳，缓存访问成本高一个数量级，DRAM访问成本高出两到三个数量级，数据传输是能耗主因[5] - 现代CPU内存层次结构与推测执行协同演化，成为支撑大量不确定工作所需的框架，其存在是为了维持程序快速运行的假象，并在预测失败时进行清理[5][6] 确定性执行与向量计算的回归 - 确定性执行针对已知因素进行优化，将延迟视为可调度因素，而非需掩盖的问题，通过提高可预测性和持续吞吐量来提升性能[6] - 历史上，西摩·克雷的向量机完全摒弃推测，依赖可预测的内存步长、显式向量长度和确定性调度，其方法更接近RVV的结构化模型[6][7] - RVA23确保了硬件对AI、ML等结构化工作负载的支持，使结构化并行从可选扩展转变为架构基线，并未消除推测，但消除了其排他性[7][8] 对软件生态与硬件设计的影响 - 软件性能契约改变：编译器、库和应用程序现在可以假定每个兼容核心都存在RVV，优化策略从“让CPU猜测”转向显式、结构化的并行处理[3] - 工具链必须能可靠生成向量代码，数学和DSP库可以减少或消除标量回退，为应用程序开发人员提供了可预测的扩展模型[3] - 硬件实现者在微架构上仍有自由度（如通道宽度、流水线深度），但性能重心已改变，编译器基础设施和操作系统调度可以假定向量支持并进行相应优化[3][8] 行业意义与未来方向 - RVA23的意义在于指令编码之外：它强制要求了架构上的对等性，设计人员可以在适当时同时部署推测和向量架构，但结构化并行不再是次要选择[8] - 这终结了“非此即彼”的错误二元论，即不再认为必须通过推测架构扩展，否则就接受性能下降[8] - 该转变降低了向量运算能力的不确定性，减少了人们对确定性方法能否实现一流性能的疑虑，降低了对推测计算的扩展性依赖[9]

半导体行业观察· 2025-11-03 08:39

处理器架构技术演进 - 现代CPU依赖推测执行技术已超过三十年，该技术通过预测分支指令和内存加载结果来避免处理器停顿，保持执行单元持续运行[2] - 推测执行技术带来了能源浪费、复杂性增加以及如Spectre和Meltdown等安全漏洞的代价[3] - 一种全新的确定性、基于时间的执行模型已被发明，并获得美国专利商标局批准的六项专利，这标志着自推测执行成为主流以来首次出现的重大架构挑战[3] 确定性执行模型核心技术 - 确定性框架用基于时间、容错性强的机制取代传统猜测，每条指令在流水线中被分配精确的执行槽，形成严格有序且可预测的执行流程[3] - 使用简单计时器确定性地设定指令未来执行的确切时间，指令根据数据依赖关系和资源可用性被分派到执行队列中预先设定执行时间[4] - 该架构核心是带有时间计数器的向量协处理器，用于静态分发指令，指令仅在数据依赖关系和延迟窗口完全已知时才发出，消除了猜测和代价高昂的流水线刷新[9] - 架构具有深度流水线（通常跨越12个阶段），结合支持高达8路解码的宽前端和超过250个条目的大型重排序缓冲区[9] 人工智能与高性能计算应用 - 该架构自然扩展到矩阵计算领域，目前RISC-V指令集提案正在接受社区审查，可配置的通用矩阵乘法单元规模从8×8到64×64不等[4] - 早期分析表明其可扩展性可与谷歌的TPU内核相媲美，同时保持显著更低的成本和功耗[4] - 在人工智能和机器学习内核中，确定性设计以周期精确的时序执行向量加载和矩阵运算，确保高利用率和稳定吞吐量，避免推测性CPU因未对齐或不可缓存加载操作触发的停顿或刷新[18] 与传统架构的性能对比 - 确定性设计直接将确定性调度应用于GEMM和向量单元，而传统CPU仍依赖推测和分支预测[5] - 时间计数器方法能够识别延迟并确定性地用有用工作填充它，避免回滚，指令保持乱序执行效率但无需寄存器重命名或推测性比较器的开销[6] - 确定性处理器保证可预测的调度和完成时间，消除推测带来的性能断崖和能量浪费，同时保留乱序执行的吞吐量优势[14] 编程模型与兼容性 - 从程序员视角看流程依然熟悉，RISC-V代码编译和执行方式不变，但执行契约变为保证可预测调度和完成时间[14] - 确定性处理器完全兼容RVA23规范及主流工具链如GCC、LLVM、FreeRTOS和Zephyr[18] - 编译器调度变得更简单，因为指令保证在正确周期发出无需回滚，程序员无需插入用于错误预测恢复的保护代码[16] 行业影响与前景 - 确定性处理器能在各种工作负载下提供可预测性能，确保无论任务复杂度如何都能保持一致行为[19] - 消除推测执行可提高能源效率，避免不必要计算开销，尤其适用于依赖高吞吐量并行性的人工智能工作负载[19] - 确定性执行可能代表自推测运算以来的下一个架构飞跃，将重新定义性能和效率[19]

AI创业圈又冲出一个288亿独角兽......

钛媒体APP· 2025-08-15 11:09

公司概况与创始人背景 - AI创业公司Fireworks AI估值达288亿美元，成为新晋独角兽 [1] - 创始人乔琳拥有复旦大学计算机系本硕学位及加州大学圣巴巴拉分校博士学位，曾在IBM、LinkedIn担任技术高管，并在Meta领导超过300人的工程团队，主导将PyTorch从科研工具打造为行业标杆 [1][2] - 公司创始团队由七位成员组成，包括六位PyTorch核心成员和一位前谷歌AI专家，被誉为AI基础设施领域的“梦之队” [2] 商业模式与核心技术 - 公司定位为AI算力服务提供商，通过租用英伟达等公司的GPU服务器，预先安装并优化主流开源大模型（如Llama、DeepSeek），为客户提供按流量付费的API调用服务 [5] - 核心优化技术包括“量化技术”和“推测执行”，前者通过模型压缩提升计算效率，后者通过预测性生成大幅加速推理过程 [9][10][11] - 技术应用效果显著，以客户Cursor为例，其AI模型推理速度提升至每秒生成约1000个token，比普通推理快13倍，比使用GPT-4快9倍 [11][12] - 自研的Fire Attention技术进一步优化推理速度并降低资源消耗，为客户节省成本 [11] 资本布局与行业竞争 - 公司获得红杉、Benchmark等顶级风投及产业巨头英伟达、AMD的共同投资 [1][13][14] - 英伟达作为A轮投资方，与公司存在深度技术合作和客户关系，但同时也收购了公司竞争对手Lepton，并推出自有GPU云服务市场，形成潜在竞争 [14][15] - 创始人乔琳指出，英伟达对有利可图的市场均可能进入，竞争是必然趋势，且预计竞争将很快发生 [15][16] - 公司当前40亿美元估值反映了市场对其技术的认可，但需在英伟达等巨头全面入场前快速扩大规模并建立护城河 [17]

Artificial Intelligence

量化技术

推测执行

Artificial Intelligence

PyTorch

Fire Attention

Artificial Intelligence

量化技术

推测执行

Artificial Intelligence

PyTorch

Fire Attention

22年前的一篇报告，预言了今天的CPU

半导体行业观察· 2025-06-25 09:56

计算机架构发展趋势 - 2003年迈克尔·J·弗林预测计算的未来将依赖简单、并行、确定性和领域特定性设计，而非复杂通用处理器 [1] - 二十年后，推测执行的漏洞（如2018年Spectre和Meltdown）验证了弗林对复杂架构的批评 [4] - 行业领导者（谷歌、NVIDIA、Meta）和新兴企业（如Simplex Micro）的设计理念已转向简洁性、确定性和专业化 [1][5] 推测执行的局限性与行业调整 - 推测执行带来性能提升的同时导致高功耗、验证困难及安全隐患 [4] - 英特尔Lunar Lake和Sierra Forest核心转向效率优化，苹果M系列芯片强调可预测延迟，Arm Cortex-M放弃推测逻辑以满足实时性需求 [5] - RISC-V生态系统推动无推测设计，Simplex Micro等公司采用确定性执行模型 [6] 人工智能加速器与弗林愿景的契合 - 谷歌TPU、Cerebras晶圆级引擎、Groq数据流处理器均摒弃推测执行，采用大规模并行确定性计算 [9][10] - 谷歌TPU通过脉动阵列实现高吞吐量和确定性延迟，Cerebras通过无缓存设计优化数据局部性 [9] - Meta MTIA芯片针对推荐系统优化，体现领域特定架构（DSA）理念 [10] 领域特定架构（DSA）的兴起 - 弗林预测计算将分裂为针对不同任务的定制化架构（如服务器、AI、嵌入式系统） [12] - 现代硬件生态涵盖AI处理器（TPU）、网络加速器（SmartNIC）、安全微控制器（汽车RISC-V）等DSA [17] - GPU演化成针对机器学习的DSA，集成张量核心和低精度流水线 [13] 行业现状与未来方向 - 数据流架构、显式调度和确定性流水线成为主流，符合弗林对简洁性和可扩展性的主张 [15] - 在AI推理、汽车安全和边缘计算领域，安全性、能效和实时可靠性需求推动后推测计算发展 [15] - 弗林的理念已渗透至TPU、RISC-V等架构设计，但较少被明确提及 [15]