Epoch - 财报，业绩电话会，研报，新闻

Epoch

搜索文档

36氪· 2026-02-09 10:47

文章核心观点 - 全球AI算力竞争格局正经历从“训练为王”到“推理为王”的范式转变，成本效率成为核心竞争焦点 [1][2] - 以谷歌TPU为代表的专用架构（ASIC）芯片，凭借在推理场景下的极致能效和成本优势，正崛起为英伟达GPU的有力挑战者，重塑算力权力版图 [1][4][7] - 中国AI芯片企业，如奕行智能，通过“对标前沿、融入生态、自主创新”的策略，在全栈AI基础设施竞争中找到了突破口 [13][26][32] 行业趋势与格局演变 - **竞争范式转移**：AI算力逻辑从“训练为王”转向“推理为王”，规模化应用阶段的核心议题是降低每次推理的成本 [1][2] - **成本驱动重塑**：行业关注点从单纯算力规模转向“Token per dollar”（每美元产出的Token量），以降低服务成本，推动AI像电力一样普及 [4] - **专用架构崛起**：在“成本为王”背景下，以谷歌TPU为代表的ASIC芯片因极致效率成为头部AI公司在英伟达之外的第二选择，标志着算力竞争格局的转折点 [4][7] - **商业部署加速**：Anthropic与博通签订价值高达210亿美元的TPU订单，标志着ASIC芯片从技术探索进入大规模商业部署阶段 [7] - **生态博弈加剧**：OpenAI仅凭“威胁购买TPU”的筹码，就迫使英伟达生态链做出让步，使其计算集群总拥有成本下降约30% [7] 技术路径与竞争优势（以谷歌TPU为例） - **硬件架构创新**：TPU采取精简架构，专注于矩阵运算，并引入独特的脉动阵列设计，让数据如流水般在计算单元间连续流动，大幅减少对寄存器的频繁读写 [8] - **能效瓶颈突破**：配合大容量片上SRAM缓存与高效数据搬运引擎DMA，TPU显著降低了“数据搬运”这一主要能耗瓶颈 [8] - **成本优势显著**：从TPU v6到TPU v7，谷歌已将每百万token的推理成本降低了约70%，TPU v7的成本已降至与英伟达GB200 NVL72（每百万token成本约0.27美元）相当甚至更优的水平 [4] - **软件生态破局**：通过“硬件进化、软件开源”策略，谷歌的XLA编译技术及OpenXLA开源项目，打通了从多框架模型到不同硬件的统一编译路径，并与Meta合作推进TorchTPU项目，实现对PyTorch的原生支持，降低用户迁移成本 [10][12] 中国企业的对标与创新（以奕行智能为例） - **硬件架构对标**：公司采用类TPU架构，其矩阵、向量、标量的精简设计完全匹配大模型计算特点，降低了传统GPGPU架构中约10%-20%的额外调度与资源分配开销 [14] - **核心引擎优化**：大尺寸矩阵运算引擎采用类TPU的双脉动流水设计，数据复用率提升数倍，并显著减少数据前处理开销 [14] - **存储与数据搬运创新**：高性能4D DMA引擎通过一次操作即可完成4D数据的整体搬移与变换，大容量片上缓存使数据访问速度相比DDR方案提升1–2个数量级，近存计算设计使Flash Attention关键算子利用率相比竞品提升4.5倍 [15] - **指令集前瞻布局**：率先引入RISC-V+RVV（向量扩展）指令集，并支持RVV 1024 bit位宽，其架构中图灵完备的RISC-V保障通用计算，模块化设计支持扩展专用AI指令 [15][16] - **产品商业化进展**：基于类TPU架构+RISC-V底座推出的国内首款RISC-V AI算力芯片Epoch系列，于2025年启动量产，在头部系统厂商、互联网、数据中心及行业客户获得商业突破，实现大规模量产出货 [16] 关键技术演进方向 - **精度与能效平衡**：“低位宽、高精度”数据格式是突破能效瓶颈的关键路径，例如TPU Tensor Core在FP8模式下可提供2倍于BF16的算力密度，TPU v7 (Ironwood)的FP8峰值算力达到4.6 PetaFLOPS，而BF16仅为2.3 PetaFLOPS [18] - **中国企业技术跟进**：奕行智能的AI芯片在国内率先支持DeepSeek所需的基于分块量化的FP8计算精度，并在新一代产品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿数据格式，以高效释放算力并降低存储开销 [19] - **组合技术红利**：“拓宽数据通道”（支持RVV 1024 bit位宽）与“压缩信息体积”（支持低位宽浮点精度）的双重组合，带来了算力吞吐增长与存储成本下降 [19] 软件与生态构建 - **软件栈兼容性**：奕行智能深度融合谷歌开源的StableHLO和XLA技术，全面支持PyTorch、TensorFlow、JAX、ONNX等主流框架，其智能编译器ACE已接入OpenXLA体系，可无缝迁移至TorchTPU方案 [20] - **编程模型创新**：推出原生适配Tile（分块）的动态调度架构，通过“虚拟指令+智能编译器+硬件调度器”的闭环，将复杂指令依赖与内存管理交由硬件自动完成，打破传统静态优化的性能上限 [23] - **开发生态建设**：独创VISA虚拟指令集技术，在硬件与上层软件间建立“标准翻译桥梁”，正与Triton社区推进合作，将Triton编译流引入RISC-V DSA后端，并计划开源虚拟指令集，共同打造面向RISC-V DSA的“CUDA式”开发生态 [23][26] 全栈竞争与系统级优化 - **竞争维度升级**：AI算力竞争已从单一芯片性能较量，升级为覆盖芯片、互联、软件与系统优化的全栈基础设施生态之争 [27] - **互联技术关键性**：高速互联技术是构建算力效率护城河的关键一环，例如英伟达的NVLink技术支撑了其GB200 NVL72系统的高效Scale Up互联架构 [27] - **自主互联方案**：奕行智能自研的互联技术方案ELink，支持超大带宽与超低延迟的Scale Up扩展，其任意点对点带宽可达传统互联方案的7倍，根据不同组网方案单节点聚合带宽可达14.2倍，有效支持大模型高速推理 [27][30] - **前沿功能支持**：ELink配合交换侧，已支持前沿的“在网计算”功能，可将部分计算卸载至网络交换节点，减轻带宽负担并降低通信延迟 [28] - **协议兼容与灵活性**：ELink全面支持RoCEv2、SUE、EthLink、C-Link等主流互联协议，能与支持上述协议的设备无缝高效互联，并支持800G/400G/200G可配置以太网标准协议 [28]

从“更快”到“更省”：AI下半场，TPU重构算力版图

半导体行业观察· 2026-02-09 09:18

AI算力行业范式转变：从训练为王到推理为王 - 行业核心逻辑正发生本质改变，从以模型训练为中心的“训练为王”旧秩序，转向以规模化应用为核心的“推理为王”新时代[1] - 大模型的商业价值实现依赖于规模化推理服务，模型每天需处理数十亿次用户请求，推理成本直接决定每次API调用的利润空间[4] - 行业关注焦点已从单纯追求算力规模，转向通过提升算力利用率与能效来降低Token成本，这是实现商业价值的关键路径[37] 成本驱动下的算力竞争格局重塑 - 大模型核心商业模式是按每百万Token计费，降低单个Token成本是AI技术像电力一样渗透各行业的关键，因此市场对“Token per dollar”（每美元产出的Token量）的关注度空前增长[8] - 以谷歌TPU为代表的专用架构（ASIC）正成为强有力的挑战者，其成本优势显著。数据显示，从TPU v6到TPU v7，谷歌已将每百万token的推理成本降低了约70%[8] - 英伟达GB 200 NVL72每百万token推理成本约为0.27美元，而谷歌TPU v7在同样任务负载下，成本已降至相当甚至更优水平，标志着算力竞争格局的转折点[8] - 成本优势已成为商业博弈筹码。OpenAI仅凭“威胁购买TPU”这一策略，就迫使英伟达生态链做出让步，使其计算集群总拥有成本下降了约30%[10] - 头部AI公司开始大规模商业部署ASIC芯片，例如Anthropic与博通签订了价值高达210亿美元的TPU订单，若通过TPU v7降低30–40%单位推理成本，在其月度千亿级别API调用规模下，可能带来每年数十亿美元的利润改善[10] 谷歌TPU崛起的技术与生态逻辑 - TPU采取极其精简的专用架构设计，砍掉与AI推理无关的图形处理单元，将晶体管资源集中于大模型最核心的矩阵运算[13] - TPU引入独特的脉动阵列架构，让数据如流水般在计算单元间连续流动，大幅减少对寄存器的频繁读写，配合大容量片上SRAM缓存与高效数据搬运引擎，显著降低了“数据搬运”这一主要能耗瓶颈[13] - 为打破英伟达CUDA生态的路径依赖，谷歌采取“硬件进化、软件开源”双重攻势。其XLA编译技术及OpenXLA开源项目，打通了从多框架模型到不同硬件的统一编译路径[15] - 谷歌近期与Meta合作推进TorchTPU项目，实现TPU对PyTorch的原生支持，使开发者可将PyTorch模型无缝迁移至TPU。PyTorch在全球机器学习开发应用中占比超过80%[15] 本土芯片厂商奕行智能的技术路径与突破 - 公司硬件采用类TPU架构，其矩阵、向量、标量的精简架构设计完全匹配大模型计算特点，显著降低了传统GPGPU架构中用于调度与资源分配的额外开销（通常占总开销的10%-20%），有效提高能效比与面积效率[20] - 其大尺寸矩阵运算引擎采用类TPU的双脉动流水设计，数据复用率提升数倍，且显著减少数据前处理开销，编程更为简单易用[20] - 面对AI计算中频繁出现的4D数据，其高性能4D DMA引擎仅通过一次操作即可完成整体搬移与数据变换，相比竞品需多次操作优势明显。通过配置大容量片上缓存，其访问速度相比存放在DDR的方案提升1–2个数量级[21] - 其近存计算设计，在实测中Flash Attention关键算子利用率相比竞品提升4.5倍[21] - 公司架构率先引入RISC-V+RVV（向量扩展）指令集，并支持RVV 1024 bit位宽，精准捕捉了RISC-V向AI计算拓展的机遇。谷歌也在TPU中集成了RISC-V处理器[21] - 基于类TPU架构+RISC-V底座，公司推出了国内业界首款RISC-V AI算力芯片Epoch，该系列产品及解决方案于2025年启动量产，已在头部客户中获得商业突破并大规模量产出货[22] 精度演进：低位宽与高精度的平衡 - “低位宽、高精度”数据格式支持是行业突破能效瓶颈的关键路径。例如，TPU Tensor Core在FP8模式下可提供2倍于BF16的算力密度[25] - 以Ironwood（TPU v7）为例，其FP8峰值算力达到4.6 PetaFLOPS，而BF16仅为2.3 PetaFLOPS，显存占用和通信数据量也同步减半[25] - 奕行智能的AI芯片在国内率先支持DeepSeek所需的基于分块量化的FP8计算精度，并在新一代产品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿数据格式，可高效释放算力，大幅降低存储开销[26] - “拓宽数据通道”（支持RVV 1024 bit位宽）与“压缩信息体积”（支持低位宽浮点精度）的双重组合，带来了向量算力与矩阵算力吞吐的双重增长与存储成本下降[26] 软件与生态的协同构建 - 奕行智能在软件栈深度融合谷歌开源的StableHLO和XLA技术，全面支持PyTorch、TensorFlow、JAX、ONNX等主流框架。其智能编译器ACE已接入OpenXLA体系，可无缝迁移至TorchTPU方案，让PyTorch开发者能够近乎“零代码修改”地实现模型迁移[28] - 公司推出原生适配Tile（分块）的动态调度架构，通过“虚拟指令+智能编译器+硬件调度器”的闭环，将复杂指令依赖与内存管理交由硬件自动完成，打破传统静态优化的性能上限[32] - 其独创的VISA虚拟指令集技术，在复杂硬件和上层软件之间架起“标准翻译桥梁”，降低开发门槛[32] - 在生态构建上，公司正与Triton社区推进合作，将Triton编译流引入RISC-V DSA后端，并计划开源其虚拟指令集，共同打造面向RISC-V DSA的“CUDA式”开发生态[35] 全栈竞争：从芯片到互联与系统优化 - 行业竞争已升级为覆盖芯片、互联、软件与系统优化的全栈AI基础设施生态之争[37] - 英伟达的优势不仅在于GPU与CUDA，其高速互联技术NVLink同样关键，GB200 NVL72系统正是依托NVLink实现高效的Scale Up互联架构[37] - 奕行智能自研的互联技术方案ELink，支持超大带宽与超低延迟的Scale Up扩展，是其构建算力效率护城河的关键一环[37] - ELink支持前沿的在网计算技术，可将部分计算卸载至网络交换节点，从而减轻带宽负担，降低通信延迟[38] - ELink全面支持RoCEv2、SUE、EthLink、C-Link等主流互联协议，能与支持上述协议的交换设备及芯片无缝高效互联，并支持800G/400G/200G可配置以太网标准协议[38] - ELink互联方案的任意点对点带宽（P2P带宽）可达传统互联方案的7倍，根据不同组网方案单节点聚合带宽可达14.2倍，有效支持大模型高速推理[40]

36氪· 2026-01-30 08:25

中国AI芯片行业概览 - 中国AI芯片市场规模预计在2028年达到万亿级别，约占全球市场的30% [1] - 面对旺盛的市场需求和地缘政治摩擦，提供自主可控的高质量AI算力已成为中国抢占AI发展先机、赋能行业升级的重要基础 [1] - 近期多家国产厂商接连宣布AI芯片消息，行业正以惊人速度高速发展 [1] - 自美国实施AI芯片限制后，中国自主AI芯片产业加速发展，主要分为GPU与非GPU两大技术路线 [20] - 国产AI芯片正通过“兼容追赶”与“创新超越”双轨并行的策略快速发展 [22] 主要厂商动态：阿里巴巴 - 阿里巴巴旗下平头哥于1月29日上线名为“真武810E”的高端AI芯片，这是由通义实验室、阿里云和平头哥组成的“通云哥”首次亮相 [2] - “真武”PPU采用全栈自研架构，配备96G HBM2e内存及700 GB/s片间互联带宽，适用于AI训练、推理及自动驾驶 [2] - 该芯片已大规模用于千问大模型的训练与推理，并通过阿里云AI软件栈深度优化，为客户提供一体化服务 [2] - “真武”PPU已在阿里云实现多个万卡集群部署，服务了国家电网、中科院、小鹏汽车、新浪微博等400多家客户 [2] - 据业内分析，“真武”PPU整体性能超越英伟达A800及主流国产GPU，与英伟达H20相当，市场反馈显示其性能稳定、性价比高，处于供不应求状态 [4] - 阿里巴巴自2009年布局云服务，2018年成立平头哥，2019年启动大模型研究，现已形成覆盖芯片、云平台与大模型的“通云哥”全栈AI完整布局 [5] - 据外媒报道，升级版“真武”PPU的性能强于英伟达A100 [6] 主要厂商动态：奕行智能 - 奕行智能于1月29日表示，其研发的国内业界首款RISC-V AI算力芯片Epoch正在大规模量产出货中 [7] - 该芯片在业界率先采用RISC-V + RVV指令集架构，结合自研的VISA技术，兼顾了AI计算的通用性与专用性 [7] - 公司在技术上有关键创新：采用RISC-V + RVV指令集；通过VISA虚拟指令架构在软硬件间建立中间抽象层；采用Tile级动态调度架构提升算力利用率 [10] - 在运行ResNet-50、BERT、Llama 2等模型时，Epoch性能较竞品高出25%至52% [8] - 公司计划持续完善软件栈，兼容主流AI框架，并通过与开源社区合作推动RISC-V DSA生态建设 [10] 主要厂商动态：天数智芯 - 天数智芯于1月26日发布四代架构路线图，计划在2025年推出的“天枢”架构将超越英伟达Hopper；2026年的“天璇”架构对标Blackwell，同年的“天玑”架构将实现超越；2027年的“天权”架构目标超越Rubin [12] - 天枢架构支持从高精度科学计算到AI精度计算，在执行注意力机制时算力有效利用率超过90% [14] - 天枢架构通过TPC广播机制、多指令并行处理系统、动态线程组调度系统三项核心技术创新，使其效率较行业平均水平提升60% [14] - 天枢架构在DeepSeek V3场景中的平均性能比英伟达Hopper架构高出约20% [14] 主要厂商动态：曦望（Sunrise） - 曦望公司前身为商汤大芯片部门，于2024年底分拆独立运营，并于1月28日公布产品路线图 [16] - 路线图显示，国内首款采用LPDDR6的GPGPU芯片启望S3将于2024年上市，高性能推理GPU芯片启望S4将于2027年上市，安全可控推理GPU芯片启望S5将于2028年上市 [16] - 启望S3单芯片推理性能相比上一代产品提升5倍，单位token推理成本下降约90% [18] - 曦望围绕S3推出寰望SC3超节点解决方案，面向千亿/万亿参数模型的推理部署，在大专家并行部署下，吞吐率可提升20至25倍 [18] - 在同等算力下，寰望SC3解决方案可将系统整体交付成本从“亿元级”降至“千万元级” [18] - 公司前两代产品中，S2在主流大模型推理性能上达到国际巨头80%水平，软件栈CUDA兼容性达95% [16] 主要厂商动态：燧原科技 - 燧原科技于1月22日科创板IPO申请获上交所受理，公司成立于2018年3月，已自主研发并迭代了四代架构、共五款云端AI芯片 [19] - 根据产品规划，公司计划在2025年发布第四代AI推理卡及ESL32/64超节点集群，2027年推出第五代云端AI芯片及相关训推产品，并于2029年发布第六代系列芯片 [19] 国产GPU厂商盘点 - 国内GPU企业依据团队背景形成不同派系：NVIDIA系（如摩尔线程、天数智芯）、AMD系（如壁仞、沐曦）、国家队（如景嘉微、海光、龙芯、兆芯）、拆分系（如商汤拆分出的曦望） [20] - 多家GPU厂商已推出产品并应用于物理仿真、AI计算、深度学习、自动驾驶、智慧城市等多个领域 [21] 国产非GPU AI芯片厂商盘点 - 非GPU路径呈现多元化发展，不同企业选择不同架构以实现差异化竞争，包括华为昇腾、昆仑芯、燧原科技、中昊芯英、清微智能等 [22] - 非GPU路线通过架构创新，在能效、成本或特定场景上建立优势，开辟新赛道 [22]

Artificial Intelligence

Artificial Intelligence