TorchTPU - 财报，业绩电话会，研报，新闻

TorchTPU

搜索文档

半导体行业观察· 2026-02-09 09:18

AI算力行业范式转变：从训练为王到推理为王 - 行业核心逻辑正发生本质改变，从以模型训练为中心的“训练为王”旧秩序，转向以规模化应用为核心的“推理为王”新时代[1] - 大模型的商业价值实现依赖于规模化推理服务，模型每天需处理数十亿次用户请求，推理成本直接决定每次API调用的利润空间[4] - 行业关注焦点已从单纯追求算力规模，转向通过提升算力利用率与能效来降低Token成本，这是实现商业价值的关键路径[37] 成本驱动下的算力竞争格局重塑 - 大模型核心商业模式是按每百万Token计费，降低单个Token成本是AI技术像电力一样渗透各行业的关键，因此市场对“Token per dollar”（每美元产出的Token量）的关注度空前增长[8] - 以谷歌TPU为代表的专用架构（ASIC）正成为强有力的挑战者，其成本优势显著。数据显示，从TPU v6到TPU v7，谷歌已将每百万token的推理成本降低了约70%[8] - 英伟达GB 200 NVL72每百万token推理成本约为0.27美元，而谷歌TPU v7在同样任务负载下，成本已降至相当甚至更优水平，标志着算力竞争格局的转折点[8] - 成本优势已成为商业博弈筹码。OpenAI仅凭“威胁购买TPU”这一策略，就迫使英伟达生态链做出让步，使其计算集群总拥有成本下降了约30%[10] - 头部AI公司开始大规模商业部署ASIC芯片，例如Anthropic与博通签订了价值高达210亿美元的TPU订单，若通过TPU v7降低30–40%单位推理成本，在其月度千亿级别API调用规模下，可能带来每年数十亿美元的利润改善[10] 谷歌TPU崛起的技术与生态逻辑 - TPU采取极其精简的专用架构设计，砍掉与AI推理无关的图形处理单元，将晶体管资源集中于大模型最核心的矩阵运算[13] - TPU引入独特的脉动阵列架构，让数据如流水般在计算单元间连续流动，大幅减少对寄存器的频繁读写，配合大容量片上SRAM缓存与高效数据搬运引擎，显著降低了“数据搬运”这一主要能耗瓶颈[13] - 为打破英伟达CUDA生态的路径依赖，谷歌采取“硬件进化、软件开源”双重攻势。其XLA编译技术及OpenXLA开源项目，打通了从多框架模型到不同硬件的统一编译路径[15] - 谷歌近期与Meta合作推进TorchTPU项目，实现TPU对PyTorch的原生支持，使开发者可将PyTorch模型无缝迁移至TPU。PyTorch在全球机器学习开发应用中占比超过80%[15] 本土芯片厂商奕行智能的技术路径与突破 - 公司硬件采用类TPU架构，其矩阵、向量、标量的精简架构设计完全匹配大模型计算特点，显著降低了传统GPGPU架构中用于调度与资源分配的额外开销（通常占总开销的10%-20%），有效提高能效比与面积效率[20] - 其大尺寸矩阵运算引擎采用类TPU的双脉动流水设计，数据复用率提升数倍，且显著减少数据前处理开销，编程更为简单易用[20] - 面对AI计算中频繁出现的4D数据，其高性能4D DMA引擎仅通过一次操作即可完成整体搬移与数据变换，相比竞品需多次操作优势明显。通过配置大容量片上缓存，其访问速度相比存放在DDR的方案提升1–2个数量级[21] - 其近存计算设计，在实测中Flash Attention关键算子利用率相比竞品提升4.5倍[21] - 公司架构率先引入RISC-V+RVV（向量扩展）指令集，并支持RVV 1024 bit位宽，精准捕捉了RISC-V向AI计算拓展的机遇。谷歌也在TPU中集成了RISC-V处理器[21] - 基于类TPU架构+RISC-V底座，公司推出了国内业界首款RISC-V AI算力芯片Epoch，该系列产品及解决方案于2025年启动量产，已在头部客户中获得商业突破并大规模量产出货[22] 精度演进：低位宽与高精度的平衡 - “低位宽、高精度”数据格式支持是行业突破能效瓶颈的关键路径。例如，TPU Tensor Core在FP8模式下可提供2倍于BF16的算力密度[25] - 以Ironwood（TPU v7）为例，其FP8峰值算力达到4.6 PetaFLOPS，而BF16仅为2.3 PetaFLOPS，显存占用和通信数据量也同步减半[25] - 奕行智能的AI芯片在国内率先支持DeepSeek所需的基于分块量化的FP8计算精度，并在新一代产品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿数据格式，可高效释放算力，大幅降低存储开销[26] - “拓宽数据通道”（支持RVV 1024 bit位宽）与“压缩信息体积”（支持低位宽浮点精度）的双重组合，带来了向量算力与矩阵算力吞吐的双重增长与存储成本下降[26] 软件与生态的协同构建 - 奕行智能在软件栈深度融合谷歌开源的StableHLO和XLA技术，全面支持PyTorch、TensorFlow、JAX、ONNX等主流框架。其智能编译器ACE已接入OpenXLA体系，可无缝迁移至TorchTPU方案，让PyTorch开发者能够近乎“零代码修改”地实现模型迁移[28] - 公司推出原生适配Tile（分块）的动态调度架构，通过“虚拟指令+智能编译器+硬件调度器”的闭环，将复杂指令依赖与内存管理交由硬件自动完成，打破传统静态优化的性能上限[32] - 其独创的VISA虚拟指令集技术，在复杂硬件和上层软件之间架起“标准翻译桥梁”，降低开发门槛[32] - 在生态构建上，公司正与Triton社区推进合作，将Triton编译流引入RISC-V DSA后端，并计划开源其虚拟指令集，共同打造面向RISC-V DSA的“CUDA式”开发生态[35] 全栈竞争：从芯片到互联与系统优化 - 行业竞争已升级为覆盖芯片、互联、软件与系统优化的全栈AI基础设施生态之争[37] - 英伟达的优势不仅在于GPU与CUDA，其高速互联技术NVLink同样关键，GB200 NVL72系统正是依托NVLink实现高效的Scale Up互联架构[37] - 奕行智能自研的互联技术方案ELink，支持超大带宽与超低延迟的Scale Up扩展，是其构建算力效率护城河的关键一环[37] - ELink支持前沿的在网计算技术，可将部分计算卸载至网络交换节点，从而减轻带宽负担，降低通信延迟[38] - ELink全面支持RoCEv2、SUE、EthLink、C-Link等主流互联协议，能与支持上述协议的交换设备及芯片无缝高效互联，并支持800G/400G/200G可配置以太网标准协议[38] - ELink互联方案的任意点对点带宽（P2P带宽）可达传统互联方案的7倍，根据不同组网方案单节点聚合带宽可达14.2倍，有效支持大模型高速推理[40]

创业板人工智能ETF南方(159382.SZ)涨1.00%，中际旭创涨1.96%

金融界· 2025-12-30 15:02

市场表现 - 12月30日，沪深两市震荡上行，机器人板块涨幅居前 [1] - 截至14点30分，创业板人工智能ETF南方(159382.SZ)上涨1.00% [1] - 中际旭创上涨1.96% [1] 行业趋势与驱动因素 - 以谷歌为代表的全球科技巨头正通过模型、芯片与生态的三重举措系统性扩张AI算力基础设施，为上游高速光模块需求提供了高度确定的长期支撑 [2] - 模型侧：通过推出低成本、高性能的推理模型（如Gemini 3 Flash）持续降低企业应用门槛，激发规模化推理算力需求 [2] - 硬件侧：通过对自研TPU的加单及与产业链合作加速算力集群部署，直接拉动数据中心内部高速互联需求 [2] - 生态侧：通过“TorchTPU”等计划吸引更广泛的开发者，扩大其算力服务的客户基础 [2] - 明确趋势：无论底层芯片架构如何演进，AI算力基建的扩张必然伴随数据中心流量激增，从而使800G/1.6T高速光模块成为不可或缺的关键组件 [2] 市场预测与数据 - 行业研究机构LightCounting预测，2029年全球光模块市场规模有望突破370亿美元 [2] - 1.6T光模块将于2025年进入商用元年，初期全球需求预计达250万至350万只 [2] - 技术代际切换将推动产业价值向高端环节集中 [2] 相关投资标的分析 - 创业板人工智能ETF南方(159382.SZ)作为当前含“光”量极高的ETF，其“易中天”三大成分股合计权重占指数权重近39% [2] - 该ETF高度聚焦于光模块等关键环节，能够较为直接地受益于AI算力建设带来的硬件升级与需求放量红利 [2]

腾讯研究院· 2025-12-20 10:33

芯片领域动态 - 谷歌推出TorchTPU芯片 [3] - 苹果研发AI服务器芯片 [3] 大模型与算法进展 - 谷歌发布Gemini 3 Flash模型 [3] - 字节跳动发布Seed1.8模型 [3] - 小米发布MiMo-V2-Flash模型 [3] - 英伟达发布Nemotron 3模型 [3] - OpenAI研究Circuit-Sparsity模型稀疏化技术 [3] - Thinking Machines发布Tinker模型 [3] - OpenAI可能正在开发GPT-5.2模型 [3] - OpenAI建立科学能力基准 [4] AI应用与产品发布 - OpenAI计划推出ChatGPT应用商店 [3] - 阶跃星辰发布Step-GUI应用 [3] - xAI为Grok推出Grok Voice功能 [3] - 行业在开发Agent API [3] - 苹果规划AI眼镜产品 [3] - OpenAI推出ChatGPT Images功能 [3] - Meta发布SAM Audio应用 [3] - 腾讯发布混元世界模型1.5 [3] - Vidu发布Vidu Agent应用 [3] - 谷歌推出Super Gems应用 [3] - 腾讯元宝推出写作模式 [3] - 通义万相推出角色扮演功能 [3] - 字节跳动发布Seedance 1.5 pro应用 [3] - 长安汽车与北汽集团推进L3级自动驾驶 [3] - Manus发布Manus 1.6应用 [3] - 谷歌推出NotebookLM应用 [3] - 通义发布Fun语音模型 [4] - Zoom推出Zoom AI功能 [4] - 行业出现医学版ChatGPT应用 [4] - Gemini推出Deep Research Agent [4] - Runway发布GWM-1应用 [4] - 谷歌将翻译功能融合进Gemini [4] - 拓竹科技与混元合作推出「印你」应用 [4] - 宇树科技推出机器人应用商店 [4] 前沿科技与行业观点 - Harmonic研究Erdos1026问题 [4] - 风险投资机构a16z提出AI泡沫判断标准 [4] - OpenAI研究记忆系统 [4] - 谷歌研究递归自我改进技术 [4] - 多款AI模型面临“AI手指”生成难题 [4] - 媒体披露OpenAI的Sora模型开发内幕 [4] - 行业关注AI生成的成人内容市场 [4] - DeepMind对AGI（通用人工智能）到来做出预测 [4] - 数据分析公司Similarweb揭示AI用户趋势 [4] - OpenAI与迪士尼探讨合作 [4]

Artificial Intelligence

AGI

Artificial Intelligence

TorchTPU

AI服务器芯片

Gemini 3 Flash

Artificial Intelligence

AGI

Artificial Intelligence

格隆汇· 2025-12-18 17:26

全球市场表现与板块分化 - 贵金属市场表现强劲黄金盘中涨超1%直逼十月高点白银接连冲破65美元和66美元大关年内涨幅约130% A股唯一的白银基金国投瑞银白银LOF已连续第四日停牌 [2] - 美国AI板块遭遇重挫甲骨文因数据中心延期及大金主撤资传闻股价暴跌较高点下跌45% 创自2011年8月以来最大跌幅其CDS利率飙升至金融危机时期水平 [3][4] - 科技股普遍下跌英伟达股价跌近4% 博通和特斯拉跌4% CoreWeave跌超7% 费城半导体指数SOX隔夜下跌3.7% 跌破50日均线 [5] AI行业动态与市场担忧 - AI产业需求与投资活动依然旺盛 OpenAI正探讨数百亿甚至1000亿美元融资谷歌发布Gemini 3 Flash并与Meta合作开发“TorchTPU”以挑战英伟达亚马逊重组AI团队发力大模型、芯片和量子计算马斯克称xAI最早明年实现AGI [7][8] - 市场担忧AI投资回报率空档期科技投资人Gavin Baker提出对“Blackwell投资回报率空档期”的担忧即资本支出极高但收入暂时持平导致ROIC下降 [8][10] - 市场对AI基础设施公司重新定价因担忧毛利率降低风险甲骨文从高毛利SAAS转向低毛利云基础设施博通从卖芯片转向卖系统英伟达面临TPU可能导致芯片定价变低的风险叠加高估值和流动性紧张市场选择获利了结 [11] A股市场资金流向分析 - 宽基指数ETF获大额资金流入 A股市场昨日宽基指数ETF单日净流入164亿元其中融资资金仅净买入22.34亿元 [11] - 中证A500ETF成为资金流入主力该ETF单日净申购规模达111亿元沪深300ETF净流入31亿元紧随其后 [13] - 资金持续布局中证A500ETF 该ETF在12月合计净流入337亿元已连续第5日大手笔买入市场分析认为其资金流入行为具有连续性更像是险资等机构的年末调仓布局而非典型的救市操作 [17][19]