英伟达(NVDA)
搜索文档
扩内需的战略密码:从哪吒到英伟达,“中国市场”成全球博弈关键筹码|2025中国经济年报
华夏时报· 2025-12-26 10:56
"中国全球第二大消费市场的地位更加稳固,社零总额从2020年的39.1万亿元提升到去年2024年的48.3万 亿元,年均增长5.5%。和美国比,从绝对值来看,我们的社零相当于美国的80%左右;但是从实际购买 力来看,按照世界银行所给出的数据和算法,我们的社零已经超过美国,是美国的1.6倍。"商务部部长 王文涛在"十四五"高质量发展新闻发布会上表示,中国在一些细分领域的规模保持"龙头"地位,比如网 上零售连续12年全球第一,汽车销量也是全球第一。空调、洗衣机等家电细分领域销量,也都是全球第 一。"中国有14亿人口,任何一样产品乘上14亿,肯定是一个超大规模的市场。"他说。 海南封关后的火爆就是一例。海南自由贸易港12月18日正式全岛封关,苹果、华为、金店、大牌美妆店 门口都排起了长队。至24日首周海口海关共监管离岛免税购物金额11亿元、购物件数77.5万件、购物人 数16.5万人,同比2024年分别增长54.9%、11.8%、34.1%,向全球展示了海南商业的开放机遇和发展的 信心。 本报(chinatimes.net.cn)记者刘诗萌 北京报道 2025年,从年头年尾,两部动画片点亮了整个中国电影市场。 前一 ...
京东年终奖投入涨幅超70%;英伟达收编芯片独角兽丨科技风向标
21世纪经济报道· 2025-12-26 10:43
巨头公司动态 - 京东2025年终奖投入同比增幅超过70%,全集团92%的员工拿满甚至拿到超额年终奖,部分部门实现19薪,有业务单元提前实现20薪 [2] - 字节跳动2025年三季度内部违规处理中,共有120名员工被辞退,其中28名被实名通报,14人因涉嫌刑事犯罪被移交司法机关 [4] - 阿里云否认了关于其标杆客户小红书“下云”的传言 [5] - 英伟达与AI芯片初创公司Groq达成其推理技术的非独家许可协议,Groq部分核心团队成员将加入英伟达,交易未涉及公司收购 [14] 人工智能与算力 - 阿里云通义千问图像编辑模型Qwen-Image-Edit-2511版本正式开源,重点提升了编辑前后图像的一致性 [3] - 瑞晟智能成交金额为1.52亿元的国产算力设备及配套服务采购项目,产品主要为算力设备及配套安装、调试服务 [10] - 上海微电子装备(集团)股份有限公司以约1.1亿元(10999.985万元)中标科技部采购一台步进扫描式光刻机 [13] 半导体与芯片产业 - 罗博特科表示,从下游客户预测及设备交付节奏看,CPO(共封装光学)产业落地节奏正常推进甚至加快,公司已与核心产业链方在OCS技术路径开展深度合作 [7] - 紫光国微全资子公司拟与宁德时代全资子公司等共同投资3亿元设立公司,从事汽车域控芯片的研发、生产和销售,其中紫光同芯出资51%,问鼎投资出资5% [14][15] - 商务部新闻发言人表示,中方坚决反对美国对华半导体产品加征301关税,并已向美方提出严正交涉 [16] - 深圳大普微电子股份有限公司成为创业板首家未盈利过会企业,拟募资18.8亿元,专注于数据中心企业级SSD的全栈自研 [17] - 南京创芯慧联技术有限公司完成超亿元D轮融资,公司为国家级专精特新“小巨人”,已实现6款芯片量产 [18] 新能源与电池技术 - 欣旺达子公司与中伟股份签署固态电池战略合作框架协议,双方将围绕固态电池用正极材料前驱体开发、正极材料及电池合作开发等领域开展全方位战略合作 [8][9] 机器人产业 - 2026北京亦庄人形机器人半程马拉松定于2026年4月19日举行,赛事采用“人机共跑”模式,设立自主导航组和遥控组 [6] 游戏与内容产业 - 2025年全年游戏版号发放数量定格在1771个,包含1676个国内游戏版号、95个进口游戏版号,12月共有144个国产游戏、3个进口游戏获得版号 [13] 国际合作与监管 - 商务部回应TikTok在美成立合资公司,表示中美双方经贸团队已就以合作方式妥善解决TikTok等问题达成基本框架共识,希望美方履行承诺提供公平营商环境 [12] 公司治理与监管 - 倍轻松公司及实际控制人马学军因涉嫌信息披露违法违规,收到中国证监会下发的《立案告知书》 [11]
美国半导体及半导体设备:行业现状;2026 年前瞻-US Semiconductors and Semi Equipment _The State of The State; 2026 Preview
2025-12-26 10:18
**涉及行业与公司** * **行业**:全球半导体及半导体设备行业,重点细分领域包括计算芯片、存储芯片、半导体设备(SPE)、模拟与射频芯片 [1][4][5] * **公司**:报告覆盖了广泛的上市公司,核心提及包括: * **计算/网络**:英伟达、超威半导体、博通、迈威尔科技、英特尔、Arm、联发科 [10][45][47][55] * **存储**:美光科技、西部数据、希捷科技、三星、SK海力士 [10][45][64][97] * **半导体设备**:应用材料、泛林集团、东京电子、科磊、泰瑞达 [10][45][77][99] * **模拟芯片**:德州仪器、亚德诺半导体、安森美、微芯科技、英飞凌 [10][45][88][99] **核心观点与论据** * **AI是市场核心驱动力**:AI贡献了2025年标普500指数17.1%涨幅中的80%,并成为实体经济中最后的强劲支柱 [10][12][16] * **半导体行业前景依然乐观**:尽管2025年半导体指数已上涨34%,但仍有上涨空间,因其增长前景是标普500的两倍但估值溢价几乎为零,且主动型投资者仍低配该板块 [10][31][33] * **AI需求持续强劲**: * **训练算力**:呈指数级增长 [17][21] * **推理成本**:每百万令牌成本持续下降,推动应用普及 [20][22] * **资本支出**:美国超大规模数据中心资本支出在2025年增长75%后,预计2026年将同比增长34%至约5960亿美元,且仍有上行修正空间 [23][30][112] * **库存周期重启**:行业收入增速超过库存增速,预示着半导体周期仍有上行潜力 [39][40] * **各子板块投资观点**: * **计算芯片**:看好一线AI公司,但最青睐迈威尔科技,认为市场对其中来自微软和亚马逊的收入贡献过于悲观 [10][45][58] * **存储芯片**:偏好高带宽内存和DRAM甚于NAND和HDD,因高带宽内存将持续使2026年供应紧张,看好美光科技 [10][45][64][69] * **半导体设备**:认为其是下一个受益于AI的子行业,晶圆厂设备支出势头强劲,行业盈利能力支持多年超级周期,看好泛林集团、应用材料和泰瑞达 [10][45][76][77] * **模拟芯片**:AI对其影响太小,但可作为与AI相关性较低的顺周期交易选择,看好德州仪器 [10][45] **其他重要细节** * **主权AI项目**:已宣布的主权AI项目总额超过2500亿美元,预计将为英伟达等公司带来增量收入,其规模预计可达英伟达2025年主权相关收入的约12倍 [27][28][121] * **OpenAI的巨额采购**:与英伟达、博通、超威半导体等公司签订了涉及约26吉瓦(GW)算力的协议,并与多家云服务提供商签订了多年合同,总承诺金额超过1.1万亿美元 [122] * **具体公司预期**: * **英伟达**:预计其每股收益在2027财年之前将以25%以上的速度增长,达到约10.98美元,推动股价至230美元以上 [61] * **超威半导体**:认为市场对其数据中心GPU业务在2027年约300亿美元的营收预期过低,考虑到其拥有多个吉瓦级客户 [10][61][104] * **模拟芯片市场**:在AI数据中心支出中的占比仅为0.4%,计算芯片仅占模拟公司营收的中个位数百分比 [88][90] * **市场情绪与拥挤度**:网络和内存板块最受投资者追捧(“长仓拥挤”),而半导体设备板块的关注度相对不足 [41][42][45] * **技术节点需求**:预计台积电的N3需求将在2026年下半年回升,部分原因是AI芯片的裸片尺寸显著增大;N2产能可能比前代节点更早达到峰值 [82][83][85]
英伟达:能否驾驭 Groq 的技术
2025-12-26 10:12
涉及的行业与公司 * **行业**:美国半导体行业[1] * **公司**:英伟达[1]、AI芯片初创公司Groq[1] 关于英伟达与Groq交易的核心观点与论据 * **交易性质**:报道称英伟达以200亿美元现金收购Groq[1],但实际交易更可能是对技术和人才的获取,而非直接收购,具体条款尚未披露[2] * **交易结构**:Groq宣布与英伟达达成一项**非排他性**许可协议,授权其推理技术[1],Groq创始人、总裁及部分团队成员将加入英伟达[1],但Groq将继续作为独立公司运营[1] * **战略意义**:交易对英伟达具有战略意义,旨在利用其强大的资产负债表,在关键领域维持主导地位[3],公司已是AI训练领域的明确领导者,但推理工作负载更多样化,可能带来新的竞争领域[3],因此投入资金(即使是200亿美元)来增强新能力、巩固在推理领域的领先地位是合理的[3] * **交易估值**:200亿美元对于一项许可协议(尤其是“非排他性”协议)来说显得昂贵[4],但考虑到英伟达目前**610亿美元**的现金余额和**4.6万亿美元**的市值,这笔交易对其而言只是“零钱”(约每股0.82美元)[4] * **历史对比**:如果200亿美元的数字准确,这将是英伟达迄今为止最大的交易(对比2017年收购Mellanox的约**70亿美元**)[2] * **潜在风险**:反垄断似乎是主要风险,但将交易构建为非排他性许可可能维持了竞争的表象[3] 关于Groq公司的核心信息 * **公司背景**:Groq成立于2016年,由谷歌TPU的创造者Jonathan Ross创立[3],完全专注于高性能推理[3] * **核心技术**:其芯片产品称为“语言处理单元”,采用顺序处理大量数据(与GPU的并行处理相对),并利用大量嵌入式片上SRAM来存储模型参数[3] * **市场宣称**:与大多数AI初创公司一样,Groq声称在速度、功耗和成本方面相比GPU有显著改进[3] * **融资与估值**:公司已筹集超过**30亿美元**,截至最近一轮融资(5月),估值为**69亿美元**[3] * **财务数据**:CNBC指出其今年收入约为**5亿美元**[3],而公司在2024年中期的融资中曾预测2024年收入约**2.2亿美元**,并设定了2025年**70亿美元**的目标[3] 英伟达的财务预测与投资评级 * **投资评级**:报告给予英伟达“跑赢大盘”评级,目标股价为**275美元**[4][5][6] * **估值方法**:采用约**33倍**的市盈率,基于对FY27/FY28(CY26/CY27)非GAAP每股收益预测的平均值**8.43美元**,得出目标价[19] * **核心投资逻辑**:数据中心市场机会巨大且仍处于早期阶段,仍有巨大的上行潜力[6] * **盈利预测**:预测非GAAP稀释后每股收益2025年为**4.66美元**,2026年为**7.65美元**,2027年为**9.21美元**[5][10] * **收入预测**:预测总收入2025年为**2129.112亿美元**,2026年为**3245.964亿美元**,2027年为**3937.794亿美元**[10][15],数据中心是主要增长引擎,预测其收入2025年为**1907.48亿美元**,2026年为**3002.632亿美元**,2027年为**3673.158亿美元**[15] * **利润率预测**:预测非GAAP营业利润率2025年为**63.4%**,2026年为**67.1%**,2027年为**64.9%**[10],预测非GAAP净利润率2025年为**53.6%**,2026年为**57.3%**,2027年为**56.4%**[10] * **现金流预测**:预测自由现金流2025年为**946.16亿美元**,2026年为**1635.99亿美元**,2027年为**2188.19亿美元**[13] * **资产负债表预测**:预测现金及现金等价物2025年为**330.89亿美元**,2026年为**1557.19亿美元**,2027年为**3335.74亿美元**[11] 其他重要信息 * **下行风险**:包括近期业务趋势可能出现波动、关键终端市场收入增长慢于预期(影响股票倍数并降低运营费用杠杆)、竞争对手可能挤压市场份额或价格、客户转向自研芯片、以及技术出口相关的监管风险[20] * **分析师持仓披露**:报告作者Stacy A. Rasgon持有多种加密货币[45] * **做市商披露**:伯恩斯坦的某些关联公司是英伟达股票证券的做市商或流动性提供者[45]
AMD Strix Halo对线Nvidia DGX Spark,谁最强?
半导体行业观察· 2025-12-26 09:57
文章核心观点 文章对英伟达DGX Spark与基于AMD Strix Halo的惠普Z2 Mini G1a两款AI迷你工作站进行了全面的性能对比与评估,旨在为不同需求的用户提供选购参考[1][53][54] 核心结论是:选择取决于用户需求是“一台专门的AI机器”还是“一台能胜任大多数AI工作的通用PC”[54] 对于主要关注单批次LLM推理、需要运行Windows/Linux以及玩游戏的用户,基于AMD Strix Halo的惠普Z2 Mini G1a是更具性价比和灵活性的选择[55][57] 对于专注于原型代理、模型微调或图像/视频生成等高性能AI工作负载的用户,尽管价格更高,但英伟达DGX Spark凭借其2-3倍的性能优势和更成熟的软件生态,是更专业的“开箱即用的AI实验室”[57] 产品定位与价格 - **产品定位**:DGX Spark被设计为开箱即用的AI实验室,专注于多节点AI计算环境[10][57];惠普Z2 Mini G1a则是一款能够流畅运行Windows/Linux和游戏的通用PC,同时能处理大多数AI工作负载[52][57] - **官方售价**:DGX Spark建议零售价为3,999美元,惠普Z2 Mini G1a的测试配置零售价约为2,949美元[12] - **市场价格弹性**:两款系统均有更便宜的OEM或简化配置版本,例如128GB Strix Halo系统价格可略高于2000美元,而1TB存储的Spark OEM版本起价约为3000美元[13] 设计与硬件配置 - **外观与设计**:Spark采用全金属机身,体积更小(150mm x 150mm x 50.5mm),重量1.2kg,设计更精致[4][12];G1a机箱更大(85mm x 168mm x 200mm),重量2.3kg,外壳为塑料但内部为金属机箱,维护更方便[4][5][12] - **核心平台**:Spark基于英伟达Grace Blackwell (GB10)超级芯片[11];G1a基于AMD Ryzen AI Max+ Pro 395 (Strix Halo) APU[11] - **计算单元**:Spark拥有6,144个CUDA核心、192个第五代Tensor核心和48个第四代RT核心[11];G1a的GPU(Radeon 8060S)拥有2,560个流处理器和40个计算单元[11] - **内存与存储**:两款系统均配备128 GB LPDDR5x内存,Spark内存带宽为273 GB/s,G1a为256 GB/s[11][26];Spark配备4 TB NVMe存储,G1a配备2个1 TB M.2 NVMe SSD[11] - **I/O与连接**:Spark优先高速网络,配备1个10GbE端口和2个总计200Gbps的QSFP端口用于集群[10][12];G1a提供更丰富的通用接口,包括2个40 Gbps Thunderbolt 4端口、1个2.5 GbE端口和多个USB端口,并支持HP Flex IO模块扩展[9][12] CPU性能 - **CPU架构**:G1a采用16个Zen 5核心,频率最高5.1GHz[11][15];Spark采用20核Arm CPU(10个X925性能核心+10个A725能效核心)[11][15] - **性能表现**:在Sysbench、7zip和HandBrake等测试中,G1a的CPU性能比Spark高出10%到15%[15];在Linpack高性能计算基准测试中,G1a的双精度浮点性能达到1.6 teraFLOPS,是Spark(708 gigaFLOPS)的两倍多[16] GenAI理论性能与内存带宽 - **理论峰值性能**:Spark宣称AI算力可达1 petaFLOPS(稀疏FP4),但实际稠密FP8/FP16峰值性能约为250/125 teraFLOPS,实测BF16下为101 teraFLOPS,FP8下为207 teraFLOPS[18];Strix Halo平台宣称总性能为126 TOPS,其中NPU占50 TOPS,GPU估计峰值性能约为56 teraFLOPS(稠密BF16/FP16),实测达到理论值的82%,约46 teraFLOPS[19] - **性能优势比较**:理论上,Spark在原始AI算力上比Strix Halo具有2.2至9倍的优势[20] - **内存带宽**:Spark内存带宽为273 GB/s,G1a为256 GB/s,两者差距不大[11][26] LLM推理性能 - **单批次/单用户推理**:在Llama.cpp测试中,两款系统生成令牌的速度相近,G1a在使用Vulkan后端时略有优势[24][26];但在处理提示(首次输入时间)时,Spark的GPU速度是G1a的2-3倍,对于长序列或大型文档输入,Spark优势更明显[27] - **多批次推理**:在使用vLLM处理大批量任务(1-64批次)时,Spark凭借更强的GPU,在吞吐量和完成时间上均超越G1a[29][31] 模型微调性能 - **内存适应性**:两款128GB内存的系统都适合进行模型微调,包括使用LoRA/QLoRA技术[34] - **性能对比**:在对Llama 3.2 3B进行完整微调时,Spark的完成时间约为G1a的三分之二[36];在对Llama 3.1 70B使用QLoRA微调时,Spark耗时约20分钟,G1a耗时超过50分钟[38] - **适用场景**:对于不频繁进行的微调任务,Spark的性能优势可能不足以抵消其更高的价格[38] 图像生成性能 - **性能差距**:在ComfyUI中运行FLUX.1 Dev图像生成模型时,Spark的BF16性能约为120-125 teraFLOPS,是G1a(约46 teraFLOPS)的2.5倍左右[42] - **结论**:图像生成不是Strix Halo系统的强项[42] NPU性能与应用 - **硬件配置**:Strix Halo集成了XDNA 2 NPU,提供50 TOPS的额外AI算力[11][44] - **软件生态**:NPU的软件支持有限,主要用于音频/视频降噪等低功耗场景[44];在LLM推理上,纯NPU运行Mistral 7B仅4-5 tok/s,远低于预期[44];解耦推理(NPU处理提示,GPU处理解码)性能有提升,但仍不及纯GPU[45] - **特定优势**:在Amuse软件中运行Stable Diffusion 3模型时,NPU性能优于GPU,能在1分多钟生成1024x1024图像,而GPU需要约两倍时间[46][48] 软件与生态系统 - **英伟达优势**:Spark拥有基于CUDA的成熟、活跃的软件生态,几乎所有CUDA软件都能无缝运行[48][57] - **AMD进展**:AMD的ROCm和HIP软件栈已取得显著进展,许多PyTorch脚本无需修改即可运行,但体验仍不如CUDA流畅[48][49];部分软件(如vLLM、Llama.cpp)仍需从源码编译或使用特定分支[49] - **硬件限制**:Strix Halo基于较老的RDNA 3.5架构,不支持Spark Blackwell GPU提供的许多低精度数据类型(如FP4、FP8),经常被迫以16位精度运行模型[50] 游戏与其他工作负载 - **游戏兼容性**:G1a能流畅运行《孤岛危机:重制版》等游戏,在1440p中等画质下可达90-100帧[52];Spark基于Arm CPU,运行x86游戏需借助FEX等工具,过程更复杂,但最终也能流畅运行[52] - **通用性结论**:对于同时需要AI能力和通用计算(包括游戏)的用户,G1a或类似Strix Halo系统是更自然的选择[52][57]
英伟达的最大威胁:谷歌TPU凭啥?
半导体行业观察· 2025-12-26 09:57
谷歌TPU的发展背景与动机 - 谷歌作为全球最大的信息检索系统公司,其使命“组织全球信息”高度依赖机器学习技术,该技术自2000年代中期起已广泛应用于搜索排序、垃圾邮件过滤、广告点击率预测等核心业务,为公司创造了每年数十亿美元的收入[10][11] - 在深度学习兴起前,谷歌通过大规模通用服务器集群支撑复杂模型训练,例如一篇2012年的论文记录使用一个由1,000台机器、共16,000个CPU核心组成的集群,连续运行约三天来训练一个拥有10亿连接、处理1000万张图像的模型[11][12] - 随着模型规模和计算密度急速扩张,依赖通用CPU集群的方式触及性能与能耗瓶颈,促使谷歌转向专用机器学习加速器路线[13] - 谷歌于2011年启动Google Brain项目,旨在结合深度神经网络与公司庞大的分布式计算基础设施和海量数据,训练此前规模难以企及的神经网络系统[13] - 早期深度学习开发完全基于CPU运行,直到Alex Krizhevsky在2013年加入谷歌后,才引入GPU进行神经网络训练,谷歌随后于2014年决定购买约40,000个NVIDIA GPU,花费约1.3亿美元[18][23] - 尽管GPU在训练上表现优异,但在全球范围内大规模部署模型进行推理时面临挑战,例如,若每位Android用户每天仅使用三分钟语音识别,通过CPU进行深度学习推理将迫使公司服务器数量增加两到三倍,成本高昂[24][25] - 依赖GPU存在潜在效率损失和单一供应商的战略风险,促使谷歌考虑定制硬件方案,目标是在推理任务上相较GPU实现约10倍的成本性能优势[26][27] 第一代TPU (TPU v1) 的诞生与设计 - 谷歌在15个月内完成了从概念到数据中心部署的壮举,于2015年初成功部署第一代TPU[4][42] - 项目快速成功的关键因素包括:团队的单一日程焦点、采用700 MHz的时钟频率和完全调试的28nm工艺,以及数据中心部署团队的高效协调[42] - TPU v1的架构灵感源于1978年H.T. Kung和Charles E. Leiserson提出的“脉动阵列”理论,该设计通过有节奏的数据流动和计算,非常适合大规模矩阵运算[31][33][50] - TPU v1的核心是一个256x256的脉动阵列矩阵乘法单元,执行8位整数乘法,采用量化技术以节省芯片面积和能耗[62][65] - TPU v1采用CISC设计,仅有约20条指令,通过PCIe接口从主机接收指令,关键指令包括读取主机内存、读取权重、执行矩阵乘法/卷积、应用激活函数以及写回主机内存[66][67][68][69][70][72] - 软件栈方面,谷歌开发了驱动程序使其深度学习框架TensorFlow能够与TPU v1协同工作,确保与CPU和GPU软件栈的兼容性[73] - TPU v1由台积电采用28nm工艺制造,芯片面积的24%用于矩阵乘法单元,29%用于统一缓冲区内存,仅2%用于控制逻辑,体现了架构的简洁高效[74][75] - 在性能上,TPU v1专注于推理任务,其拥有NVIDIA K80 GPU 25倍的乘累加单元和3.5倍的片上内存,在推理速度上比K80 GPU和Intel Haswell CPU快约15至30倍,能源效率更是高出25至29倍[78][79] TPU的迭代演进与技术升级 - **TPU v2 (2017)**: 定位为服务端AI推理和训练芯片,架构上进行多项重大改变,包括引入通用向量单元、将矩阵单元作为向量单元的卸载、采用高带宽内存,并添加互连以实现高带宽扩展,其核心采用超长指令字架构和线性代数指令集[82][83][90][91][92] - **TPU v3 (2018)**: 在v2基础上温和升级,矩阵单元和HBM容量增加两倍,时钟速率、内存带宽和芯片间互连带宽提升1.3倍,算力达420TFlops,内存128GB,并首次引入分布式训练框架和液冷技术[95] - **TPU v4i (2020)**: 定位为服务器端推理芯片,单核设计,增加了片上SRAM存储,引入四维张量DMA引擎和共享片上互连,时钟频率达1.05 GHz[99][100][104][106][108] - **TPU v4 (2021)**: 采用7nm工艺,峰值算力275TFLOPS,性能全球领先,通过引入光路交换机解决大规模集群的互连规模和可靠性问题,并公开了对稀疏模型的支持[114][117] - **TPU v5e (2023)**: 强调成本效益,专为大模型和生成式AI打造,与TPU v4相比,每美元训练性能提升高达2倍,每美元推理性能提升高达2.5倍,成本不到TPU v4的一半,支持从13B到2万亿参数的模型[119][120][123][126] - **TPU v5p (2023)**: 性能大幅提升,浮点运算次数和内存带宽分别提升2倍和3倍,大语言模型训练速度实现2.8倍的代际提升,提供459 teraFLOPS的bfloat16性能或918 teraOPS的Int8性能,支持95GB高带宽内存[127] - **TPU v6/Trillium (2024)**: 训练效果提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,高带宽内存容量和芯片间互连带宽均实现翻倍,在12个Pod规模下扩展效率高达99%[129][133] - **TPU v7/Ironwood (2025)**: 采用3nm制程工艺,实现全方位突破,FP8峰值算力高达4614TFlops,较第二代TPU提升3600倍,配备192GB的HBM3E显存,单芯片内存带宽达7.2TBps,并首次在TPU系列中支持FP8计算[142][143][145] TPU v7的核心架构创新 - 应用3D堆叠技术,通过混合键合将逻辑层与内存层以10微米间距堆叠,减少信号延迟,并将功耗降低30%[147] - 引入新型计算核心FlexCore,每个核心包含4096个乘累加单元,支持FP32、FP16、BF16、FP8混合精度计算,并采用三级缓存结构,其中L3缓存容量达64MB/核心[148] - FlexCore集成了稀疏计算加速器,通过动态稀疏化技术,在训练中可自动屏蔽80%的零值数据,提升计算效率[149] - 采用光互联技术,在芯片上直接集成激光器和光调制器实现硅光子集成,利用波分复用技术使单链路带宽达1.6TB/s,将芯片间通信延迟从第六代的20微秒降低至5微秒[150] 软件生态与系统优化 - 编译器XLA得到显著改进,通过优化技术使模型在TPU v7上的运行速度提高30%[152] - 分布式训练框架针对大规模集群优化,在训练万亿参数语言模型时,训练时间较上一代缩短40%[153][154] - 配备增强版SparseCore,专为处理推荐系统等场景中的超大稀疏嵌入而设计,能大幅提升相关计算效率[154] - Pathways机器学习运行时在跨芯片计算中发挥关键作用,能高效协调数万个TPU芯片,在训练大型语言模型时可将效率提高50%[155] 应用表现与市场意义 - TPU v7在超大规模模型训练中展现卓越性能,其高算力、大内存和高带宽能显著缩短训练时间,并有望降低30%至50%的总体训练成本[156][157][158] - 在AI推理场景,特别是针对混合专家模型,TPU v7通过软硬件协同优化,可实现推理延迟降低50%以上,成本降低40%以上[158][160][161] - TPU系列的成功迭代证明了定制化AI加速硬件的可行性与巨大潜力,挑战了NVIDIA GPU在AI计算领域的绝对主导地位,表明市场存在多元化的竞争路径[5][163]
连英伟达都开始抄作业了
钛媒体APP· 2025-12-26 09:38
文 | 下海fallsea,作者 | 胡不知 2025年12月24日,平安夜的硅谷没有温情。当大多数人沉浸在节日氛围中时,AI算力圈传来一则足以 改写行业格局的消息:英伟达宣布以200亿美元现金,与曾喊出"终结GPU霸权"的AI芯片初创公司Groq 达成技术许可协议。 "这不是收购,却胜似收购。"伯恩斯坦分析师Stacy Rasgon一针见血地指出,"本质是英伟达用金钱换时 间,把最危险的颠覆者变成自己人,同时规避反垄断审查的障眼法。" 这场交易的背后,是AI产业的历史性转折——从集中式模型训练,全面迈入规模化推理落地的新阶 段。推理市场正以年复合增长率65%的速度扩张,预计2025年规模突破400亿美元,2028年更是将达到 1500亿美元。而英伟达的GPU霸权,在推理赛道正遭遇前所未有的挑战:谷歌TPU凭借成本优势抢食大 客户,AMD MI300X拿下微软40亿美元订单,中国的华为昇腾在本土市场份额已飙升至28%。 曾被视为"GPU终结者"的Groq,为何最终选择与英伟达联手?200亿美元的天价交易,能否帮英伟达守 住算力王座?这场"招安"背后,更折射出AI芯片行业创新者的集体困境:当技术颠覆者撞上巨头的 ...
2个印度人,搞出全球第一「AI妖股」,0芯片、狂飙550倍看呆英伟达
36氪· 2025-12-26 08:40
AI泡沫里不仅有神话,还有鬼话。 你可能从未听说过RRP半导体有限公司,但此刻一定在懊悔两年前没能押注这家公司。 这家仅2名正式员工的印度公司,在此期间股价竟暴涨550倍! 而过去两年间,英伟达股价涨幅超250%,可谓相形见绌。 印度AI第一妖股 过去20个月,这只股票如搭乘火箭般飙涨超过55,000%,创下连续149个交易日涨停的疯狂纪录,市值从235万元人民币飙升至17亿美元(约120亿元人民 币),增长超500倍。 过去几周,诡异的事件接连发生,几乎堪称荒诞喜剧。 实际上,RRP半导体根本没开展任何形式的半导体制造活动,也未申请任何相关政府项目。 自2024年初转型后,这家公司与半导体最大的关联可能是公司名。 RRP半导体是小盘股,但在18个月内股价飙涨63000%,尽管交易量微乎其微、财务状况模糊且并无实际芯片业务。 Rajendra Chodankar既是马哈拉施特拉邦政府和体育传奇明星Sachin Tendulkar投资的RRP电子公司的发起人,又恰好是RRP半导体的最大股东。 在收购并将「G.D. Trading and Agencies」贸易与中介公司更名为「RRP Semiconductor ...
AI热潮下,过早“看懂一切”本身就是风险
吴晓波频道· 2025-12-26 08:29
怎么看待AI泡沫 - 当前市场已普遍默认存在AI泡沫,并转而讨论其类型,有观点认为这是一个由股权和生产性因素引起的“好的泡沫”,通常不那么危险,但进入2025年第四季度后,数据中心引发的巨额债务加剧了业界对泡沫的担忧[3] - 与2000年互联网泡沫相比,当前情况不同:互联网泡沫顶峰时思科市盈率超过100倍,而当前英伟达的股价与其盈利能力相对匹配;2000年前后头部互联网公司市盈率高达89倍,而当前“Magnificent 7”加上博通最高市盈率仅约37倍,并非典型估值泡沫[4] - 资本开支与现金流状况更健康:互联网泡沫时期头部公司资本开支占自由现金流比例一度超过100%,而当前头部科技公司该比例平均约50%,现金流缓冲空间较大[4] - 泡沫通常经历形成、资产错配和崩溃三个阶段,真正易引发崩溃的是表外债务,因其会引发挤兑[4] - 当前外部变量比互联网泡沫时期更复杂:当时美联储在加息收紧流动性,而当前美联储处在降息周期,正在放水[4] - 基础设施折旧周期差异构成关键风险:铁路和光纤在泡沫破裂后能长期存在支撑增长,而当前数据中心和GPU折旧周期短得多,成本能否在短期内收回成为大问题[5] - 真正价值最确定的领域仍集中在英伟达和台积电等硬件端,应用层和模型层的核心问题在于,即便全球用户全面采用AI,其可计算的收入上限是否足以覆盖整个中间层的巨大投入[5] 对未来AI行业有何预测 - AI开源是长期可持续的趋势,模型研发的投入并未如最初想象般巨大,且开源的边际收益明显,能形成生态吸引开发者参与,形成正反馈循环,同时今天的开源并不等于放弃商业化,正以多种方式与商业化深度结合[6] - 行业未来将呈现“并购整合”与“百花齐放”并存的局面,并购已在发生,而在应用层面,细分方向的创新会越来越多,预计到2026年多点爆发的态势会更明显,中国厂商可能展现出更强竞争力[6] - 当前AI应用最大的商业化痛点在于产品留存和使用时长不理想,远未到稳定转化阶段,需通过不断迭代打磨,等待产品能力、技术水平和使用场景叠加到临界点才可能改善[7] - 2026年AI具体落地方向趋势包括:AI手机不再是边缘战场,将明显抬高行业竞争曲线,其作为新入口形态有潜力削弱微信、淘宝、抖音等现有平台壁垒,但会遭遇既有巨头抵触,相关博弈将更激进,最终可能需要政策或监管进一步明确[7] - AI与机器人结合(具身智能)非常看好,中国在硬件、制造、控制层面有积累,AI补上了“智能大脑”关键环节,具备现实土壤[8] - 多模态AI将进一步深化,尤其在图像和视频领域;AI硬件将更加丰富,从陪伴型玩具到智能眼镜都将成为竞争焦点;语音作为最自然的交互方式,可能在2026年迎来更广泛的AI应用落地[8] - 行业存在重演5G“预期很高、买单不足”的风险,核心议题在于用户需求的天花板是否足以覆盖当前庞大的数据中心投入[8] AI时代的个体该怎么办 - 需保持独立思考能力,警惕AI在提升效率的同时,会放大并固化人类社会原有的偏见,最令人担忧的不是AI不够聪明,而是人类过度依赖AI[11] - 使用AI的简单原则是:无关紧要的琐事和重复性任务可交给AI,重要的事一定要自己三思,因为AI会产生“幻觉”,例如可能虚构出完全符合预期的案例细节[11] - 普通人面临的风险主要在于当别人进步时自己原地踏步,而非被AI直接淘汰[12] - 建议积极学习并拥抱新的AI生产力工具,如ChatGPT、DeepSeek,AI实现了技术权威的去中心化,掌握与AI协作的技巧即可学习高端技能,同时可利用碎片化学习但需保持连贯性[12] - 在AI时代应学会主动“清理”记忆,将过时、可被机器快速替代的知识(如复杂公式)从大脑中腾出,以掌握最先进的工具,不断学习是防止被淘汰的关键[12] - 除了生成式AI和预测式AI,更应关注通用人工智能(AGI)的趋势,核心在于理解它将如何深刻改变社会结构和生活方式,例如用机器人陪伴解决老龄化社会的养老难题[13] - 应对职业焦虑的建议:首先缩小关注圈,聚焦AI对自己所在行业的影响;其次弄清楚AI如何冲击自身赖以生存的技能,并迅速用新工具完成自我迭代;在大模型时代,学会提出正确的问题将成为关键技能[13]