Workflow
AI推理
icon
搜索文档
SRAM,取代HBM?
半导体行业观察· 2026-01-12 09:31
文章核心观点 - 英伟达收购Groq事件引发了关于SRAM与HBM在AI推理时代技术路线的行业辩论,但“SRAM取代HBM”是一个伪命题,真正的核心是AI推理如何实现总拥有成本最优解[1][22] - SRAM的优势在于确定性、极低延迟和能效,适合边缘计算和实时推理场景;HBM的优势在于大容量和高带宽,仍是数据中心承载海量参数的基石;两者将在AI推理领域并存,形成存储层级化机遇[22][23] SRAM与HBM的技术特性对比 - **SRAM(静态随机存取存储器)**:是世界上最快的存储介质之一,访问延迟为1纳秒,但容量小(几百MB),成本高,面积大;如同“衬衫口袋”,伸手即得但空间有限[2][8] - **HBM(高带宽存储器)**:本质是3D堆叠的DRAM,容量大(几十GB),带宽极高,但访问延迟约为100纳秒;如同“大型仓库”,容量大门宽但存在物理延迟[2] - 两者根本区别在于,SRAM的访问延迟比HBM/DRAM“快一个数量级”(1ns vs 100ns),且具有确定性(每次都一样快)[9][16] AI从训练转向推理带来的存储需求变化 - **训练阶段**:模型参数达百亿甚至千亿级,计算强度高,数据复用率高,对容量和带宽需求大,延迟不敏感,是HBM的舒适区[4] - **推理阶段**:特别是在人机交互和实时控制场景,延迟成为生命线,需要处理Batch Size = 1(单次请求)的实时请求[4] - 传统GPU架构依赖HBM,在实时推理场景中频繁加载权重会导致数百纳秒的延迟,造成性能剧烈下滑,为掩盖延迟被迫增大批处理大小(如256个请求一起处理),导致响应不丝滑[4][7] Groq的LPU架构与SRAM技术路线 - **核心设计**:完全抛弃HBM作为主存储,改用数百MB的片上SRAM存放模型权重,访问延迟仅为HBM的几分之一[10] - **性能数据**:片上SRAM带宽高达80TB/s,在阿贡国家实验室的核聚变反应堆预测任务中,于0.6毫秒内完成了19.3万次推理,比NVIDIA A100性能高出600多倍[10][16] - **架构创新**:采用同步计算与通信方法,将计算与内存访问解耦,实现更高的内存级并行性,支持在Batch Size = 1下提供高性能和可预测的低延迟[11][13][14] - **工艺路线**:当前主要采用台积电14nm/7nm,计划走向4nm,在更先进制程下大规模SRAM的读写稳定性更高[9] 英伟达的视角与行业趋势判断 - **黄仁勋的观点**:承认如果一切都能装进SRAM则不需要HBM,但指出这会使模型尺寸缩小约100倍,成本与电力消耗将是天文数字,因此SRAM无法完全替代HBM[19] - **强调灵活性**:数据中心是有限的电力资源,需要能够灵活切换压力点(NVLink、HBM或计算单元)的架构来应对多变的模型(如MoE、多模态、SSM),以实现总拥有成本最优解[19] - **收购意图**:收购Groq旨在补齐“极致低延迟推理”的拼图,而非全面倒向SRAM;同时,英伟达也在研究通过CPX(计算与存储解耦/压缩)技术减少对昂贵HBM的依赖[18][19][20] - **集成度价值**:高度集成的统一架构(如更新一个模型库可提升所有GPU表现)比拥有17种零散专用架构更能优化整体数据中心的总拥有成本[20] 存储层级化与未来机遇 - **推理的重要性**:训练只发生一次,推理会发生数十亿次,如同“造发动机”与“上路开车”的区别,优化推理体验是“用量起点”[22] - **技术分工**:追求极致速度的边缘侧和特定实时推理场景,SRAM通过ASIC架构蚕食HBM份额;大规模数据中心中,HBM仍是基石;SSD/NAND则负责模型分发与长上下文存储[22] - **投资启示**:不应押注单一技术胜负,而应关注存储层级化带来的全面机遇,SRAM与HBM因其不同特性(快但有代价,慢但能平衡)将在AI推理领域并肩而行[23]
从预训练到推理拐点,英伟达能靠Rubin延续霸权吗?
雷峰网· 2026-01-09 16:52
文章核心观点 - 英伟达发布下一代AI计算平台Vera Rubin(六芯组合),标志着其战略从单芯片性能竞赛转向多芯片系统协同与全栈算力基础设施升级,以应对AI推理时代的挑战并巩固市场地位[1][4][5] - 该战略转向揭示了单芯片性能红利触顶的行业现实,多芯片协同与系统设计能力成为新的竞争关键,这为国产芯片厂商在长期内提供了新的发展机遇[6][11] - Rubin平台在追求高性能与低成本的同时,其大规模落地面临动态精度调整、能源功耗与散热等多重技术与实践关卡的考验[5][13][21] 根据相关目录分别进行总结 战略转向:从芯片到系统 - 英伟达在CES 2026发布集成Vera CPU、Rubin GPU、NVLink 6交换机等六种芯片的Vera Rubin组合平台,旨在应对模型规模年增十倍、推理算力指数级膨胀等挑战[2] - 此举打破了公司过往“每代新平台不超过一两个芯片变动”的原则,是其从“AI芯片厂商”向打造“AI工厂”转型的重要一步[11] - 行业观点认为,单芯片性能红利已经触顶,通过全局设计提升综合算力、推出整机乃至集群级解决方案成为新的破局关键[6][11][12] 性能与成本优势 - 训练一个十万亿参数规模的大模型,所需集群规模仅为Blackwell系统的四分之一[10] - 在同等功耗和空间条件下,一座Vera Rubin数据中心的AI计算吞吐量预计可达基于Hopper架构数据中心的约100倍[10] - 未来大规模AI服务的token生成成本,预计能降到当前水平的十分之一左右[11] 技术挑战:动态精度调整 - Rubin GPU的AI推理浮点性能相较上一代Blackwell提升五倍,核心驱动力是NVFP4 Tensor Core对精度与吞吐率的自适应调度能力[16] - 但提高FP4精度的推理会挤压FP16、FP32等更高精度的计算资源,且精度下降对文生视频等精度敏感场景的推理质量影响显著,测试显示从FP16降到FP8效果已肉眼可见变差[5][18] - 尽管精度压缩被视为行业必经之路,但市场对于向FP4精度跨越仍存疑虑,其技术落地效果有待验证[17][18][19] 技术挑战:能源与散热 - Vera Rubin的功耗是Grace Blackwell的两倍,其液冷计算托盘使用45摄氏度温水冷却,预计能为全球数据中心总电力消耗节省约6%[5][24] - 但业内分析指出,该方案进出液温差小,核心元器件实际工作温度可能维持在八九十摄氏度,机柜故障率难以下降,集群的模型浮点运算利用率可能仅停留在30%-50%区间[5][22][23] - Rubin架构单机柜功耗门槛极高,需要专用变电站及大量非标电压、电线等配套设施,给供电系统带来压力[25] 行业影响与竞争格局 - 推理业务的核心是成本,不同于训练业务的核心是效率,在新的价值逻辑下,英伟达开始以“性价比”为抓手坚守推理市场份额[7][11] - Rubin的发布短期对国产芯片利空,但长期利好,因它表明竞争焦点转向多芯片系统协同与系统设计,国内已有不少芯片创业公司在积极布局类似技术路径[6][11][12] - 大模型推理对存储要求高,未来CXL存储、LPDDR等新型高速存储技术有望被部署到GPU周边以提升性能,这对国内存储厂商有利[12] - 英伟达试图通过软硬耦合绑定客户,但客户更倾向于软硬解耦方案,采购决策的负担与顾虑可能加重[12]
闪迪一夜暴涨28%!老黄一句话,存储行情又燃了
华尔街见闻· 2026-01-07 20:43
文章核心观点 - AI浪潮正从训练阶段向推理应用大规模迁移,被视为“AI工作记忆”的存储板块迎来前所未有的价值重估 [1][2] - 市场对存储板块的重估,核心逻辑在于AI工作负载的性质转变,从资本支出驱动的模型训练转向以投资回报率为核心的AI推理阶段 [2][3] - 多模态AI的普及导致数据生成量呈指数级增长,对存储的容量和速度提出前所未有的要求,存储成为AI计算流程中不可或缺的活跃参与者 [5][7] - 在AI推理浪潮中,提供“记忆”的存储厂商将与提供算力的公司一同成为核心受益者,行业正进入一个“硬件复兴时代” [12] AI推理与多模态:数据爆炸的真正推手 - 全球年度数据生成量预计将从2024年的173 ZB飙升至2029年的527 ZB,五年内增长两倍以上,复合年增长率约为25% [5] - 随着多模态生成式AI兴起,系统需要处理和生成图像、视频、音频等非结构化数据,这些数据体积庞大且需要频繁的读写操作 [7] - 企业为训练、分析和合规目的需要保留越来越多数据,导致存储需求“同步飙升”,预计2026年及以后AI推理将占据主导地位 [7] 存储市场行情与催化剂 - 周二美股市场存储概念股集体飙升,闪迪暴涨27.56%,西部数据和希捷科技分别大涨16.77%和14.00% [2] - 行情的直接催化剂来自英伟达CEO黄仁勋在CES的讲话,其指出存储是一个“完全未被开发的市场”,很可能成为全球最大的存储市场,承载全球AI的工作记忆 [2] - 英伟达在CES展示了针对代理AI推理优化的新存储平台,承诺比传统平台提高五倍的能效 [2] 硬盘(HDD)复兴的机遇 - 机械硬盘凭借成本优势和容量密度,在海量数据存储领域占据不可替代的地位 [9] - 多模态AI和推理需求的增加将直接推动硬盘出货量增长,并促使客户转向更高容量的驱动器,从而提升希捷和西部数据的每TB价值 [9] - 希捷的HAMR技术和西部数据的UltraSMR技术,旨在满足对单盘容量和能效的极致追求 [11] 高性能闪存与边缘AI的战场 - 边缘AI在手机、PC、汽车、无人机等终端设备上直接运行AI,将是另一个巨大的增长极 [10] - 边缘AI要求极低的延迟和极高的可靠性,推动了存储介质向高性能的UFS和NVMe接口转移 [14] - 闪迪作为嵌入式和可移动闪存的领导者,将受益于单设备存储容量的提升和产品结构的升级 [14] - 现代AI系统需要存储提示词、反馈标签、安全日志及用于RAG的向量数据库,这需要大量随机I/O和写入操作,推高了高性能企业级SSD的需求 [11] 价格上涨与市场展望 - 随着AI训练和推理需求增长,存储供应趋紧,价格正在飙升 [12] - 三星电子和SK海力士正寻求在第一季度将服务器DRAM价格较去年第四季度上调60%至70% [12] - 硬件支出在IT行业的收入占比自2022年以来逐年上升 [12] 终端厂商的复苏 - 苹果被视为“终极边缘AI玩家”,其庞大的设备基数、自研芯片及对隐私的追求,使其能够通过端侧AI提供更快速、更安全的体验 [14] - 整合Gemini等第三方模型与Siri的潜在合作,有望进一步增强苹果生态系统的粘性 [14] - 戴尔和惠普将受益于企业对“AI PC”的换机需求,Gartner预测2025年AI PC将占到所有PC出货量的43% [14]
谷歌看了都沉默:自家“黑科技”火了,但为啥研发团队一无所知?
36氪· 2026-01-07 19:04
Gemini 3 Flash模型性能与定价 - 谷歌推出新一代AI模型Gemini 3 Flash,其核心特点是模拟人类“直觉”,而非单纯模拟思考[1] - 该模型速度是Gemini 2.5 Pro的3倍,且在某些基准测试中推理能力超越了自家的Pro版本[1][2] - 模型定价为:输入每百万tokens 0.50美元,输出每百万tokens 3.00美元[2] 关键基准测试表现对比 - 在学术推理测试(Humanity‘s Last Exam,无工具)中,Gemini 3 Flash得分为33.7%,低于Gemini 3 Pro的37.5%和GPT-5.2 Extra high的34.5%[2] - 在科学知识测试(GPQA Diamond,无工具)中,Gemini 3 Flash得分为90.4%,略低于Gemini 3 Pro的91.9%和GPT-5.2的92.4%[2] - 在数学测试(AIME 2025,无工具)中,Gemini 3 Flash得分为95.2%,略高于Gemini 3 Pro的95.0%,但低于GPT-5.2的100%[2] - 在代码能力测试(LiveCodeBench Pro,Elo评级)中,Gemini 3 Flash得分为2316,低于Gemini 3 Pro的2439和GPT-5.2的2393[2] - 在代理工具使用测试(t2-bench)中,Gemini 3 Flash得分为90.2%,与Gemini 3 Pro的90.7%相近[2] 关于“并行验证循环”技术的传闻与争议 - 有网络传闻称,谷歌DeepMind团队(AlphaGo团队)未使用思维链(Chain-of-Thought),而是采用了一种名为“并行验证循环”的机制[3][4] - 该传闻描述,并行验证循环允许系统同时生成和验证多个候选解决方案,进行交叉验证并迭代,而非线性思考[10][12][16] - 传闻声称,相比标准思维链,该框架在复杂推理基准测试中性能提升37%,捕捉逻辑错误能力提升52%,收敛到正确解的速度快3倍[13][14] - 该框架被描述为具备自我纠错优势,能在不中断流程的情况下回溯修正错误,适用于科学推理、数学证明、代码调试和战略规划等场景[18][22][23] - 然而,该传闻来源(网友Jainam Parmar)并非AI研究领域权威人士,也未提供明确的DeepMind官方信源,其内容被部分网友怀疑是AI生成的虚假信息或蹭热度的不实言论[26][27][33][35][37] - 有网友指出,相同的可疑内容被不同账号(如Chris Laub)发布,进一步增加了其为“AI垃圾”信息的可能性[43][45] 行业技术现状与反思 - 思维链技术本身已非最前沿,长思维链技术具备深度推理、广泛探索和可行反思等关键特征,能更有效地处理复杂任务[47] - 目前没有可靠证据表明DeepMind已用“并行验证循环”全面取代思维链作为核心推理框架[49] - Gemini 3 Flash的性能跃迁可能源于渐进式优化,而非传闻中的“黑魔法”,行业需警惕对单一技术解释的过度迷信[49]
涨疯了!一盒内存条换上海一套房!带千亿龙头创历史新高,到底发生了什么?
雪球· 2026-01-07 17:09
市场整体表现 - 今日A股主要指数小幅收涨,沪指涨0.05%录得14连阳,深成指涨0.06%,创业板指涨0.31% [1] - 全市场成交额28815亿元,较上日放量493亿元,但超3100只个股下跌 [2] - 半导体设备、稀土永磁、光刻胶相关概念领涨市场,近期涨幅较多的贵金属板块回调,早盘强势的脑机接口概念震荡回落 [2] 存储芯片板块 - 存储芯片板块集体爆发,千亿元市值龙头兆易创新盘中一度涨近9%,股价创新高;恒坤新材20cm涨停,安集科技、南大光电、兴福电子等跟涨 [5] - 美股存储芯片板块昨夜亦暴涨,闪迪暴涨27.5%,西部数据大涨16.8%,美光科技、希捷科技等大幅上涨 [5] - 消息面核心驱动:英伟达CEO黄仁勋在CES 2025演讲中指出,AI推理瓶颈正从计算转向上下文存储,传统网络存储效率过低,存储架构需要重构 [7] - 英伟达宣布新一代AI芯片平台Vera Rubin全面投产,AI推理性能较Blackwell提升5倍,成本降至1/10 [7] - 存储芯片价格自2025年7月以来持续暴涨,多数品类涨幅超过100% [7] - 目前第三方平台显示,海力士和三星的256G DDR5服务器内存一根价格超过4万元,有的高达49999元/根,按1盒100根计算价格近500万元,被形容价值超过上海不少房产 [7] - 野村证券认为,始于今年下半年的存储超级周期至少延续至2027年,真正有意义的新增供给最早要到2028年初期才会出现 [7] - 野村预计三大存储芯片公司(三星电子、SK海力士、美光科技)盈利将创历史新高,并建议2026年继续超配存储龙头 [7] 光刻胶与稀土板块 - 光刻胶相关概念和稀土永磁板块今日全天强势 [9] - 稀土板块个股方面,中稀有色、中国稀土、银河磁体、中科磁业均涨超5% [9] - 光刻胶相关个股涨势更猛,国风新材3天2板,高盟新材、华融化学、安达智能、南大光电20cm涨停 [11] - 稀土板块消息面:据中国日报,鉴于日本近期恶劣表现,中国政府正考虑针对性收紧2025年4月4日列管的中重稀土相关物项出口许可审查 [12] - 光刻胶消息面:芯片制造中,光刻胶用光引发剂对感光度和分辨率起决定性作用,目前在国产芯片和显示领域,其依赖美日韩进口的依赖度超过95% [13] - 近期有国产光刻胶已进入验证阶段,样品在多家光刻胶企业通过初轮验证,相关技术具备产业化条件,对产业发展将起积极作用 [13] 半导体设备板块 - 半导体设备板块今日领涨市场,个股方面,中微公司、北方华创、拓荆科技纷纷创历史新高 [15] - 消息面:近期中芯国际、华虹公司、中微公司先后推出并购重组交易并取得关键进展,旨在补齐产业链关键环节,增强核心竞争力 [16] - 东吴证券最新研报指出,国产半导体设备迎来历史性发展机遇,根据2026年将会开启确定性强的扩产周期,设备全行业订单增速或超过30%,有望达到50%以上 [17]
联想发布,一系列AI大动作!
中国证券报· 2026-01-07 12:41
公司战略与技术发布 - 联想集团在CES 2026期间提出“混合式AI”构想,旨在整合个人、企业与公共智能,以打造个性化AI并推动普及[1][2] - 公司发布三大核心技术构建混合式AI底座:智能模型编排、智能体内核与多智能体协作[2] - 联想发布面向海外市场的个人AI超级智能体Lenovo Qira,可连接协调多个智能体并在手机、电脑、平板及可穿戴设备间无缝衔接使用[2] - 公司高管现场展示了Lenovo Qira与新一代AI PC、motorola razr fold大折叠手机及Maxwell、智能眼镜等可穿戴概念产品间的协作[3] 企业级AI与算力战略 - 公司认为新一轮算力浪潮源于AI推理爆发,AI推理能力应用将成为影响企业竞争力的关键[4] - 联想将AI推理视为继企业信息化、云计算、AI训练后的第四次算力创新浪潮,目标是将AI能力部署到本地、边缘和用户端[4] - 公司发布推理优化服务器产品组合,包括与AMD合作的AI推理服务器ThinkSystem SR675i,以及SR650i和边缘计算服务器SE455i,旨在将AI模型部署到本地和边缘以提升效率、降低成本并强化数据安全[4][5] 关键合作伙伴关系 - AMD与联想宣布在企业AI落地方面合作,将推出搭载AMD EPYC处理器的AI推理服务器ThinkSystem SR675i[4] - 联想成为首批采用AMD最新机架级AI架构Helios的系统供应商之一[4] - 联想与英伟达发布“联想人工智能云超级工厂”合作计划,英伟达将提供包括Blackwell Ultra GB300及下一代Vera Rubin系统在内的加速计算平台支持[6][7] - 该合作计划旨在消除AI部署不确定性,帮助云服务提供商缩短部署时间并支持扩展至十万枚GPU及万亿参数级别模型[7] - 联想透露未来3到4年内与英伟达的业务合作规模目标为实现翻四番[7] - 联想与英特尔共同发布Aura Edition AI PC和FIFA联名款游戏电脑拯救者Legion Pro7i,并计划在PC、数据中心和云计算领域继续深化合作[7] - 联想与高通宣布深化战略合作,聚焦AI原生可穿戴设备领域创新,并共同开发了摩托罗拉可穿戴概念产品Maxwell[7] 行业趋势与市场预测 - 英伟达CEO认为企业AI落地需将先进模型与自身数据结合,构建专属智能体系统,并部署于企业级服务器及基础设施,逐步向边缘场景延伸[6] - AMD CEO认为全球企业都在思考如何让AI更贴近自身数据并保持灵活性[4] - 英特尔CEO认为AI正在重塑整个软硬件市场格局[7] - 联想CEO认为可穿戴设备是潜力巨大的新兴领域,市场规模有望突破十亿台[7] - 中信建投研报显示,2026年手机、PC的AI渗透率有望分别达到45%和62%[7] - 端侧AI市场规模预计从2025年的3219亿元人民币跃升至2029年的1.22万亿元人民币,年复合增长率达40%[7]
杨元庆:新一轮算力浪潮将源于AI推理的爆发|直击CES
新浪财经· 2026-01-07 10:35
行业趋势:算力基础设施的演进与AI推理浪潮 - 全球算力基础设施市场经历了四波创新浪潮:第一波是依托传统计算的企业信息化与数字化转型 第二波由云服务、云应用驱动 推动云计算快速兴起 第三波是大语言模型训练催生的大规模算力集群 AI训练主要集中在云端 如今正迎来第四波AI推理浪潮 [3][8] - 新一轮的算力浪潮将源于AI推理的爆发 通过强大的算力设备 把AI能力部署到本地、边缘和用户端 让智能触手可及 [1][6] - 全球AI行业对于未来全球算力基础设施的竞争焦点正在从“训练”转移至“推理” 这一趋势已形成广泛共识 [3][8] 公司战略:联想对AI推理的布局与产品发布 - 联想集团最新发布了业界最全面的推理优化服务器产品组合 包括AI推理服务器SR675i、SR650i和边缘计算服务器SE455i [4][9] - 新产品旨在将AI模型带到本地和边缘等离数据源头更近的地方 以应对AI推理面临的内存、延迟、安全及能耗等挑战 [4][9] - 此举旨在大幅提升推理效率 降低运营成本 并强化数据安全性 以适应企业多样化、实时化的AI部署需求 [4][9] 核心观点:AI推理本地化的价值与混合算力 - 本地部署的AI推理正成为企业真正的竞争优势 当推理发生在数据生成的源头附近 企业将收获更快的响应速度 [3][8] - 企业需要由公有云、私有云、本地数据中心和边缘计算共同构筑起混合算力基础设施 [3][8] - AMD董事会主席兼CEO苏姿丰完全认同此观点 认为全球企业都在思考如何让AI更贴近自身数据 同时保持灵活性和随时间推演进化的能力 [3][8]
存储再度爆发!AI推理与多模态驱动数据爆炸,硬盘和闪存厂商将成最大受益者
华尔街见闻· 2026-01-07 09:51
核心观点 - AI发展正从资本支出驱动的模型训练阶段,转向以投资回报率为核心的推理应用阶段,这一转变正在引发市场对存储板块的价值重估,存储被视为承载“AI工作记忆”的关键,相关公司股价已出现显著上涨 [1][2] AI浪潮推动存储价值重估 - 英伟达CEO黄仁勋指出,AI存储是一个“完全未被开发的市场”,很可能成为全球最大的存储市场,承载全球AI的工作记忆 [1] - 英伟达展示了针对代理AI推理优化的新存储平台,承诺比传统平台提高五倍的能效 [1] - 市场对存储板块的重估源于AI工作负载从训练向推理的转变,以及多模态AI带来的数据爆炸 [4][7] - 2026年预计将成为企业级和边缘AI的拐点,AI推理将占据主导地位,推动存储需求同步飙升 [1][7] 数据爆炸与存储需求 - 全球年度数据生成量预计将从2024年的173 ZB飙升至2029年的527 ZB,五年内增长两倍以上,复合年增长率约为25% [4] - 多模态生成式AI需要处理和生成图像、视频、音频等非结构化数据,这些数据体积庞大且需要频繁读写,使存储成为AI计算流程中不可或缺的活跃参与者 [7] - 企业为训练、分析和合规目的需要保留越来越多数据,直接推高了存储需求 [7] 硬盘(HDD)市场的机遇 - 机械硬盘凭借成本优势和容量密度,在海量数据存储领域地位不可替代 [8] - 多模态AI和推理需求增加将直接推动硬盘出货量增长,并促使客户转向更高容量的驱动器,提升希捷和西部数据的每TB价值 [8] - 希捷的HAMR技术和西部数据的UltraSMR技术旨在满足对单盘容量和能效的极致追求 [10] 闪存(NAND)与边缘AI的机遇 - AI推理过程需要存储提示词、反馈标签、安全日志及用于检索增强生成的向量数据库,这需要大量随机I/O和写入操作,推高了高性能企业级SSD的需求 [10] - 边缘AI在手机、PC、汽车等终端设备上直接运行,要求极低延迟和高可靠性,推动了存储介质向高性能UFS和NVMe接口转移 [9][10] - 闪迪作为嵌入式和可移动闪存领导者,将受益于单设备存储容量提升和产品结构升级 [10] - 苹果凭借庞大的设备基数、自研芯片和对隐私的追求,被视为“终极边缘AI玩家”,能通过端侧AI提供快速、安全的体验 [10] - 戴尔和惠普将受益于企业对“AI PC”的换机需求,Gartner预测2025年AI PC将占所有PC出货量的43% [10] 供给紧张与价格展望 - 随着AI训练和推理需求增长,存储供应趋紧,价格正在飙升 [12] - 三星电子和SK海力士正寻求在第一季度将服务器DRAM价格较去年第四季度上调60%至70% [12] - 硬件支出在IT行业的收入占比自2022年以来逐年上升,行业正在进入一个“硬件复兴时代” [12] - 在此周期中,提供“记忆”的存储厂商,以及提供连接的安费诺和康宁,都将成为AI推理浪潮的核心受益者 [12] 市场表现 - 周二美股存储概念股集体飙升,闪迪暴涨27.56%,创下自2月以来最佳单日表现 [1] - 西部数据和希捷科技分别大涨16.77%和14.00% [1]
GPU直连技术引关注,美股存储巨头大爆发
选股宝· 2026-01-07 07:31
行业动态与市场表现 - 隔夜美股存储公司股价集体大幅上涨,其中闪迪涨幅超过20%,西部数据和希捷科技涨幅均超过10% [1] - 股价上涨的驱动因素除存储产品涨价外,还包括英伟达正在探索GPU与SSD直连的新技术 [1] 技术趋势与需求驱动 - AI推理中的检索增强生成(RAG)向量数据库正推动SSD需求增长,其存储介质正从“内存参与检索”向“全SSD存储架构”过渡 [1] - 向量数据库要求存储介质承载大规模向量数据及索引结构,并支持高吞吐和低时延,以满足高并发相似度检索需求 [1] - 全SSD存储架构的转变将推动高带宽、大容量SSD的需求持续增加 [1] - RAG架构为大模型提供长期记忆,企业和个性化需求共同推动了对RAG存储需求的增长 [1] 具体技术与产品进展 - 火山引擎TOS推出Vector Bucket架构,采用字节自研的Cloud-Native向量索引库Kiwi与多层级本地缓存协同架构,涵盖DRAM、SSD与远程对象存储 [1] - 该架构在大规模、长周期存储和低频查询场景下,能满足高/低频数据的分层需求,并显著降低企业大规模使用向量数据的门槛 [1] 相关公司业务 - 联芸科技的数据存储主控芯片产品聚焦于固态硬盘(SSD)领域 [2] - 海量数据发布的Vastbase G100 V3.0版本产品面向人工智能应用场景整合了向量数据库能力,为多维大数据量场景提供多种近似、最近邻搜索算法索引 [2]
AI竞赛转向推理,如何影响国际科技竞争格局?
21世纪经济报道· 2026-01-07 06:41
全球AI竞赛转向推理驱动 - 英伟达CEO黄仁勋在2026年1月CES展会提前发布下一代AI芯片平台"Rubin",打破其传统在3月GTC大会发布新品的惯例,此举释放出全球AI竞赛正从"训练主导"全面转向"推理驱动"的关键信号 [2] - 这一转变不仅是技术路线的演进,更是整个AI产业生态、基础设施布局乃至国家间科技竞争格局的重大转折点 [2] 推理场景的特点与需求 - 推理场景具有高频、低延迟、高并发、成本敏感等特点,例如智能客服系统每天可能处理数百万次查询,每次需毫秒级响应,自动驾驶需在复杂环境中持续进行多模态推理 [3] - 这些需求对硬件效率、能耗比、系统协同性提出了远高于训练阶段的要求 [3] 英伟达Rubin平台的技术亮点 - Rubin平台专为推理时代打造,在推理token成本上最高可降低10倍 [3] - 平台通过集成CPU、GPU、DPU、SuperNIC、交换芯片等六颗芯片,构建了"极端协同"的全栈系统 [3] - Rubin同步推出了专为推理设计的"上下文存储平台",用于高效管理KV Cache,避免重复计算,显著提升推理效率 [3] - 这表明AI基础设施的竞争已从单一芯片性能,升级为系统级工程能力的比拼 [3] 全球AI发展的马太效应 - 拥有强大算力和先进推理系统的国家与企业,将更快实现AI商业化落地,形成数据—模型—应用—收入的正向循环 [3] - 缺乏底层基础设施能力的参与者,将越来越依赖外部平台,陷入"应用繁荣但根基脆弱"的困境 [3] 中国AI产业的现状与挑战 - 中国在大模型研发上取得显著进展,涌现出通义、文心、混元等优秀模型,但在底层硬件和系统级优化方面仍存在短板 [4] - 国产GPU如昇腾、寒武纪等取得一定突破,但在软件生态、系统协同、能效比等方面仍需进一步提升 [4] - 国内AI基础设施在对推理场景的深度优化方面还有很大发展潜力,例如KV Cache管理、动态批处理、模型量化压缩等关键技术尚未在主流国产平台上实现高效集成 [4] 对中国AI产业发展的建议 - 强化全栈式AI基础设施研发,秉持"协同设计"理念,推动国产CPU、DPU、高速互连、AI原生存储等组件的联合创新,鼓励芯片企业与阿里云、腾讯云、百度智能云等云厂商深度合作,构建自主可控的推理系统栈 [4] - 大力发展推理优化技术与开源生态,支持攻关低比特量化、稀疏化推理、动态批处理、缓存复用等核心技术,推动建立中文AI推理基准测试体系,鼓励开源社区围绕国产硬件适配推理框架 [5] - 抢占物理AI与边缘推理新赛道,加快部署面向边缘端的轻量化推理芯片与开发平台,支持机器人、自动驾驶、工业智能、具身智能、车路协同等创新应用,通过"场景驱动+技术反哺"模式倒逼底层硬件与系统软件的协同进化 [5] AI产业范式转移 - Rubin平台等AI新产品的发布,不仅是技术迭代的里程碑,更是AI产业范式转移的宣言书 [5] - 当AI从"能回答问题"迈向"能理解世界、规划行动、完成任务"的智能体阶段,推理能力将成为衡量国家AI竞争力的关键指标 [5] - 产业界需摒弃"唯训练论"的惯性思维,以系统工程视角重构AI基础设施,才能在推理时代赢得主动权 [5]