Workflow
存算分离架构
icon
搜索文档
算力的新因果:AI Agent时代,被重估的CPU价值与新机遇
半导体行业观察· 2026-03-05 09:13
文章核心观点 人工智能正经历从“回答问题”的大模型向“自主行动”的智能体(Agent)的范式转移,这正在重塑底层算力格局[1]。CPU(中央处理器)的价值被重新定义和重估,从被视为“基础设施底座”转变为决定AI系统整体效能与扩展性的“关键先生”[1][16]。AI Agent的兴起极大地扩展了CPU的工作边界,使其面临性能瓶颈,并催生了新的市场需求和产业机遇[5][9][15]。 根据相关目录分别进行总结 因——认知的偏差 - 在传统云计算和数据中心中,CPU始终是绝对核心,负责虚拟化、容器编排、网络转发等关键任务[3] - 在大语言模型(LLM)主导的AI阶段,计算核心是海量矩阵运算,这使GPU成为焦点,而CPU负责数据预处理、任务调度等幕后工作,其战略价值被边缘化[3] - 市场曾将“AI=大模型=GPU”划等号,这是一种由特定技术阶段导致的认知盲区[4] 缘——Agent AI拓展CPU的工作边界 - **执行层虚拟化**:新一代Agent在云端动态创建隔离的沙箱虚拟机(如MicroVM),整个执行过程(文件I/O、进程管理、代码解释等)主要由CPU承担,GPU仅在部分环节介入[6][7]。当百万级Agent并发运行时,对CPU核心数等需求呈指数级增长[7] - **高并发与长在线**:与传统问答模型“问完即走”(并发比通常低于1%)不同,Agent(如编程助手)常被用户长时间挂起,导致会话时长进入小时级,大量沙箱环境长期驻留并持续消耗CPU资源[8] - **存算分离架构**:为突破GPU显存限制,业界推动“存算分离”架构(如DeepSeek的Engram模块),使CPU内存成为AI系统的“核心知识库”,CPU需承担额外的检索、筛选和数据转发任务[9] 果——性能瓶颈的三大实证 - **CPU成为AI响应时延的新短板**:佐治亚理工学院与Intel实验室的研究论文显示,在HaystackRAG任务中,CPU处理占总延迟的90%以上;在其他任务中,CPU环节占比普遍在40%–90%之间[10][12] - **能耗占比反转,CPU成“新大户”**:同一研究显示,在处理LangChain任务且Batch Size=128时,CPU能耗达1807焦耳,GPU为2307焦耳,CPU能耗占比高达44%[14]。CPU能效比成为关键指标,一颗能效比高出20%的CPU,在大规模部署下每年可为数据中心节省数百万度电[15] - **KV Cache卸载加剧带宽压力**:支持长上下文的模型将其KV Cache(可达数十GB)卸载至CPU内存,当多个GPU同时请求数据时,极易打满数据通道,提升总带宽成为CPU的明确需求[15] 业——CPU需求的长期趋势与新机遇 - **需求趋势**:AI Agent带来的增量需求加剧了CPU缺货,据供应链消息,当前Intel、AMD的服务器CPU交货周期普遍拉长到8-10周,甚至有的达6个月[16]。这将形成与GPU计算集群平行且协同的“CPU-GPU双轮驱动”基础设施形态[16] - **产业动向**:英伟达追加20亿美元认购云服务商Core Weave的股票,Core Weave将在下一代AI基础设施中大规模部署英伟达基于Arm架构自研的CPU,以解决Agent负载下的高并发与低延迟需求[16] - **技术路线机遇**: - **x86路线**:凭借庞大软件生态和成熟工具链,在企业级市场占主导[17]。海光信息C86系列处理器已在金融、电信等领域规模化落地,其新一代产品最高达64核,支持DDR5-4800内存[17] - **Arm路线**:具备低功耗、高并发天然优势,与AI Agent负载高度契合[18]。全球头部云服务商已全面拥抱Arm:AWS Graviton系列已迭代至第五代;Microsoft Cobalt与Google Axion进入第二代量产;英伟达采用自研Arm架构CPU(Grace/Vera);Meta即将部署代号Phoenix的Arm CPU[19]。截至2025年第二季度,Arm处理器在服务器CPU市场占比已达25%,AWS新部署实例中有一半基于Arm[19] - **国内Arm企业动态**: - 华为鲲鹏系列和天津飞腾FT系列已在金融、能源、党政等领域规模应用[20] - 鸿钧微电子首款产品鸿旻91系列基于Armv9,单Die集成128核,主频3.3GHz,支持DDR5-6400,已规模量产,并于2026年初完成10亿元人民币融资[21] - 熠知电子TF7000系列基于Armv8,单芯片支持80核,聚焦边缘计算;其TF9000系列已发布,公司定位为“全球领先的XPU科技公司”[22] - 阿里平头哥(倚天710)和中兴微电子(珠峰)已实现Arm架构服务器CPU量产,但市场声量较小[22] - 遇贤微电子、希奥端、博瑞晶芯等企业仍处于“技术验证”的关键节点[22] - **RISC-V路线**:作为开源指令集,具有模块化与场景定义能力,但面临企业级服务器所需的高并发、高可靠、强兼容性挑战,生态成熟度是主要短板,业界对其大规模应用时间预期分化(“三年”至“八年”不等),目前更多被视为“远期期权”[23] 展望——构建面向Agent的CPU算力新机遇 - AI Agent时代“长在线、高交互”的特性,使CPU成为连接云端资源与智能应用的枢纽,其能效与吞吐能力直接定义云服务的成本与体验上限[25] - 对于中国CPU产业,这是一场“场景驱动”的历史机遇,需要从“技术追随”转向“需求定义”,有望构建在全球格局中占据重要一席的算力新赛道[25]
X86巨头涨价潮蔓延,国产CPU迎来价值重估
国芯网· 2026-01-26 15:03
全球服务器CPU市场供需与涨价分析 - 英特尔与AMD计划在2026年第一季度将服务器CPU价格上调10%-15% [2] - KeyBanc报告指出,两家公司2026年全年的服务器CPU产能已基本预售罄,供需极端失衡 [2] - 此次涨价是AI算力需求结构性裂变、全球供应链深度重构背景下的必然产物,其影响正波及中国服务器与算力市场 [2] AI算力需求驱动服务器CPU市场变革 - TrendForce报告预估,2026年全球AI服务器出货量将同比增长28%以上,全球服务器(含AI)总出货量同比增长12.8% [3] - 北美云端服务供应商持续加强AI基础设施投资,驱动了AI芯片、存储芯片及服务器CPU的需求激增 [3] - 由于头部大厂对供需的错配,服务器CPU供应开始出现紧缺 [3] 服务器CPU供给端的刚性约束 - AMD 2026年度的服务器CPU已接近售罄,超大规模云端服务商为保障供应而锁定产能 [4] - 台积电等先进制程产能已被英伟达GPU、苹果芯片等高价值订单挤占,英特尔自身先进节点产能利用率超载至120%-130% [4] - 制造CPU所需的ABF载板、Low-CT玻璃布等关键材料产能同样被AI GPU严重挤占,形成材料级瓶颈 [4] - 供需严重倒挂使得涨价成为巨头调节市场、保障核心客户供应的经济杠杆 [4] 智能体发展重塑CPU战略价值 - 智能体的爆发式发展是CPU需求走红的直接推手,CPU正从“辅助计算单元”升级为智能体工作流中负责复杂调度与资源管理的“系统大管家” [6] - 主流AI平台转向“沙箱执行”架构模式,CPU资源消耗与用户规模及任务并发量呈强相关性,需承担智能体任务流程中八成时间以上的复杂负载 [6] - 存算分离架构成为现实,海量参数和状态可存储在由CPU管理的主机内存中,实现了从“计算密集型”到“调度密集型”的范式之变 [7] - 全球活跃智能体数量将从2025年的数千万级暴增至2030年的数百亿级,对CPU产生的增量需求达百万片乃至千万片量级 [7] 国产CPU市场的机遇与选型标准 - 国际巨头涨价与国产化进程加速,为国产CPU提供了填补市场空白、加速替代的历史性窗口期 [8] - 国产CPU选型聚焦三大核心标准:兼容性优先(对X86环境的兼容适配能力)、安全性打底(自主可控的安全技术体系)、稳定性为王(高并发、低延迟任务编排的协同效率与可靠性)[8][9] - 结合涨价趋势及国内选型标准,海光信息、龙芯中科、中国长城(飞腾)等厂商被认为有望承接市场溢出需求 [10]
【今跃教育】vivo 海量数据场景下的消息系统架构演进
搜狐财经· 2025-10-11 05:42
业务规模与技术挑战 - vivo移动互联网业务为全球超过4亿用户提供服务,其消息中间件平台日均处理数据量达十万亿级别[1] - 随着业务流量数十倍增长,原有Kafka架构在多集群管理、弹性扩缩容和海量分区场景下面临性能瓶颈[3] - Kafka架构下Topic和分区数量持续增加导致磁盘随机读写加剧,严重影响集群性能,且资源组隔离与集群拆分的运维成本显著上升[3] - 滴滴大数据原有的DKafka系统面临磁盘IO瓶颈问题,当Broker承载成百上千个Topic分区时,磁盘写入由顺序变为随机,性能急剧下降[8] 技术选型与架构优势 - 公司选择引入Apache Pulsar作为新一代消息中间件,其存算分离架构带来显著优势:无状态Broker支持快速扩缩容,存储层基于BookKeeper实现数据均匀分布和高可用保障[4] - Pulsar独有的Bundle机制能够以有限的逻辑单元管理海量Topic,有效避免元数据膨胀问题,并支持多种消费模式,消费能力扩展不再完全依赖分区数量[4] - Pulsar的存算分离架构通过BookKeeper实现顺序刷盘,彻底解决了随机写入导致的IO瓶颈问题,其多级缓存机制有效实现了IO隔离[9] - Bundle机制将海量分区映射到有限哈希环上,大幅降低了元数据管理和Rebalance压力,节点对等和无状态设计使得扩缩容变得简单高效[9] 实践优化与性能提升 - 在落地实践中,vivo重点优化了Pulsar的Bundle管理机制,通过合理设置Bundle数量范围和拆分策略,确保流量在Broker间的均衡分布[5] - vivo优化了Ledger翻转参数防止数据存储不均衡,建立了统一的数据保留策略,并构建了基于Prometheus + Kafka + Druid的多维监控指标体系[5] - 通过调整负载均衡参数将节点流量偏差控制在20%以内,优化客户端发送参数配置,实施“能者多劳”的发送策略,显著提升发送性能[6] - 滴滴大数据团队在硬件选型上采用SATA HDD盘 + NVME的异构机型,利用Pulsar的Ensemble机制使所有数据盘的存储容量利用率差异控制在10%以内,彻底解决存储热点问题[10] 应用成效与系统替代 - 优化后的Pulsar集群在vivo环境中稳定支撑千亿级消息流量,有效应对各类异常场景,为业务提供高可靠、低延迟的消息服务[6] - 滴滴大数据平台于2021年8月正式上线首个Pulsar集群,经过两年多稳定运行,成功替代原有DKafka系统,支撑数据开发平台和同步中心的数据通道同步任务[7] - Pulsar成功支撑了滴滴Log->ES、BamaiLog->ES、BamaiLog->CK和Log->HDFS等重要数据同步链路,在性能、成本和可靠性方面都带来显著提升[12] - Pulsar在扩缩容方面展现显著优势,计算层Broker扩容后可通过bundle漂移立即分担负载,存储层Bookie扩容后无需数据迁移,新数据自动选择低负载节点写入[10]