推理算力
搜索文档
行业点评报告:OpenClaw热潮加速端侧Agent渗透,推理算力需求激增
开源证券· 2026-03-16 14:15
报告投资评级 - 行业投资评级:看好(维持)[1] 报告核心观点 - OpenClaw热潮标志着AI大模型从“对话时代”进入“智能体时代”,其本地优先、自主执行等特性更符合用户真实需求,获得国内头部厂商的密集跟进与产品发布[4] - Agent AI的应用推动Token消耗呈指数级增长,从而驱动推理算力需求激增[5] - OpenClaw推动端侧AI从“推理”转向“执行”,重构能力边界,在PC、手机、穿戴设备上持续渗透,有望催生更多应用场景和终端品类[6] 行业动态与趋势 - **OpenClaw引领智能体热潮**:OpenClaw于2026年2月迎来爆发,登顶Github全球热榜[4]。自2026年2月至今,智谱、腾讯、华为、阿里、字节、Kimi、MiniMax、小米等国内头部厂商基于开源代码密集发布类Claw产品或方案,腾讯云、阿里云、火山引擎等云服务商也推出了OpenClaw部署服务[4] - **端侧AI能力质变**:OpenClaw采用模块化架构,具备完整的会话管理、记忆系统和“心跳”机制,可实现无人干预下自主操控软件、读写文件等功能,使AI从对话者转为“执行者”[6]。手机厂商积极适配,例如小米miclaw开启封测,封装了50多个系统工具;华为小艺Claw处于Beta版;OpenClaw社区正开发智能眼镜版本[6] - **Token消耗与算力需求激增**:Agent AI的“计划-执行-反馈-再规划”工作流使Token消耗从线性增长跃升至指数级,一次任务可能消耗数十万至百万级Token[5]。中国日均Token消耗量从2024年初的1000亿增长至2025年6月底的30万亿,1年半时间增长300多倍[5]。IDC预测,到2030年全球活跃AI智能体将达22.16亿,年度Token消耗量将从2025年的0.0005 Peta Tokens飙升至15.2万 Peta Tokens,增长超3亿倍[5] 投资建议与关注方向 - **投资建议**:建议重点关注AI推理算力产业链(芯片/整机/液冷/电源等环节)和端侧AI产业链[7] - **推荐标的**:海光信息、领益智造(立敏达)、东山精密、欧陆通、奥海科技、传音控股等[7] - **受益标的**:寒武纪、智微智能(元川微)、禾盛新材(熠知电子)、工业富联、立讯精密、环旭电子、鸿日达、硕贝德、苏州天脉、天岳先进等[7]
星宸科技20260310
2026-03-11 16:11
星辰科技2025年年报电话会议纪要分析 **一、 涉及的公司与行业** * **公司**:星辰科技(主营AIoT、车载、安防等领域的芯片设计公司)[1][2] * **关联公司**:源创微(星辰科技天使投资的初创公司,专注于推理算力芯片LPU)[6][7] * **行业**:半导体芯片设计、存储行业、AI推理算力、具身智能、车载电子、安防、机器人[2][7][8][60] **二、 星辰科技 (StarTech) 2025年业绩与业务要点** **1. 2025年整体财务表现** * **营业收入**:约29.72亿元,同比增长26.28%[3] * **归母净利润**:约3.08亿元,同比增长20.33%[3] * **扣非净利润**:约2.52亿元,同比增长39.2%[3] * **扣除股份支付费用后归母净利润**:约3.36亿元[3] * **毛利率**:整体约34.16%[4] **2. 2025年第四季度强劲增长** * **单季营收**:约8.06亿元,同比增长49.01%,环比增长5.6%[3] * **单季净利润**:约1.06亿元,同比增长76.91%,环比增长29.1%[3] * **单季毛利率**:36.15%,环比提升2.32个百分点[4] * **业绩趋势**:连续四个季度营收和净利润环比增长,第四季度利润创2023年一季度以来单季新高[3][4] **3. 核心业务模式与供应链策略** * **独特商业模式**:采用“SOC芯片+内置存储”的一体化解决方案,80%-90%的产品采用此模式[46] * **存储采购优势**: * 2025年芯片销售约1.8亿颗,对应超1亿颗存储需求,是存储供应商的大客户,享有高优先级[46] * 主要存储类型为DDR3和DDR2,少部分DDR4和LPDDR4[47] * 预判存储行业供应紧张,维持平均4-5个月的安全库存水位[47] * 预计2026年第一季度存储采购量将略高于2025年第四季度[47] * **价格传导能力**:作为业内最早对存储涨价做出价格调整的公司,已将成本上涨传导至下游客户,且涨价后订单需求未减反增[51][52][69] **4. 各业务板块发展现状与展望** * **安防业务**: * 目前仍是第一大业务,2026年营收占比预计维持在60%-65%[61][65] * 增长率领先于同行和业内[61] * **机器人业务**: * 家庭清洁机器人(扫地机)增长迅速[62] * 2026年该板块营收占比预期达到10%左右,销量预计增长约30%[65][66] * **车载业务**: * L1/L2级ADAS芯片已导入20多家主流车企前装体系[54] * 2025年车载业务增长率约29%-30%,预计2026年将持续高速增长[55] * 2026年车载业务营收占比预期达到12%-15%[66] * 激光雷达SPAD芯片第一代产品预计2026年第二季度末上车,小批量量产[58] * 下一代(面向L3/L4)激光雷达芯片研发已启动,目标2026年拿出工程样片[58] * 第三代激光雷达芯片已在规划中[59] * **激光雷达业务**: * 大规模量产目标在2027年,目标销量超500万颗,营收占比目标8%-10%[67] * 2026年销量目标为百万颗级别(有机会上300万颗)[67][79] * **海外业务**: * 海外高端产品需求占比提升,是重要增长动力[71] * 在部分全球头部品牌中的份额持续提升,有望从百分之三四十提升至超过一半,甚至接近60%[71] **5. 研发与战略规划** * **研发投入**:2025年研发费用约6.5亿元[72] * **战略方向**:从安防ASIC龙头向AIoT、车载、具身智能平台型公司转型[60] * **资源分配**:采用“多线并发”策略,建立基础能力平台,技术在不同行业复用,减少资源冲突[61][62][63] * **人员计划**:2026年将继续招聘,重点强化具身智能、车载自驾、激光雷达等领域[72] * **产品规划 (2026年)**: * 发布第二款激光雷达芯片(补盲场景,可扩展至机器人、穿戴等)[79] * 发布三款12纳米芯片,分别覆盖: 1. 巨身智能机器人/边缘计算芯片(算力十几TOPS到上百TOPS)[79][80] 2. 进阶自驾/智能座舱芯片(几十TOPS算力,支持L2级应用)[80] 3. 第二代移动影像/AI眼镜芯片(12纳米,对标全球行业标杆)[82] * **并购整合**:对富瑞昆的并购已于2025年11月完成并表,整合顺利,在车载数字钥匙、音频连接及物联网连接方面形成协同互补[76][77] **6. 资本市场进展** * **港股上市**:进程顺利,已进入第二轮问询[83] * **时间表**:预计2026年3月底或4月获得备案,第二季度完成上市前准备,择机发行[83] **三、 源创微 (YuanChuangWei) LPU技术及业务要点** **1. 公司定位与技术路线** * **成立时间**:2025年9月[7] * **技术方向**:聚焦推理算力芯片,采用LPU(语言处理单元)架构,并做了大量创新,自称“LPU Plus”[7] * **对标公司**:美国Groq(已被英伟达收购/获得非独占授权)[7][19] * **选择推理赛道的原因**:2026年全球算力中推理占比预计超过62.5%,超越训练,成为关键基础设施[8] * **团队背景**:核心团队来自行业头部企业,平均15-20年经验,具备全栈能力[9] **2. LPU技术优势与护城河** * **性能数据 (基于Groq数据)**:在推理速度上,LPU是NPU的6倍;每token成本降至1/4;能效比是1/3(相同算力只需1/3功耗)[10] * **技术原理**:针对推理阶段模型已确定的特点进行硬件优化,牺牲了GPU为训练灵活性付出的成本[11] * **核心护城河**: 1. **SRAM结构**:提供稳定且极短的时延,支持上下文复用和算子融合优化[13][35][36][37] 2. **硬流水架构**:与传统的冯·诺依曼架构(GPU/NPU/TPU)完全不同,是底层技术体系的变化[13] 3. **全资源(时空)编译器**:在时间和空间两个维度进行编译,难度大[14] 4. **调度前置技术**:采用静态调度,相比运行态调度,能大幅提升内存带宽有效利用率(可达90%)[14][34] * **与ASIC比较**:纯硬件方案(如ASIC)能效比更好,但缺乏灵活性,难以适应快速迭代的算法(如字节推荐模型每两周更新一次),现阶段不适合[12] **3. 对Groq的改进与未来规划 (LPU Plus)** * **解决Groq痛点**: * **大模型支持**:Groq设计基于早期小模型,支持大模型(如70B)需数百张卡。源创微通过引入片外LPDDR内存,使单芯片可支持67B满血模型[21][32][33] * **多模态与具身智能支持**:Groq早期主要为语言设计。LPU Plus增强了对多模态和具身智能(机器人、车载)场景的支持[21][22] * **技术确定性**:从商业上,Groq在2024年收入9000万美元,2025年收入5亿美元,并以约200亿美元估值被英伟达授权,证明了市场和技术路线的可行性[19] **4. 产品线与市场策略** * **两大产品线**: * **Mountain系列**:大算力产品,聚焦边缘侧和算力中心[25] * **River系列**:连接型产品,聚焦具身智能和AIoT算力提供,与星辰科技紧密合作[25][26] * **市场拓展策略**:务实起步,从“存量市场重构”切入,用新的AI能力赋能现有智能体(如智能摄像头),而非从零教育市场[26][27][28][29] * **合作伙伴**:星辰科技(天使投资人及合作伙伴),共同定义芯片、联合设计、拓展客户[25][26];另有一家AI硬件算力提供商(也是天使投资人)作为早期客户[29] **5. 关于LPU架构的深入探讨** * **SRAM容量的权衡**:SRAM密度低于DRAM,是双刃剑。源创微通过“SRAM + LPDDR + 高带宽利用率”的组合拳,平衡了带宽、容量和成本[32][33][34] * **SRAM的作用**:依然关键,提供稳定短时延、支持长上下文复用、实现算子融合优化[35][36][37] * **与GPU的关系**:在数据中心,LPU可作为独立推理解决方案(如Groq Cloud),也可能与GPU融合(如英伟达将LPU作为IP集成)。这取决于公司的基础,源创微作为初创公司,走的是独立闭环的商业路径[41][42] **四、 其他重要信息** * **行业周期判断**:公司认为已正式走出过去两三年半导体行业的低谷期,对2026年开创佳绩有信心[4] * **公司愿景**:全力冲刺中国芯片设计企业的龙头地位[5] * **具身智能机遇**:星辰科技与源创微均将具身智能(机器人、车载)视为重要的未来增长方向和合作契机[7][22][25] * **汽车行业标准影响**:智能辅助驾驶行业强标的出台,使市场需求更规范、明确,有利于芯片公司投入[55]
计算机行业周报:OpenClaw引爆智能体浪潮,Token消耗迎来指数级跃升
国盛证券· 2026-03-09 09:24
报告行业投资评级 - 增持(维持)[5] 报告的核心观点 - AI Agent(特别是OpenClaw)正从试点进入规模化落地阶段,其渗透率和任务复杂度的提升正驱动Token消耗量迎来指数级增长,并催生刚性算力需求[1][2][4] - Token消耗激增导致主流模型厂商出现算力缺口,算力供需错配加剧,正从技术和经济层面驱动算力产业链(芯片、架构、系统)的全面升级[3][4] - 随着国内市场Token消耗量爆发,国产算力有望凭借成本优势及生态完善,在基础设施层逐步占据主导地位[4] 根据相关目录分别进行总结 1. Agent泛化:Agent进入实际落地阶段,OpenClaw引领渗透加速 - **OpenClaw成为重要催化剂**:2026年初推出的OpenClaw是一款可在用户自有设备上运行的个人AI助手,一经推出便全球爆火,成为AI Agent普及化加速的重要催化[1][11] - **用户数据验证火爆程度**:在OpenRouter平台上,OpenClaw是2026年2月5日至3月5日期间Token消耗量最多的应用,高达7.63T tokens,远超第二名[13][15] - **Token消耗量飙升**:以OpenRouter平台数据为例,OpenClaw的Token消耗量从2026年2月3日的80.6B飙升至3月4日的358B,一个月间翻了约4.4倍[1][15] - **厂商积极布局**:各大模型厂商纷纷加大Agent布局,例如Minimax Agent已能处理复杂任务,如为HR自动整合20所名校的校招信息,或自动分类整理500张电商图片,AI Agent已进入实际落地阶段[19][20][23] 2. 需求爆发:任务密度与复杂度提升,Token消耗迎来指数级跃升 - **Agent特性导致高消耗**:由于AI Agent天然具备多工具调用、长上下文、多流程工作特性,其Token消耗量增长速度极快[2][24] - **算力需求呈指数增长**:以单次对话机器人为基准,图像生成、推理、视频生成、深度研究的算力需求分别为10倍、100倍、3000倍、1000000倍[24][26] - **中国市场消耗量激增**:中国整体日均Token消耗从2024年初的1000亿,增长至2025年中的30万亿,再到2026年2月主流大模型合计日均Token消耗已达180万亿级别[2][30] - **市场规模与渗透率预测**:预计中国AI Agent市场规模将从2023年的574亿元飙升至2028年的33009亿元,年复合增长率达125%[30][34]。KA(大客户)及SMB(中小企业)企业Agent渗透率预计从2023年的3%/0.5%提升至2028年的25%/10%[30][34] - **长期增长动力强劲**:根据IDC预测,中国活跃智能体数量将在2031年突破3.5亿,年复合增长率超135%,伴随任务复杂度提升,智能体Token消耗将迎来年均超30倍的指数级跃升[2][32] 3. 供给缺口:推理算力缺口显现,成本体验权衡驱动产业升级 - **算力需求转向推理**:智能体核心开销集中在推理阶段,推理负载占比预计从2024年的65%提升至2028年的73%[3][36][40] - **推理市场规模扩大**:中国推理算力市场规模预计从2024年的175.2亿元增长至2028年的2931.2亿元,2024-2028年复合增长率约102%[37][39] - **厂商出现算力缺口**:Token消耗骤增导致主流模型厂商算力缺口显现,例如月之暗面公开表示缺卡并寻求算力支持,智谱因GLM5过于火爆对coding plan采取每日限售措施[3][42][44] - **需平衡延迟、吞吐与成本**:Token消耗和算力需求非简单线性关系,需权衡延迟和吞吐以平衡经济性和用户体验[3][43] - **产业化三要素**:AI Agent产业化的核心要素是模型能力、交互速度和Token成本,三者共同决定了应用的经济性与广泛性[47][48] - **产业链升级路径**:为达成三元平衡,需从三方面协同发力: - **算力芯片端**:提升性能与能效比,例如英伟达新架构实现推理吞吐量提升约10倍,成本降低10倍;亚马逊Trainium芯片在推理任务中比英伟达H100 GPU便宜约30%至40%[50][52] - **架构设计端**:通过注意力机制革新(如PagedAttention、RadixAttention)、动态批处理演进、内存调度优化等技术降低单Token算力消耗[54] - **系统协同端**:依托超节点协同技术优化资源利用率与整体能效,实现规模化部署下的综合成本下降[54] 4. 投资建议 - **关注国产算力**:建议关注海光信息、寒武纪、摩尔线程、沐曦股份等国产算力公司[4][55] - **关注超节点**:建议关注中科曙光、浪潮信息等超节点公司[4][55]
两会|全国政协委员、360集团创始人周鸿祎:智能体从概念走向实干 中国有望在全球AI领域占据更重要地位
证券时报· 2026-03-04 07:56
全国政协委员周鸿祎关于人工智能发展的核心观点 - 2026年全国两会,全国政协委员周鸿祎重点关注四个方向:优化推理算力布局、双轮驱动加速“人工智能+”落地、推广安全智能体、协同完善数据流通安全合规体系 [1] - 周鸿祎认为AGI已在稳步实现,关键在于将AI打造成垂直领域的智能体,其专业能力会远超普通人 [1] - 2026年以来,智能体正从概念走向实干,随着开源模式推进,中国有望在全球AI领域占据更重要地位,建议对大模型发展实行柔性监管 [1] 智能体技术发展与应用路径 - 建议打造智能体开放平台,将基础设施隐藏其后,让普通企业和个人能建立自己的智能体,使其成为“个人第二大脑”或“企业内部智力” [2] - 推动AI智能体落地需要在安全、算力等方面做更多工作,例如提出了“训推分离”的建议 [3] 算力需求的结构性变化与产业机遇 - 随着基础模型能力越过及格线,行业进入“人工智能+”应用时代,全国算力需求结构发生根本性变化 [3] - 智能体实际执行任务(如撰写短剧、分析财报)所需的推理算力,将是简单对话的几百倍甚至上千倍,进入应用阶段后推理算力需求将呈指数级增长 [3] - 过去产业焦点在预训练,当前行业应用更应聚焦推理算力,因为智能体执行任务时Token消耗可达聊天场景的数百倍 [3] - 推理芯片对互联要求低、成本可控,中国企业完全有能力量产,这是中国芯片产业重要的战略窗口期 [3][4] - 发展高性能、低成本的专用推理芯片,能大幅降低企业部署AI门槛,并支撑智慧城市终端、自动驾驶、机器人等边缘侧和端侧智能应用的普及 [4] - 优化算力供给结构有利于夯实人工智能赋能百业的基础底座 [4]
全国政协委员、360集团创始人周鸿祎:建议优化推理算力布局
第一财经· 2026-03-04 00:07
核心观点 - 全国政协委员周鸿祎拟围绕推理算力、智能体技术与人才、智能安全三方面提交提案,认为在“百亿智能体时代”,专用推理芯片是产业差异化突围的重要方向,并建议优化算力布局、强化调度、发展国产芯片、加速产业应用及保障安全[3][4] 推理算力发展现状与挑战 - 我国经历“百模大战”后,拥有许多“国际一流”开源模型,国家主导的训练算力稳步提升,但推理算力需求在“百亿智能体时代”呈指数级增长[3] - 当前算力中心面向推理任务的专用集群存在缺口,区域间供需适配有待优化,专用推理芯片技术也亟需突破[3] 优化推理算力布局的建议 - 建议国家出台推理算力布局指导政策,依据各地场景密度、算力缺口、能源保障能力,建立“全国统筹 + 区域细化”的推理算力布局体系[3] - 建议在重点产业集聚区域,建设低时延、高密度的推理算力集群[3] - 建议强化一体化调度,推动跨层级、跨区域的算力资源动态调配,以提升推理算力利用效率[4] 专用推理芯片的发展建议 - 建议鼓励专用推理芯片的国产化发展,重点突破高精度、低时延、多模态的芯片技术,实现产业链自主可控,以支持智能体技术的深度应用[4] - 发展推理芯片不仅能够降低云端成本,还能支撑企业私有化部署与端侧智能硬件落地,具有重大战略意义[4] - 国产大模型未达及格线时重视训练算力合理,但当前行业重点已转向极度消耗推理算力的智能体落地[4] 智能体产业应用与安全建议 - 在加速智能体产业应用方面,建议实施技术与人才“双线赋能”战略[4] - 在智能体安全方面,建议推动安全智能体的场景化应用,支持安全技术生态化创新[4]
计算机行业周报:从国产算力变化到LPU!DS新模型前瞻-20260228
申万宏源证券· 2026-02-28 20:13
报告投资评级 - 行业评级为“看好” [2] 报告核心观点 - 报告认为,2026年算力产业的核心关键词是推理,Token消耗总量和技术范式都将围绕推理进行革新,能够提供充足且高性价比推理芯片的厂商将最为受益 [4] - 推理算力正迎来四大趋势:需求全面加速、纯推理芯片出现、推理系统全方位革新、国产算力芯片加速突破 [3] - 对即将发布的DeepSeek V4抱有期待,预计其在推理和代码能力、长上下文与复杂任务处理能力(Agent)以及国产算力适配方面将有显著提升,技术架构延续极致推理优化和极致性价比的探索方向 [3][22] Token经济时代推理算力四大新趋势 趋势一:推理算力需求全面加速 - **春节期间国内大模型使用量激增**:豆包在除夕当天AI互动总数达19亿,推理吞吐量达到633亿tokens,辅助用户生成5000万张AI头像及1亿条新春祝福语 [5];元宝的日活跃用户(DAU)超5000万,月活跃用户(MAU)已达1.14亿 [6];超过1.2亿人参与了千问的“春节大免单”活动 [6] - **中国模型全球调用量首次超越美国**:根据OpenRouter数据,2月9日至15日这一周,中国模型调用量为4.12万亿Token,首次超过同期美国模型的2.94万亿Token [6];2月16日至22日,中国模型周调用量进一步冲高至5.16万亿Token,三周大涨127%,同期美国模型调用量跌至2.7万亿Token [6];全球调用量排名前五的模型中,中国模型占据四席 [6] - **应用场景多元化催生海量算力需求**:2026年大模型货币化加速,Claude等模型开始向应用端切入,发布多款行业插件;Agent(如openclaw、千问 Agent)开始进入真正的工作生活生产中,这背后均需大量的算力支撑 [6] 趋势二:纯推理芯片成为新贵 - **产业巨头布局印证趋势**:2025年12月24日,英伟达以200亿美金收购推理芯片公司Groq [9];OpenAI上个月与初创公司Cerebras达成了一项价值数十亿美元的计算合作,其专注于推理的芯片在速度上超越了英伟达的GPU [9] - **未来AI芯片技术格局**:训练场景仍将使用GPU-HBM组合;推理场景将采用ASIC + LPU-SRAM + SSD组合的P-D(Prefill-Decode)分离解决方案 [9] - **市场机会**:预计将涌现一批专注于推理芯片的厂商,搭载SRAM/GDDR,以极高的性价比为AI提供投资回报,促成AI闭环形成 [9] 趋势三:推理系统迎来全方位革新 - **系统架构向三层网络演进**:为适配Agent需求,可能形成类似人类的三层网络架构 [11] 1. **快反应层**:类似人的反射弧,由Decode专用芯片(如搭载SRAM的纯推理芯片)提供极致低延迟反馈 [11] 2. **慢思考层**:类似人的大脑皮层,使用超大吞吐的算力集群负责后台并行的复杂逻辑推演和工具使用;此层对多核多线程CPU的需求增加 [11] 3. **记忆层**:类似人的海马体,存储Agent的终身记忆和KV Cache,对应英伟达发布的ContextMemory System,通过Bluefield4 DPU管理的SSD实现 [11] - **存储与网络优化方案**:Deepseek联合北大、清华发布的Dualpath方案,通过利用Decode节点闲置的网卡带宽来协助Prefill节点读取KV Cache,变相扩充了整个系统的存储IO能力,缓解了存储带宽瓶颈 [13];这一方案可能会增加对网卡和交换机的需求 [13] - **性能提升**:Dualpath方案在测试中,使离线推理吞吐量提升1.87倍,在线服务吞吐量平均提升1.96倍 [30] 趋势四:国产算力芯片加速突破 - **华为昇腾950实现根本性提升**: 1. 新增支持FP8/MXFP8/MXFP4等低精度数据格式,算力分别达到1P和2P,并支持自研HiF8格式 [17] 2. 大幅度提升向量算力,采用支持SIMD/SIMT双编程模型的新同构设计,并将内存访问颗粒度从512字节减少到128字节 [17] 3. 互联带宽相比Ascend 910C提升了2.5倍,达到2TB/s [18] 4. 在芯片层级实现PD分离,推出两款芯片:面向Prefill和推荐场景的Ascend 950PR(采用低成本自研HBM HiBL 1.0)和面向Decode和训练场景的Ascend 950DT [18];其中,Ascend 950PR将于2026年Q1推出 [18] - **供应链国产替代进程加快**:盛合晶微的2.5D封装业务收入主要为高性能计算芯片(GPU)提供封装服务,此项业务收入正快速提升,2025年上半年收入达18.2亿元,侧面印证了国产算力芯片供给能力的持续提升 [18][19] 对DeepSeek V4的预期 推理和代码能力达业内领先水准 - 根据海外科技媒体The information,DeepSeek-V4主打编码能力,内部初步测试结果显示超过Claude和GPT系列 [23] - 报告认为该预期准确度较高,因为推理和代码能力是2025年至今国内外主流大模型厂商的重点冲刺领域,且AI编程是重点变现和渗透方向 [23] 长上下文和复杂长任务处理能力(Agent)提升 - **技术架构创新**:DeepSeek近期发布的两篇重磅论文(Engram和DualPath)可能是其能力突破的关键 [25] - **Engram论文核心**:在MoE基础上引入Engram模块作为条件记忆轴,实现存算解耦,将海量KV-Cache移到CPU内存,通过O(1)哈希检索进行关键记忆回溯,在保障长上下文与推理精度的同时释放GPU计算压力 [25][26] - **DualPath论文核心**:解决智能体复杂任务工作负载下的性能瓶颈,通过利用decode节点闲置带宽协助读取kv-cache,再通过计算网络快速传输至prefill节点,实现动态负载均衡 [29][30] 国产算力适配 - 国产算力适配是当下国产独立模型厂商的重要发展趋势,例如智谱GLM 5已宣布全面拥抱国产算力生态 [36] - DeepSeek的Engram和DualPath两篇论文从工程优化上提高网络利用率、降低高性能显存依赖度,为国产化适配提供了高可行性 [36] 重点推荐投资主线 报告重点推荐九大投资主线,包括: 1. 数字经济领军 [37] 2. AIGC应用 [38] 3. AIGC算力 [38] 4. 数据要素 [38] 5. 信创弹性 [38] 6. 港股核心 [38] 7. 智联汽车 [38] 8. 新型工业化 [38] 9. 医疗信息化 [38] 各主线下包含详细标的公司列表 [37][38]
计算机行业周报 20260223-20260227:从国产算力变化到 LPU!DS 新模型前瞻!-20260228
申万宏源证券· 2026-02-28 19:01
行业投资评级 - 报告对计算机行业评级为“看好” [2] 核心观点 - 报告认为,2026年算力产业的核心关键词是推理,Token消耗总量和技术范式都将围绕推理进行革新,能够提供充足、高性价比推理芯片的厂商将最为受益 [3][4] - 报告重点阐述了推理算力需求的四大趋势,并前瞻了DeepSeek V4模型的预期方向 [3] 根据目录总结 1. Token经济时代,推理算力四大新趋势 - **趋势1:推理算力需求全面加速**:春节期间国内头部大模型推理数据大幅增长,例如豆包在除夕当天推理吞吐量达到633亿tokens,辅助用户生成5000万张AI头像及1亿条新春祝福语 [3][5];元宝的月活跃用户已达1.14亿 [6];根据OpenRouter数据,2月9日至15日当周,中国AI模型调用量以4.12万亿Token首次超过美国的2.94万亿Token,随后一周(2月16日至22日)进一步冲高至5.16万亿Token,三周大涨127%,同期美国模型调用量跌至2.7万亿Token,全球调用量前五的模型中中国占据四席 [3][6] - **趋势2:纯推理芯片成为新贵**:英伟达以200亿美元收购推理芯片公司Groq,OpenAI与Cerebras达成数十亿美元合作,印证了纯推理芯片的重要性 [3][7][9];未来技术格局将演变为训练使用GPU-HBM组合,推理使用ASIC+LPU-SRAM+SSD组合,专注于推理芯片的厂商将迎来发展机遇 [3][9] - **趋势3:推理系统迎来全方位革新**:为适配Agent需求,系统架构可能形成“快反应层”、“慢思考层”、“记忆层”三层网络,其中对多核多线程CPU的需求增加 [3][10][11];在存储层面,通过优化KV缓存层级来缓解带宽瓶颈,例如DeepSeek提出的Dualpath方案,利用Decode节点的闲置带宽来协助Prefill节点读取数据,从而提升系统吞吐量,该方案在测试中使离线推理吞吐量提升1.87倍,在线服务吞吐量平均提升1.96倍 [3][13][30];系统革新同时带动了网卡、交换机需求的提升 [3][13] - **趋势4:国产算力芯片加速突破**:华为昇腾950芯片在低精度数据格式支持、向量算力、互联带宽(相比Ascend 910C提升2.5倍至2TB/s)及芯片层级的PD分离(Prefill与Decode场景分离)等方面实现根本性提升,其首款推理芯片Ascend 950PR预计于2026年第一季度推出 [3][17][18];此外,盛合晶微的2.5D封装业务收入快速增长(2025年上半年收入达12.3亿元),侧面印证了国产算力芯片供给能力的持续提升 [3][18][19] 2. 我们在期待怎么样的DeepSeek V4? - **推理和代码能力达到业内领先水准**:根据海外科技媒体信息,DeepSeek-V4主打编码能力,内部初步测试结果显示超过Claude和GPT系列,报告认为该预期准确度较高 [22][23] - **长上下文和复杂长任务处理能力(Agent)提升**:DeepSeek App近期将上下文处理长度由128K扩展至1M [25];其近期发布的两篇重磅技术论文(Engram和DualPath)为能力突破提供了支持:Engram模块通过存算解耦,将海量KV-Cache移至CPU内存,以较低成本实现参数规模扩大或提升小模型性能 [25][26][29];DualPath方案通过利用Decode节点闲置带宽,有效解决了Agent场景下的存储带宽瓶颈 [29][30] - **国产算力适配**:国产算力适配是国产独立模型厂商的重要发展趋势,DeepSeek的Engram和DualPath等技术从工程优化角度提高网络利用率、降低对高性能显存的依赖,为国产化适配提供了高可行性 [22][36] 3. 重点推荐主线 - 报告列出了九大重点投资主线,包括:1) 数字经济领军;2) AIGC应用;3) AIGC算力;4) 数据要素;5) 信创弹性;6) 港股核心;7) 智联汽车;8) 新型工业化;9) 医疗信息化 [3][37][38] - 报告提供了详细的重点公司估值表,涵盖了上述主线中的多家上市公司 [40][41][42]
周鸿祎,最新发声!
中国基金报· 2026-02-27 15:29
AI赋能网络安全 - 全国政协委员、三六零创始人周鸿祎建议关注AI智能体在安全领域的应用 以Anthropic为例 AI编程和AI查找漏洞能解决许多传统安全难题 [2] - 三六零公司已开发几十种、上万个AI安全智能体 这些智能体能够挖掘软件漏洞并抵御来自其他国家的黑客智能体 [2] AI算力发展路径 - 将算力区分为训练算力和推理算力至关重要 训练算力在规模上仍有发展空间 而推理算力的发展空间是无限的 [2] - 建议各地在发展算力时应偏向推理算力 从国家产业政策看 芯片政策不能只追求英伟达的高端训练芯片 推理芯片也具有重要战略价值 [2] AI在企业端的落地与应用 - 除了云服务 许多中国企业需要进行私有化部署 其大模型和智能体应部署在企业内部 算力需本地化 [2] - 企业难以负担全部购买昂贵的B200芯片 廉价的推理芯片将为企业私有化部署提供很大便利 推理芯片的目标并非做出比英伟达芯片更便宜或更低端的产品 [2] - 智能体需做得更加专业 能够直接为企业带来价值 企业才愿意付费使用 [3] AI在个人端的普及与使用 - 当前AI使用面临的问题是用户主要将其作为AI助手或搜索工具 个人如何打造专属私人智能体成为关键 [3] - 从OpenClaw获得的启示是 实现路径需要简单化 [3]
未知机构:OpenClaw爆火AI闭环更进一步推理算力需求持续提升-20260224
未知机构· 2026-02-24 11:50
**关键要点总结** **1 行业与公司** * 涉及的行业:人工智能(AI)行业,特别是AI Agent(智能体)、端侧推理、本地部署领域[1][2][3] * 涉及的公司:**云天励飞**,被定位为“端侧推理核心”和“G端(政府端)本地部署业务核心”公司[1] **2 核心产品与观点:OpenClaw** * **产品定位**:OpenClaw 不是一个普通的单一功能AI工具,而是一个能**一站式搭建业务**的**智能机器人**或**一体化AI大脑**[1][2] * **核心功能**:能够独立、连续地完成**内容创作、广告设计、代码编写,甚至开发产品**等系列任务,而非仅处理碎片化的小任务[2] * **关键差异**:与ChatGPT等传统AI工具相比,OpenClaw强调**不同工具间的记忆联动**,形成业务闭环[1][2] * **技术特点**: * 具备**模型、记忆、技能和第三方扩展**等AI Agent核心要素[2] * 其“杀手锏”在于能够**自我进化、自我修改、自我升级**[2] * 采用**文件系统而非传统数据库**作为存储方式[3] **3 行业影响与趋势** * **推动AI发展**:OpenClaw的出现**加快了AI向Agent的闭环**进程[3] * **算力需求变化**:这一趋势将导致**端侧推理算力的需求持续提升**[1][3] * **部署模式偏好**:由于采用文件系统,OpenClaw**更有利于敏感隐私数据的本地部署**,这使其**更有利于G端(政府端)敏感客户落地Agent助理**[3]
未来智造局|“百万token一分钱” 推理GPU驱动大模型下半场发展
新华财经· 2026-02-02 16:51
行业趋势:AI发展进入“推理驱动”新阶段 - AI行业正由“训练驱动”迈向“推理驱动”的下半场,推理算力成为决定AI商业化成败的核心要素 [1] - 2026年被业内视为人工智能推理应用爆发元年,德勤预测当年推理算力占AI计算量的比重将达66%,首次超过训练算力 [2] - 随着大模型逐步走向落地,在AI发展从“训练驱动”迈向“推理驱动”的关键阶段,夯实推理算力底座对推动AI服务实体经济具有重要意义 [2] 市场需求与痛点 - 推理成本占据人工智能应用的比例已经高达70%,直接决定了一家人工智能公司能否盈利 [3] - 2025年全球大模型token消耗量增长了近100倍,算力需求爆发式增长与高成本之间的矛盾突出 [4] - 目前多数推理场景沿用训推一体芯片,存在成本高昂、供应不稳定、运维投入大等问题,无法匹配行业爆发式需求 [3] - 当前市场上推理的百万token价格约1到10元,若成本下降一半,应用将大规模爆发;当价格降至0.1元以下时,将引发推理市场全面爆发 [8] 公司战略与产品发布 - 国产AI芯片企业曦望(Sunrise)近日发布了新一代专用推理GPU芯片启望S3,提出“百万词元(token)一分钱”的目标 [1] - 公司从2018年开始研发第一代芯片启望S1,2020年实现量产并落地数万片规模;2023年推出第二代芯片启望S2;近日发布第三代芯片启望S3 [3] - 曦望是国内算力领域首家聚焦于推理GPU的芯片企业 [3] - 公司提出围绕推理场景构建算力体系、共建AI推理平台,探索面向人工智能应用的新型算力服务模式 [1] 产品技术优势与成本目标 - 启望S3从底层架构开始为推理场景重新设计,实现性能、能效与成本的系统性优化,可以满足多模态、智能体等复杂推理需求 [5] - 该芯片通过芯片架构、存储体系和系统协同的全方位优化,实现了十倍以上的推理性价比提升 [5] - 公司目标是将推理成本再降一个数量级,推动“百万token一分钱”成为行业新基准 [5] - 据测算,目前曦望已将每百万token成本降至约0.57元,优于市场平均水平 [5] 生态合作与行业影响 - 曦望提出共建AI推理平台为核心的算力服务新模式,通过与商汤科技、范式智能等合作伙伴协同,提供稳定、可预期的算力服务 [8] - 公司与浙江大学共建“智能计算联合研发中心”,聚焦半导体虚拟制造以及AI在科学计算等领域的应用 [8] - 曦望与杭钢数字、浙江算力科技牵手,将推理基础设施铺向浙江、辐射全国,并与三一重工、游族网络等十几家企业签约,将推理算力嵌入制造、能源、机器人等具体场景 [8] - 国产推理芯片的性价比优势,将推动中国AI应用实现类似移动互联网时代的爆发式增长 [9] - 在国际上,每当百万token的成本降低一倍,市场上出现的应用程序数量就会增加6到8倍 [9] 行业挑战与解决方案 - 目前整个算力服务面临三大挑战:一是资源利用率低,传统架构下GPU闲置率常超过40%;二是适配效率不足;三是运维复杂,硬件问题中75%与GPU相关 [6] - 基于此,曦望联合合作伙伴共同推出推理系统级解决方案,通过自研GPU与软硬件全栈优化,破解行业痛点,提升算力调度效率 [6] - 推理时代的算力竞争不是单点技术比拼,需要构建协同创新、开放融合的产业生态 [2] 未来展望 - 未来十年,中国AI时代的底层根基将是规模化、高性价比的推理基础设施 [1] - 以推理算力为核心、以AI推理平台为载体的新型算力模式,正在成为人工智能时代的重要基础设施形态 [9] - 专用推理芯片的技术突破,将加速芯片与模型的协同创新,推动人工智能商业化落地提速 [7]