Workflow
算⼒
icon
搜索文档
中国银河证券:需求+政策推动Token指数级增长 产业链协同发展大受益
智通财经网· 2026-05-07 15:00
文章核心观点 AI应用从文本生成向多模态、智能体演进,单次交互的Token消耗量呈指数级增长,直接驱动以GPU为核心的训练和推理算力需求爆发,尤其是持续且广泛的推理需求[1] 全球主要经济体将算力视为战略资源,中国通过“东数西算”等工程系统性推动算力基础设施规模化、集约化发展[1] 随着推理需求日益增高,Token消耗预计将呈现较大增长,带动产业链再加速,主要体现在AIDC、运营商、光纤光缆及光模块四大方向[1] AIDC方面 - 核心驱动力在于全球大模型技术的密集迭代与Token调用量的井喷式爆发[1] - 海内外科技巨头正将资本开支大规模倾斜于算力基建,AIDC行业正围绕高密度GPU算力集群进行系统性重构[1] - AIDC正加速向十万卡级超大型集群集中,单机柜功率密度突破数十甚至上百千瓦,通过高密、绿色的全新形态成为支撑AI时代的核心物理底座[1] 运营商方面 - 运营商凭借其覆盖全国的骨干网络资源、丰富的算力节点布局以及“云网融合”能力,成为连接分散算力、打破地域壁垒的关键角色[2] - AI算力正从单点建设走向跨区域的集群化调度,催生了海量的低时延互联需求,运营商正全面转向“算力经营”[2] - 运营商通过打造高可靠、低抖动的数据中心互联网络,满足AI集群间密集的“东西向流量”传输,从传统管道商转型为智能算力服务的核心组织者[2] - 运营商对Token布局的深度及广度的日益提升,或将盘活其存量AIDC资产[2] 光纤光缆行业方面 - Token驱动的大规模AIDC建设将光纤从普通的连接耗材升级为算力网络的核心底座[3] - 为满足GPU间参数同步的极低时延要求,网络架构必须采用无阻塞全互联模式,使得单机柜的光纤消耗量快速增加,直接拉动骨干网、城域网及DCI网络的全面扩容升级[3] - 为支撑EB级的海量数据传输,超低损耗、大有效面积的高品质光纤新建与替换需求激增[3] - 受限于上游光棒扩产周期的刚性约束,光纤行业正迎来量价齐升的高景气周期[3] 光模块方面 - 在GPU算力呈指数级跃升的当下,数据传输速率已成为决定算力集群效率的最大瓶颈[4] - 为匹配新一代AI芯片较高的吞吐量,光模块迭代周期持续缩短,行业正加速从400G/800G向1.6T至3.2T的超高速率演进[4] - CPO、硅光、LPO等新技术方案正逐步走向规模化应用[4] - 作为保障算力集群线性加速比的核心器件,高速光模块正迎来技术代际切换与需求爆发共振的发展期[4] 投资建议 - 建议关注AIDC行业相关公司[5] - 建议关注运营商相关公司[5] - 建议关注光纤光缆行业相关公司[5] - 建议关注光模块及光器件行业相关公司[5]
英伟达力荐,小团队两个月开源一款「光速级」智能体推理引擎
机器之心· 2026-05-07 14:58
行业背景:智能体时代算力需求激增 - 智能体时代的核心是算力,Coding Agent等产品的爆发使算力问题变得前所未有地尖锐,AI正从“问答工具”转变为“持续运行的软件协作者”,单次会话轻松突破50K tokens,系统负载转向更极端、更复杂的智能体负载[1] - 行业对庞大算力的需求催生了开源与节流两大方向,例如SpaceX与Anthropic达成重磅协议,超过22万块英伟达GPU将为Anthropic所用,同时OpenAI发布了多路径可靠连接技术以减少GPU时间浪费[1] 公司及产品介绍:TokenSpeed推理引擎 - 来自LightSeek Foundation的团队在两个月内打造了名为TokenSpeed的全新大模型推理引擎,该引擎拥有TensorRT LLM级别的性能和vLLM级别的易用性,并拥有NVIDIA Blackwell上最快的MLA注意力内核,已获得英伟达官方推荐[3][4] - 该引擎目前已开源,专为智能体推理场景设计,旨在提供接近“光速级”的推理能力[5][6] 技术架构与设计原理 - TokenSpeed从第一性原理出发,核心包括:基于编译器的并行建模机制、高性能调度器、安全的KV资源复用约束、支持异构加速器的可插拔分层kernel系统,以及用于低开销CPU侧请求入口的SMG集成[7] - 建模层采用本地SPMD设计,允许开发者在模块边界指定I/O placement注解,并由轻量级静态编译器自动生成所需的集体操作,无需手动实现通信逻辑[7] - 调度器将控制平面与执行平面解耦,控制平面使用C++实现为有限状态机,在编译期强制执行安全资源管理;执行平面使用Python实现以保持开发效率[10][11] - kernel层将kernel从核心引擎中解耦,提供可移植的公共API、集中的注册与选择机制、面向异构加速器的可扩展插件机制等,并针对NVIDIA Blackwell架构进行了大量性能优化[11] 性能优化与成果 - 团队构建了当前智能体负载场景下速度最快的MLA注意力内核之一,在decode kernel中通过对“q_seqlen”与“num_heads”进行分组以更充分利用Tensor Core的计算能力,其二进制预填充内核包含了经过精细调优的softmax实现[11] - 目前,TokenSpeed MLA已被vLLM采用[12] - 在针对Coding Agents的评估中,团队的目标是在维持单用户70 TPS(有时是200 TPS或更高)下限的同时,最大化单GPU的TPM[14] - 在Attention TP4 + MoE TP4的最佳配置下,TokenSpeed在整个帕累托前沿上均优于TensorRT-LLM:在最低延迟场景下大约快9%,在100 TPS/User附近吞吐量大约高11%[15] - 优化后的二进制版本预填充内核在Coding Agents的五种典型预填充工作负载中,都超过了TensorRT-LLM的MLA;结合其他优化,在带有推测解码的典型解码工作负载中,延迟几乎降低了相对于TensorRT-LLM的一半[19] 项目现状与行业意义 - 该项目于2026年3月中旬启动开发,目前展示了惊人的性能,但仍有大量底层代码正在合并和完善中[19] - TokenSpeed的出现旨在通过更现代化的架构设计,打破传统推理框架在易用性与极致性能之间的平衡点,为大规模智能体部署提供一个高性能、开源的底座,英伟达的力荐也说明推理引擎正在成为智能体时代基础设施竞争的一个新焦点[20]