xDeepServe分布式推理框架

搜索文档
华为携手伙伴共同发起第四届828 B2B企业节,Tokens服务助十万企业AI落
扬子晚报网· 2025-08-28 16:42
8月27日,第四届828 B2B企业节在贵阳开幕。此次企业节由华为联合中软国际、软通动力(301236) 等17家头部企业共同发起,旨在通过技术普惠、生态协作加速千行百业的企业AI应用落地。贵州省委 副书记、省长李炳军,国家数据局党组书记、局长刘烈宏,华为公司董事、质量与流程IT部总裁陶景文 致辞。 贵州作为全国国产智算资源最多、能力最强的地区之一,一直抢占数字经济战略新机、抢抓人工智能发 展风口,已经三次吸引828 B2B企业节在此落地。 华为公有云运营部部长刘杰表示,能够实现性能的进一步突破,核心还是依托华为的"大杂烩"优势。 CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基;CANN昇腾 硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS弹性内 存存储打破AI内存墙,突破性地实现"以存强算", 彻底释放了每一颗芯片的算力;xDeepServe 分布式 推理框架则以极致分离架构Transformerless让超节点释放出更高效算力。 华为公有云运营部部长 刘杰 面向AI时代,华为云Tokens服务更好地满足了企业的智能化需求, ...
单芯片最高2400TPS,华为云Tokens服务全面接入384超节点
观察者网· 2025-08-27 21:10
AI算力需求增长 - 中国AI算力需求呈现指数级增长 日均Token消耗量从2024年初的1000亿增至2024年6月底的30万亿 18个月内增长300倍[2] - 算力基础设施面临更大挑战 反映人工智能应用规模快速扩张[2] 华为云Tokens服务性能突破 - Tokens服务接入CloudMatrix384超节点 通过xDeepServe架构实现单芯片最高2400TPS和50msTPOT 吞吐量较年初1920TPS提升25%[1][2] - 提供在线版 进线版 离线版和尊享版等多种服务规格 满足不同应用场景性能和时延要求[2] 全栈算力架构创新 - CloudMatrix384超节点采用全新计算架构 突破性能瓶颈[4] - CANN昇腾硬件使能优化算子与通信策略 实现高效算力调用组合[4] - EMS弹性内存存储打破AI内存墙 以存强算彻底释放芯片算力[4] - xDeepServe分布式推理框架采用极致分离架构Transfomerless 提升算力效率[4] xDeepServe技术实现 - 采用Transformerless架构将MoE大模型拆分为Attention FFN Expert三个可独立伸缩微模块[5] - 通过XCCL微秒级通信库与FlowServe推理引擎重组 形成超高速LLM服务平台[6] - 实现单卡吞吐从600tokens/s提升至2400tokens/s 达4倍性能提升[6] - FlowServe引擎将超节点切分为自治DP小组 支持千卡并发无拥堵[6] 未来技术规划 - 计划实现Attention MoE Decode全数据流自由流动[7] - 将拼图方法复制到多台超节点 目标实现推理吞吐线性延伸和更大突破[7] 模型生态与性能优化 - MaaS服务支持DeepSeek Kimi Qwen Pangu等主流大模型及Dify 扣子等Agent平台[8] - 文生图模型通过Int8量化和算子融合实现2倍于业界出图速度 支持2K×2K尺寸[8] - 文生视频模型通过量化和通算并行实现3.5倍性能提升 降低延迟与显存占用[8] 行业应用落地 - 与超过100家伙伴合作开发行业Agent 覆盖调研分析 内容创作 智慧办公 智能运维等领域[8][9] - 今日人才数智员工解决方案集成NLP和机器学习技术 提升服务效率与客户满意度[9] - 无忧智慧公文解决方案提升政企公文处理效能 推动办公智能化转型[9]