SpecEE - 财报，业绩电话会，研报，新闻

SpecEE

搜索文档

机器之心· 2025-04-29 17:14

机器之心发布机器之心编辑部当前 AI 领域呈现「端云并发」的发展态势，端侧与云侧大模型各展所长，共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应，云侧模型依托强大算力支持复杂大规模推理，而两者都离不开高效的推理系统支撑。在 GTC 2025 上，NVIDIA CEO 黄仁勋强调，大模型计算正从预训练转向推理优化阶段。随着产业落地加速，推理计算需求正呈现爆发式增长，如何在性能、成本和响应速度间取得平衡成为关键工程挑战，推理系统正是解决这一问题的核心。近日，无问芯穹发起了一次推理系统开源节，连续开源了三个推理工作，包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap，为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开一一解读： Day 1｜SpecEE：基于推测的 Early Exiting 机制，让 AI PC 推理速度起飞随着 DeepSeek 等开源模型表现出越来越强悍的性能，在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端 ...

大模型推理系统

端云并发

Artificial Intelligence

Artificial Intelligence

SpecEE

Semi - PD

FlashOverlap

无问芯穹夏立雪：让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施｜中国AIGC产业峰会

量子位· 2025-04-29 16:02

核心观点 - 算力需求呈现爆发式增长，推理模型兴起带来超百倍算力需求增长 [5][11] - 高质量、高性价比算力供给仍存在缺口，需优化供给侧服务能力 [5][16] - 算力生态需提供"拎包入住"式标准化服务，类比水电煤基础设施 [12][22][32] 行业趋势 - 2023年全球生成式AI部署率从55%快速提升至78%，企业AI应用渗透加速 [11] - 中国70%亿级用户APP已启动AI转型，美图AI功能带动付费用户达1200万历史新高 [14] - 推理范式变化导致算力需求激增：2023年增长30倍，2024年Deepseek等模型推动超百倍增长 [8][11] 技术突破 - 端侧加速技术SpecEE使3B模型在终端设备运行效率提升70%-2倍 [25][26] - 云侧推理引擎通过semi-PD方案优化Prefill/Decode环节，实现显著加速 [27] - FlashOverlap技术解决计算与通信等待问题，消费级显卡实现1.5倍加速 [30] 公司解决方案 - 构建MaaS/PaaS/IaaS三层架构：覆盖模型开发、训练部署、算力集群管理 [25] - 异构算力标准化：整合国产芯片及小算力集群，通过软硬协同抹平生态壁垒 [24] - 推出WorkFlow封装工具，支持生图社区等场景一键部署生产环境 [31] 市场痛点 - 推理任务存在突发性需求，当前算力供给仍以粗放式"数取胜"为主 [17] - 训练与推理需求差异显著：推理需毫秒级响应，传统优化手段难以满足 [20] - 算力成本高企导致性价比瓶颈，阻碍AI应用落地 [20]