Workflow
SpecEE
icon
搜索文档
终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
机器之心· 2025-04-29 17:14
机器之心发布 机器之心编辑部 当前 AI 领域呈现「端云并发」的发展态势,端侧与云侧大模型各展所长,共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应,云 侧模型依托强大算力支持复杂大规模推理,而两者都离不开高效的推理系统支撑。 在 GTC 2025 上,NVIDIA CEO 黄仁勋强调,大模型计算正从预训练转向推理优化阶段。 随着产业落地加速,推理计算需求正呈现爆发式增长,如何在性 能、成本和响应速度间取得平衡成为关键工程挑战,推理系统正是解决这一问题的核心 。 近日,无问芯穹发起了一次推理系统开源节,连续开源了三个推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap,为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开 一一解读: Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞 随着 DeepSeek 等开源模型表现出越来越强悍的性能,在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端 ...
无问芯穹夏立雪:让算力像水电煤一样成为标准化、高附加值的“拎包入住”基础设施|中国AIGC产业峰会
量子位· 2025-04-29 16:02
核心观点 - 算力需求呈现爆发式增长,推理模型兴起带来超百倍算力需求增长 [5][11] - 高质量、高性价比算力供给仍存在缺口,需优化供给侧服务能力 [5][16] - 算力生态需提供"拎包入住"式标准化服务,类比水电煤基础设施 [12][22][32] 行业趋势 - 2023年全球生成式AI部署率从55%快速提升至78%,企业AI应用渗透加速 [11] - 中国70%亿级用户APP已启动AI转型,美图AI功能带动付费用户达1200万历史新高 [14] - 推理范式变化导致算力需求激增:2023年增长30倍,2024年Deepseek等模型推动超百倍增长 [8][11] 技术突破 - 端侧加速技术SpecEE使3B模型在终端设备运行效率提升70%-2倍 [25][26] - 云侧推理引擎通过semi-PD方案优化Prefill/Decode环节,实现显著加速 [27] - FlashOverlap技术解决计算与通信等待问题,消费级显卡实现1.5倍加速 [30] 公司解决方案 - 构建MaaS/PaaS/IaaS三层架构:覆盖模型开发、训练部署、算力集群管理 [25] - 异构算力标准化:整合国产芯片及小算力集群,通过软硬协同抹平生态壁垒 [24] - 推出WorkFlow封装工具,支持生图社区等场景一键部署生产环境 [31] 市场痛点 - 推理任务存在突发性需求,当前算力供给仍以粗放式"数取胜"为主 [17] - 训练与推理需求差异显著:推理需毫秒级响应,传统优化手段难以满足 [20] - 算力成本高企导致性价比瓶颈,阻碍AI应用落地 [20]