FlashOverlap - 财报，业绩电话会，研报，新闻 - Reportify

FlashOverlap

搜索文档

终端云端三连发！无问芯穹开源大模型推理加速神器，加码构建新一代端、云推理系统

机器之心· 2025-04-29 17:14

AI推理系统发展趋势 - AI领域呈现「端云并发」态势，端侧实现毫秒级实时响应，云侧依托强大算力支持复杂推理[2] - 大模型计算从预训练转向推理优化阶段，推理计算需求爆发式增长[2] - 无问芯穹开源三项推理系统技术，覆盖端侧加速、资源调度和通信优化[2] SpecEE端侧推理优化 - 针对AI PC本地部署需求，解决异构处理器协同挑战，实现2倍性能提升[3][4] - 采用推测式Early Exiting机制，通过轻量化预测器设计、自适应调度引擎和线性复杂度映射三层优化[3] - 实测联想Y7000笔记本运行ReLU-llama-7B达14.83 token/s，较PowerInfer提升20%，较llama.cpp加速2.43倍[4] - 动态性适配单用户云端场景，可无感兼容现有端侧加速方案[6] Semi-PD混合架构创新 - 第三代PD架构采用「计算分离、存储融合」设计，Prefill与Decode进程共享实例资源[12] - 引入SLO感知动态资源调整机制，灵活调配Prefill/Decode资源占比优化TTFT与TPOT[12] - 相比SOTA实现，Goodput提升1.55-1.72倍，单请求时延优化1.27-2.58倍[13] FlashOverlap通信优化 - 基于信号控制实现计算通信重叠，支持Tile粒度调度且对计算低侵入[15][16] - 适配AllReduce/ReduceScatter/All2All等通信原语，在低端消费卡实现1.65倍性能提升[15] - A800/4090测试显示平均性能提升1.07-1.31倍，优于其他SOTA方案[19] 无问芯穹技术布局 - 曾推出FlashDecoding++实现GPU推理2-4倍加速，并适配十余种国产计算卡[26] - 通过开源推动大模型产业落地，优化效率与成本，促进技术普惠[26] - 推理系统纵向连接AI模型与硬件，横向激活端云应用潜能[26]

大模型推理系统

Artificial Intelligence

大模型推理系统

Artificial Intelligence