FlashOverlap
搜索文档
终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
机器之心· 2025-04-29 17:14
AI推理系统发展趋势 - AI领域呈现「端云并发」态势,端侧实现毫秒级实时响应,云侧依托强大算力支持复杂推理[2] - 大模型计算从预训练转向推理优化阶段,推理计算需求爆发式增长[2] - 无问芯穹开源三项推理系统技术,覆盖端侧加速、资源调度和通信优化[2] SpecEE端侧推理优化 - 针对AI PC本地部署需求,解决异构处理器协同挑战,实现2倍性能提升[3][4] - 采用推测式Early Exiting机制,通过轻量化预测器设计、自适应调度引擎和线性复杂度映射三层优化[3] - 实测联想Y7000笔记本运行ReLU-llama-7B达14.83 token/s,较PowerInfer提升20%,较llama.cpp加速2.43倍[4] - 动态性适配单用户云端场景,可无感兼容现有端侧加速方案[6] Semi-PD混合架构创新 - 第三代PD架构采用「计算分离、存储融合」设计,Prefill与Decode进程共享实例资源[12] - 引入SLO感知动态资源调整机制,灵活调配Prefill/Decode资源占比优化TTFT与TPOT[12] - 相比SOTA实现,Goodput提升1.55-1.72倍,单请求时延优化1.27-2.58倍[13] FlashOverlap通信优化 - 基于信号控制实现计算通信重叠,支持Tile粒度调度且对计算低侵入[15][16] - 适配AllReduce/ReduceScatter/All2All等通信原语,在低端消费卡实现1.65倍性能提升[15] - A800/4090测试显示平均性能提升1.07-1.31倍,优于其他SOTA方案[19] 无问芯穹技术布局 - 曾推出FlashDecoding++实现GPU推理2-4倍加速,并适配十余种国产计算卡[26] - 通过开源推动大模型产业落地,优化效率与成本,促进技术普惠[26] - 推理系统纵向连接AI模型与硬件,横向激活端云应用潜能[26]