大模型推理系统
搜索文档
企业应聚焦大模型微调与推理 实现技术与业务场景融合
中国证券报· 2025-10-30 05:10
大模型应用战略 - 企业应聚焦于“模型微调”与“模型推理应用”两大环节,而非成本高昂的前期数据获取和模型训练环节[1][2] - 通过引入特定领域数据对基础大模型进行二次训练,可将通用能力转化为适用于医疗、金融、制造等行业的专业化能力[1] - 企业可直接借助DeepSeek、华为等专业科技公司提供的成熟开源基础大模型,实现技术与自身业务场景的深度融合[2] AI PC产业发展 - AI PC定义为一个大模型与一个CPU搭配一块GPU的设备,预计一两年后可能每个人手头都有一个AI PC设备[2] - 类比三四十年前计算机从大机器发展到PC机带来的巨大商机,AI PC预计会成为一个大的产业[2] - AI PC已展现出多元化落地场景,如银行业通过大模型提升客服效率,芯片设计领域实现架构设计与代码生成的自动化[3] AI对企业竞争力的影响 - 企业应将AI定位为核心基础设施,而不仅仅是IT辅助工具,AI是企业竞争力的下一战场[1][3] - AI是驱动增长的第二引擎,通过重塑产品、服务和运营模式,为企业开辟新的增长曲线并直接提升收入与利润率[3] - AI是效率与竞争力的放大器,能将数据转化为决策力,优化内部流程、降低运营成本,并构筑动态竞争壁垒[3]
终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
机器之心· 2025-04-29 17:14
AI推理系统发展趋势 - AI领域呈现「端云并发」态势,端侧实现毫秒级实时响应,云侧依托强大算力支持复杂推理[2] - 大模型计算从预训练转向推理优化阶段,推理计算需求爆发式增长[2] - 无问芯穹开源三项推理系统技术,覆盖端侧加速、资源调度和通信优化[2] SpecEE端侧推理优化 - 针对AI PC本地部署需求,解决异构处理器协同挑战,实现2倍性能提升[3][4] - 采用推测式Early Exiting机制,通过轻量化预测器设计、自适应调度引擎和线性复杂度映射三层优化[3] - 实测联想Y7000笔记本运行ReLU-llama-7B达14.83 token/s,较PowerInfer提升20%,较llama.cpp加速2.43倍[4] - 动态性适配单用户云端场景,可无感兼容现有端侧加速方案[6] Semi-PD混合架构创新 - 第三代PD架构采用「计算分离、存储融合」设计,Prefill与Decode进程共享实例资源[12] - 引入SLO感知动态资源调整机制,灵活调配Prefill/Decode资源占比优化TTFT与TPOT[12] - 相比SOTA实现,Goodput提升1.55-1.72倍,单请求时延优化1.27-2.58倍[13] FlashOverlap通信优化 - 基于信号控制实现计算通信重叠,支持Tile粒度调度且对计算低侵入[15][16] - 适配AllReduce/ReduceScatter/All2All等通信原语,在低端消费卡实现1.65倍性能提升[15] - A800/4090测试显示平均性能提升1.07-1.31倍,优于其他SOTA方案[19] 无问芯穹技术布局 - 曾推出FlashDecoding++实现GPU推理2-4倍加速,并适配十余种国产计算卡[26] - 通过开源推动大模型产业落地,优化效率与成本,促进技术普惠[26] - 推理系统纵向连接AI模型与硬件,横向激活端云应用潜能[26]