大模型推理
搜索文档
国产算力迈入“万卡”时代:摩尔线程发布新一代GPU架构,中科曙光发布万卡超集群
经济观察网· 2025-12-20 14:47
行业竞争焦点转移 - 国产算力产业链竞争焦点已从比拼单卡参数转向构建能稳定运行的万卡级系统[2] - 当模型参数量突破万亿,算力提升依赖规模堆叠,核心问题是如何让上万张计算卡协同工作[2] 摩尔线程新产品发布 - 摩尔线程发布最新全功能GPU架构“花港”,新架构算力密度提升50%,效能提升10倍[3] - “花港”架构支持从FP4到FP64的全精度计算,并新增对MTFP6、MTFP4及混合低精度的支持[3] - 基于新架构规划两款芯片:“华山”定位AI训推一体,专攻大规模智算;“庐山”专注高性能图形渲染,其AI计算性能较前代提升64倍,光线追踪性能提升50%[4] - 公司坚持“全功能GPU”技术路线,同时覆盖图形渲染与人工智能计算两个市场[5] 中科曙光万卡集群系统 - 中科曙光发布“scaleX”万卡超集群系统,这是国产万卡级算力集群首次以真机形式公开亮相[6] - 系统由16个scaleX640超节点通过scaleFabric高速网络互连,总计可部署10240块AI加速卡[10] - 系统采用浸没相变液冷技术,单机柜算力密度相比业界提升20倍,PUE值降至1.04[12] 解决通信与散热挑战 - 构建万卡集群需解决散热、供电与物理空间限制等多重物理与工程难题[7][8] - 高功率算力芯片集中部署会产生惊人热量和电力消耗[9] - 摩尔线程在“花港”架构中集成新一代异步编程模型,并通过自研MTLink互联技术宣称支持十万卡以上规模集群扩展[12] - 中科曙光发布scaleFabric网络,基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,实现400Gb/s带宽与低于1微秒的端侧通信延迟[12] 大模型推理能力验证 - 随着DeepSeek等国产大模型参数量达671B级别,在国产硬件上跑通这些模型成为硬件厂商的试金石[13] - 摩尔线程展示与硅基流动合作的测试数据:在DeepSeek R1 671B全量模型上,其MTT S5000单卡Prefill吞吐量突破4000 tokens/s,Decode吞吐量突破1000 tokens/s[13] 软件生态与系统兼容性 - 摩尔线程宣布其MUSA统一架构升级至5.0版本,核心计算库muDNN在GEMM与FlashAttention上的效率超过98%[13] - 硬件规格逼近国际主流后,国产厂商研发重心正向软件栈优化转移[13] - 中科曙光scaleX万卡超集群支持多品牌加速卡,并已完成400余个主流大模型的适配优化,采用开放架构策略[14]
平价数码产品,要和我们说再见了?
虎嗅APP· 2025-12-15 18:26
出品 | 虎嗅科技组 作者 | 丸都山 编辑 | 苗正卿 头图 | 视觉中国 内存涨价的持续时间及烈度,可能被所有人低估了。 但SK海力士的这份报告无疑表明,即便是等到新增DRAM产能释放,也完全不足以抵消掉市场需求。 那么内存市场如此严重的供需错配,根源究竟在哪里?对于普通消费者来说,又会带来什么样的持续性影 响? 谁在抢夺DRAM? 01 我们用一类最有代表性的产品——电脑内存条,去看下DRAM在今年的涨价幅度。 在今年年初,DDR5 16GB(5600MHz)内存条在电商平台的报价在300元左右,而当前同规格内存条的电商 平台价格最低为899元,相当于在不到一年的时间里,价格上涨了200%。 据科技媒体Wccftech报道,一份源于SK海力士内部会议的文件表示, 全球DRAM供不应求的情况预计持续 到2028年底。 这个判断着实是远超出了行业此前的预期,比如在上个月的小米三季度财报电话会议上,卢伟冰就曾表示, 现在各家(手机厂商)普遍承受着源自存储芯片成本的压力,而且明年的产品零售价还会有较大幅度上涨, 直到2027年,这种供需失衡的问题才有望扭转。 卢伟冰提到的"2027年",实际上也是目前行业普遍认 ...
基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台
AI前线· 2025-12-12 08:40
文章核心观点 - 大语言模型推理服务正成为企业级应用核心基础设施,其生产级落地的关键在于平衡性能、稳定性与成本 [2] - 为应对模型规模扩张带来的显存压力,LLM推理架构正从单体模式向分布式演进,主流路径包括Prefill-Decode分离、Attention-FFN分离以及KVCache外置 [2] - 在长上下文、高并发、RAG、AI Agent等场景中,KVCache外置已成为保障低延迟、高吞吐与成本效益的必选项 [2] - 通过结合RoleBasedGroup(RBG)编排引擎与Mooncake分布式KVCache存储引擎,可以系统化构建生产级稳定高性能的PD分离推理服务,解决分布式部署复杂性与有状态缓存服务平滑升级等行业难题 [4][5][43] LLM推理架构演进与挑战 - 演进根本动因是模型规模扩张导致的显存压力:在长上下文或高并发场景下,KVCache显存占用常超过70% [2] - 将KVCache解耦外置能突破存储容量瓶颈,并实现跨请求缓存共享、弹性伸缩与故障隔离等关键能力 [2] - 当前生产环境面临五大根本性挑战:快速架构迭代、性能敏感、组件强依赖、运维效率低、资源潮汐显著与利用率不足 [12][15] - 线上流量峰谷差常超过10倍,但静态配置的推理服务GPU平均利用率长期低于30% [15] Mooncake分布式KVCache存储引擎 - Mooncake是业界主流的分布式KVCache存储引擎,为SGLang等推理框架提供高吞吐、低延迟的KVCache分布式服务 [3] - 它是SGLang HiCache(层级缓存)的高性能分布式L3存储后端,通过RDMA实现跨机KVCache共享,突破单机GPU/CPU缓存容量瓶颈 [7] - 核心组件包括:管理集群存储池、元数据与节点生命周期的Master Service,以及提供分布式缓存存储、支持多副本与负载均衡的Store Service [9] RoleBasedGroup(RBG)编排引擎 - RBG是面向大模型推理的Kubernetes原生API,通过多角色协同编排,将Mooncake缓存与SGLang推理节点视为同一服务的不同角色进行统一管理 [4] - 其核心设计理念是将一次推理服务视为拓扑化、有状态、可协同的“角色有机体”,以“角色”作为调度编排的原子单元 [13][14] - RBG提出面向生产环境的SCOPE核心能力框架:稳定(Stable)、协同(Coordination)、可编排(Orchestration)、高性能(Performance)、可演进(Extensible) [14][16][17] RBG的SCOPE核心能力解析 - **稳定**:通过为每个Pod注入全局唯一RoleID,并遵循“最小替换域”原则,确保运维操作在原有硬件拓扑范围内完成,避免拓扑漂移导致的性能抖动 [19] - **协同**:内置声明式协同引擎,精确定义角色间在部署、升级、故障、伸缩时的依赖关系与联动策略 [19][22] - **可编排**:显式定义角色依赖与启动顺序,并提供拓扑自感知的内建服务发现,将完整拓扑信息注入Pod环境,降低集成复杂度 [20] - **高性能**:引入拓扑感知的装箱策略,支持GPU拓扑优先级、角色亲和与反亲和约束、布局均衡性等多维度性能优化 [21][23] - **可演进**:通过声明式API与插件化机制,将角色关系定义与部署管理解耦,可快速适配社区演进的新架构,显著缩短新架构投产周期 [24] 基于RBG部署PD分离架构与Mooncake的实践 - 通过RBG可部署高可用、弹性的SGLang PD分离推理系统,核心角色包括:SGLang Router、Prefill Serving Backend、Decode Serving Backend、Mooncake Master/Store [29][31] - EngineRuntime作为RBG注入的Sidecar,成为推理引擎与上层编排系统的桥梁,提供动态LoRA加载、流量控制等关键运行时能力 [29] - 多轮对话场景Benchmark测试表明,多级缓存架构对性能提升至关重要 [31] 性能提升数据 - **Baseline(仅GPU显存)**:缓存命中率2.22%,平均TTFT 5.91秒,P90 TTFT 12.16秒,InputToken吞吐量6576.85 token/s [32][48] - **启用L2 DRAM HiCache**:命中率提升至40.62%,平均TTFT降至3.77秒(下降36.2%),P90 TTFT降至10.88秒,InputToken吞吐量提升至10054.21 token/s(提升52.89%) [32][48] - **启用L3 Mooncake缓存**:命中率进一步跃升,平均TTFT降至2.58秒(下降56.3%),P90 TTFT大幅改善至6.97秒(下降42.7%),InputToken吞吐量提升至15022.80 token/s(提升49.41%) [32][48] 平滑升级与运维稳定性 - Mooncake作为有状态缓存服务,在传统Kubernetes滚动升级中缓存丢失会导致P99延迟毛刺与系统吞吐量断崖式下跌 [36][40] - 解决方案结合了Mooncake缓存本地持久化功能与RBG的原地升级能力,使得在联合升级过程中KVCache状态得以延续,活跃会话无需回退到Prefill阶段 [36][40] - 原地升级实现了“升级无感、服务不抖”的生产级目标,将有状态缓存服务的平滑演进转化为标准化、可自动化的运维能力 [38][43] 总结与行业意义 - RBG重新定义了LLM推理服务的编排范式,通过多角色协同与拓扑感知调度解决了分布式部署复杂性,并攻克了有状态缓存服务平滑升级的难题 [43][44] - Mooncake作为L3缓存层,通过分布式内存池与RDMA加速,使缓存命中率跃升,显著降低了延迟并提升了吞吐,同时将GPU平均利用率从不足30%提升至可持续弹性伸缩的水平 [44] - 从GPU HBM → DRAM → Mooncake的三级缓存体系被证明是有效的,尤其在多轮对话、RAG、AI Agent等场景中,缓存复用带来的边际成本递减效应将愈发显著 [44] - RBG与Mooncake的协同实践表明,只有将高性能系统设计与云原生运维能力深度融合,才能让大模型推理真正从“能用”走向“好用”,从“实验室”走向“生产级” [43]
当算力追赶不上智能:2026年AI行业的缺口与爆发(附86页PPT)
材料汇· 2025-12-10 23:51
文章核心观点 智能进化的速度已超越算力基础设施的建设步伐,导致2026年AI产业将呈现清晰的二元图谱:一方面是贯穿芯片、存储、封装与散热的**核心算力缺口**持续扩大;另一方面是为弥补云端延迟与成本,算力向终端迁移所催生的**应用爆发奇点**,AI手机、眼镜、机器人等端侧智能正从概念走向规模化前夜 [1] 1.1 行业概述:Q3电子仓位新高,AI驱动多板块涨幅显著 - **市场表现强劲**:2025年第三季度,电子(中信)指数累计上涨44.5%,跑赢沪深300指数26.6个百分点;年初至12月5日累计上涨39.5%,跑赢沪深300指数23.0个百分点 [12] - **细分板块涨幅显著**:年初以来,PCB板块累计上涨114%,消费电子上涨51%,半导体上涨40%;半导体细分板块中,设计上涨51%,设备上涨45%,材料与制造均上涨33% [12] - **基金仓位创历史新高**:2025年第三季度主动权益基金电子行业仓位达23.64%,环比增加5.42个百分点,创历史新高;其中半导体、消费电子、元器件(PCB+被动元件)仓位分别为12.77%、5.42%、4.28% [13] - **海外半导体指数强势**:2025年9月初至12月5日,费城半导体指数累计上涨28.7%,跑赢标普500指数22.3个百分点;年初至12月5日累计上涨46.5%,跑赢标普500指数29.7个百分点 [17] - **海外核心个股亮眼**:年初以来,数字芯片(英特尔+102%、英伟达+37%)、存储(海力士+213%、美光科技+170%)、设备(LAM+119%、KLA+93%)及制造(台积电+38%)等板块个股涨幅显著 [17] 1.1 整体业绩:整体营收&利润同环比向上,整体盈利能力提升 - **电子整体业绩增长**:2025年前三季度,电子行业整体营收达32,397亿元,同比增长19%;净利润达1,731亿元,同比增长35%;净利率同比提升1个百分点至5% [16] - **分板块业绩分化**: - 各一级板块营收均同比增长,面板扭亏为盈 [18] - PCB、面板、半导体板块净利率同比分别提升3、2、1.2个百分点 [18] - 半导体板块中,设计板块净利润同比增长75%,材料增长27%,制造增长168%;设备及设备零部件因新品验证成本高、期间费用增加导致净利率同比下滑 [16] - **第三季度业绩持续向好**:2025年第三季度,电子整体营收同比增长19%,净利润同比增长50%;PCB、面板、半导体、LED净利率同比分别提升3、3、2.6、1个百分点 [24] 1.1.1 消费电子:终端需求继续复苏,AI+有望开启新创新周期 - **智能手机市场弱复苏**:2024年全球/中国智能手机销量达12.4/2.9亿部,同比分别增长6.1%/5.6%;2025年第三季度全球销量达3.2亿部,同比增长2.6% [26] - **未来展望**:IDC预测2024-2029年全球/中国手机市场年复合增长率(CAGR)分别为1.5%/0.8%,若端侧AI应用落地有望缩短换机周期推升销量 [26] - **PC市场恢复增长**:2024年全球PC销量达2.63亿台,同比增长1.0%;2025年第三季度销量达7590万台,同比大幅增长10.3% [27] - **PC市场预测**:受益于向Windows 11过渡的更新需求,IDC预计2025年全球PC销量将达2.78亿台,同比增长5.6%;2024-2029年全球/中国PC市场CAGR预计为1.4%/2.1% [27] 1.1.2 汽车:总量弱复苏,电动&智能化双轮驱动 - **汽车市场弱复苏**:2024年全球/中国汽车销量为9060/3143万台;预计2025年销量为9223/3400万台,同比分别增长1.8%/8.2% [39] - **新能源渗透率持续提升**:2025年全球/中国新能源汽车渗透率预计达18%/41%,2026年预计增长至20%/47% [39] - **智能化率向上**:2024年中国市场ADAS(高级驾驶辅助系统)渗透率达54.9%,预计2025年将提升至59.5%,其中L2及以上渗透率达51.9% [39] 1.2 AI带动全球半导体周期向上 - **半导体周期处于上行阶段**:全球半导体月度销售额同比增速于2023年6月触底反弹,2023年11月增速转正,目前已连续24个月同比增速为正 [40] - **销售额持续增长**:2025年10月全球半导体市场销售额达727亿美元,同比增长27.2% [40] 1.2 AI带动全球云厂商资本开支继续上行 - **国内云厂商Capex大幅增长**:2024年国内百度、腾讯、阿里合计资本开支达1608亿元,同比大幅增长173%;2025年前三季度达1659亿元,同比增长84% [42] - **海外云厂商Capex高速增长**:2024年海外头部云服务提供商(CSP)Meta、谷歌、亚马逊、微软合计资本开支达2478亿美元,同比增长65%;2025年前三季度达2841亿美元,同比增长67% [42] - **未来指引乐观**:预计2025年四大CSP合计资本开支约4050亿美元,同比增长约63%;2026年普遍给予资本开支增长50%-60%的指引 [43] 1.3 AI叙事提速:大模型密集迭代、竞争激烈 - **模型迭代加速,头部竞争激烈**:以Artificial Analysis综合评分70分(GPT-4水平)为基准,OpenAI、Anthropic、谷歌在2025年第三季度以来先后达到或超越 [48] - **模型能力触及中级脑力劳动**:现阶段模型能力普遍可完成逻辑推理、跨模态理解,支持代码、法律等复杂场景,驱动推理用量爆发 [50] - **AI显著提升生产力**:OpenAI报告显示,其O1模型在6个法律工作流程中,能将律师生产力提升34%至140%,在复杂任务中效果更突出 [50] 1.3 AI叙事提速:应用渗透,推理用量快速膨胀 - **用户依赖度加深**:OpenAI周活跃用户数量增长显著加速,美国GPT信息流中用于学习与技能提升、写作、编程与数学的占比分别达20%、18%、7% [56] - **推理算力用量激增**:谷歌月处理Tokens数量自2025年初以来显著提速,整体增长保持在约1-2个季度翻倍的水平 [56] - **云业务增长提速,供需紧张**: - AWS 2025年第三季度收入330亿美元,同比增长20%,为2023年以来最高单季增速;未履约订单增长至2000亿美元 [57] - 谷歌云第三季度收入152亿美元,同比增长34%;积压订单达1550亿美元,同比增长82% [57] - Azure第三季度货币中性同比增长39%;积压订单3920亿美元,同比增长51% [57] 1.3 国产差异化路线突围:开源+普惠 - **国产开源模型领先**:在Artificial Analysis评分中,居前三的开源模型均为国产,在应用接入成本及定制适配性上较闭源模型有优势 [63] - **国产模型定价优势明显**:以当前开源第一的Kimi K2thinking为例,其定价仅为北美一梯队模型定价的约10%-25% [63] - **市场份额提升**:根据OpenRouter平台数据,中国开源模型市场份额在2026年下半年贡献近30%的份额,较2024年底显著增长;在编程和技术类任务中工作负载占比达39% [68] 1.3 AI普及加速,推理算力向端侧布局倾斜 - **端侧AI优势显著**:端侧运算在成本、隐私、时延、可靠性方面具备优势;据弗若斯特沙利文预测,到2029年全球端侧AI市场规模将增至1.2万亿元,复合年增长率达39.6% [69] - **大厂积极入局端侧硬件**:Meta、谷歌、阿里巴巴、字节跳动等AI大厂纷纷推出或研发AI眼镜、手机、耳机、可穿戴设备等,抢占下一代交互入口 [67] 2.1 模型产业趋势:算力需求由训练向推理转变 - **算力结构深度转型**:当前70%以上算力用于集中式训练,未来70%以上算力将用于分布式推理;推理需求规模有望达到训练阶段的5-10倍 [72] - **推理服务器市场快速增长**:据Global Info Research预测,2024年全球AI推理服务器市场规模约139.6亿美元,至2030年将达393.6亿美元,期间年复合增长率(CAGR)为18.9% [72] 2.1 GPGPU与ASIC是算力两大支柱 - **GPGPU适用于AI计算**:利用GPU并行计算优势,加速深度学习等领域,在大规模并行计算时比CPU更高效;英伟达GPU是主要代表,架构从Ampere、Hopper迭代至Blackwell,下一代Rubin(3nm)架构将于2026年下半年推出 [79][80] - **ASIC芯片适用于推理**:针对特定任务进行硬件优化,能实现高性能计算并保持极低功耗,在AI推理任务中表现出色 [79] 2.1 ASIC芯片在能效、价格、功耗等多方面具备竞争优势 - **能效比优势**:相较于GPU,ASIC芯片在业务逻辑确定的场景下具备高能效、低功耗优势;例如谷歌TPU V7功耗约为英伟达GB200的35.5%,结合功耗后其能效比优于GB200(较GB200能效比提高26.3%) [81] - **成本优势显著**:云厂商通过自研ASIC芯片可明显降低成本,几大龙头ASIC设计厂商(如博通、Marvell)产品平均销售价格约5000-6500美元,较GPU芯片降本50%-60% [81] 2.1 海外CSP布局自研ASIC - **降本与减少依赖驱动自研**:为降本、减少供应链依赖并利用ASIC在能效比和定制化上的优势,全球各大云厂商积极布局自研ASIC [84] - **具体进展**: - 谷歌:TPU已迭代至V7,预计2025年第四季度量产;V8预计2026年第三季度投片 [84] - 亚马逊:Trainium 3已全面推出,2025年12月3日起向客户开放,计划2026年快速扩大规模 [92] - 微软:Maia 200专为数据中心和AI任务定制,预计2026年量产 [84] - Meta:与博通合作,将于2025年量产MTIA v2 [84] 2.1 中国GPU市场规模远期超万亿 - **中国AI智算GPU市场高速增长**:据摩尔线程招股书,中国AI智算GPU市场规模从2020年的142.86亿元增至2024年的996.72亿元,期间年均复合增长率高达62.5% [93] - **未来市场空间巨大**:弗若斯特沙利文预测,到2029年中国AI智算GPU市场规模将达10,333.40亿元,2025-2029年年均复合增长率为56.7%;其中数据中心GPU产品是增速最快的细分市场 [93] 2.2 制造市场规模大且大陆份额低,国产空间广阔 - **全球晶圆代工市场规模大**:2024年全球晶圆代工市场规模约1402亿美元,同比增长19%;中国大陆市场规模约130亿美元,占全球比例近10% [100] - **竞争格局集中**:台积电一家独大,占据60%以上市场份额;中国大陆厂商中芯国际和华虹集团合计份额约7.6%,发展空间广阔 [100] - **先进制程成为AI芯片标配**:主流AI芯片已全面向5nm与3nm等先进制程迁移;台积电5nm相较7nm提供约1.8倍逻辑密度、15%性能提升或30%功耗降低;3nm进一步实现约18%性能提升或32%功耗降低 [99] 2.2 国产份额仍低,大陆厂商加速扩张 - **大陆需求大量由台积电满足**:2024年,主要晶圆厂在中国大陆营收体量达200亿美元以上,其中台积电营收为111亿美元,占比达54% [102] - **大陆厂商加速扩张**:2020-2024年,大陆主要晶圆厂商营收合计从32.2亿美元增长至94.1亿美元,年均复合增长率为30.7%,远高于台积电同期的9.1% [102] 2.2 AI性能需求快速增长,先进封装亟待发展 - **带宽缺口问题凸显**:据台积电数据,计算系统需处理的数据峰值吞吐量平均每两年增长1.8倍,而峰值带宽每两年仅增长约1.6倍,增加I/O密度迫在眉睫 [116] - **先进封装有效提升I/O密度**:Flip-Chip技术将每平方毫米I/O密度提升到100个级别,InFO和CoWoS工艺进一步将密度提升到1000个级别;台积电预测未来芯片I/O密度有可能再提高10,000倍 [119] - **2.5D/3D封装增长最快**:在先进封装各细分市场中,2.5D/3D封装市场2021-2027年复合增长率高达14.34%,主要由AI、高性能计算(HPC)、高带宽内存(HBM)等应用驱动 [127]
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路
机器之心· 2025-11-29 17:33
文章核心观点 - 大模型推理领域正从单纯增加思维链长度的“想得久”范式,转向通过动态优化动作空间以实现“想得准”的新范式[3] - 蚂蚁与香港大学团队提出的DynaAct方法,通过动作空间优化为核心,实现了更高效、结构化的推理路径,在多项基准测试中表现优异[7][21] - 该方法证明了Test-Time Scaling的未来在于更聪明的搜索策略,而非单纯投入更多计算资源[25] 研究方法与技术框架 - 提出以Action Space Optimization为核心的TTS范式,在每一步推理中动态构建可选动作集合并选择最优动作[7] - 将动作空间学习问题转化为集合选择问题,采用子模优化实现线性复杂度算法,子模函数包含效用和多样性两部分[14] - 利用Q-learning优化,旨在选出能最大化推理回报的动作空间[14] - 动作候选从真实推理数据中学习,确保覆盖潜在解的同时避免冗余[15] 系统实现与性能 - 开源了基于vLLM的高性能MCTS框架,显著提升了节点扩展、Rollout与Reward计算效率[19] - 在6项推理基准测试中,DynaAct性能显著优于CoT、RAP与rStar等方法[21] - 具体性能表现:在MMLU上达到70.22,在ARC-C上达到51.40,在GSM8K上达到39.39,在MATH-500上达到88.31,在MMLU-Pro上达到89.16,在数学任务上达到61.00[22] - 随着MCTS Rollout次数增加,DynaAct呈现出稳定的test-time scaling趋势,且动作空间更小、延迟几乎不增加[25] 未来发展方向 - 计划将Dynamic Action Space扩展到多智能体规划场景[26] - 探索将子模优化与强化学习结合,学习端到端的自适应推理策略[26] - 推出更高效的MCTS工具包以服务开源社区[26]
华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源
机器之心· 2025-11-28 12:11
行业趋势:大模型竞争焦点转向推理效率 - 大模型竞争焦点从训练规模与能力突破转向推理效率,推理效率成为影响模型能否落地的关键变量[2] - 推理环节比拼的是以低成本、低延迟将模型稳定运行起来的能力,尤其对于超大规模MoE模型而言[3] - 推理成本是否可控决定了大模型的可用性,并直接影响其能否高效进入业务场景[3] 超大规模MoE模型推理面临的挑战 - 超大规模MoE模型推理面临计算、通信、访存和并行策略等最优策略选择的挑战[3] - 在高度耦合的推理链路中,调度或资源分配上的微小偏差可能被放大为延迟上升、吞吐下降[3] - 大EP部署下MoE模型推理体系异常复杂,每个环节都可能成为大规模部署中的瓶颈[3] 华为昇腾技术栈解决方案概述 - 华为推出面向准万亿参数MoE推理的完整技术栈,包括openPangu-Ultra-MoE-718B-V1.1模型和昇腾亲和加速技术[2] - 该技术栈使超大规模MoE模型具备了走向生产级部署的现实可行性[2] - 解决方案涵盖框架层面、调度层面到算子层面的系统性优化[10] 模型核心参数与能力 - openPangu-Ultra-MoE-718B-V1.1总参数为718B,激活参数量为39B[4] - 该模型基于昇腾硬件训练,提升了Agent工具调用和其他综合能力[4] - 模型的量化版本openPangu-Ultra-MoE-718B-V1.1-Int8已在昇腾硬件上构建完整推理路径[4] 框架层面优化:Omni-Infer与Omni Proxy - Omni-Infer为vLLM、SGLang等主流开源推理框架提供昇腾亲和加速库[11] - Global Proxy在Omni-Infer V0.3.0中带来超过10%的推理性能提升[11] - Omni Proxy作为第二代请求调度特性,基于Nginx打造,解决传统调度器在大模型推理场景下的局限性[13] Omni Proxy五大创新技术 - 将推理请求拆解为10个细粒度生命周期阶段,实现基于全链路性能数据的精确请求级调度[17] - 提供sequential和parallel两种模式,适配vLLM与SGLang在P/D分离场景下的不同KV Cache传输方式[19] - 通过APC感知实现高效KV缓存复用与智能调度,减少重复计算与节点传输开销[22] - 在上游预先完成对话模板展开与tokenizer处理,在多机P/D分离场景下降低约30%的tokenizer开销[24] - 通过对请求按长度与等待时间加权排序,实现长短请求的动态平衡和节点精准匹配[26] 全栈推理加速体系 - 推理加速套件包含服务扩展、任务调度、专家管理到算子加速等组件[30] - Omni Placement通过Layer-wise与Uneven机制实现大规模专家的高效调度[31] - MTP提高多token并行生成能力,Fusion Operator通过算子融合减少冗余计算[31] 算子层面创新:AMLA技术突破 - AMLA将昇腾硬件算力利用率最高推至86%,在推理场景下绝无仅有[36] - AMLA采用"以加代乘"的高性能MLA算子,通过数学层面对计算逻辑进行解构[36] - 在昇腾硬件上跑出最高614 TFLOPS性能,算力利用率达到理论峰值的86.8%[45] - 远高于当前最好的开源FlashMLA(在NVIDIA H800 SXM5上算力利用率约66.7%)[45] 技术组合的商业价值 - 技术组合让准万亿参数MoE推理在成本、性能与稳定性之间找到可落地的平衡点[50] - 为超大规模MoE模型迈向商业可行性奠定了基础[50] - 模型能力与推理效率的双向提升让大模型加速走向产业化落地阶段[50]
芯片ETF(512760)连续5日净流入超4亿元,英伟达公布芯片出货预期
每日经济新闻· 2025-11-05 15:05
英伟达产品路线图与性能提升 - 英伟达在GTC2025上发布Blackwell与Rubin架构机柜方案 首代Rubin NVL144性能较GB300 NVL72提升约3.3倍 [1] - 第二代Rubin Ultra576性能提升约14倍 预计将于2027年下半年推出 [1] - 首次亮相Vera Rubin Superchip 采用88核Arm CPU 双Rubin GPU与2TB内存 算力达到100 PFLOPS [1] - 同时展示CPX计算板 支持超百万Token的上下文加速 面向大模型推理场景 [1] 英伟达销售与出货量预期 - 英伟达预计未来五个季度GPU销售额将超5000亿美元 [1] - Blackwell与Rubin架构产品生命周期出货量预计达2000万颗 显著高于Hopper架构的400万颗 [1] 英伟达合作项目与超算系统 - 英伟达将与甲骨文及美国能源部共建Solstice与Equinox超算系统 [1] - Solstice系统将部署10万颗Blackwell GPU Equinox系统部署1万颗Blackwell GPU [1] - 总算力约2200 EFLOPS 预计2026年上半年启用 [1] 芯片ETF与相关指数 - 芯片ETF(512760)跟踪中华半导体芯片指数(990001) [1] - 该指数从沪深市场选取涉及半导体芯片材料 设备 设计 制造 封装和测试等环节的上市公司证券作为样本 [1] - 指数用于反映半导体芯片行业相关上市公司证券的整体表现 [1]
锦秋基金参与微纳核芯超亿元融资,首创三维存算一体3D-CIM™芯片开启大模型推理新篇章|Jinqiu Spotlight
锦秋集· 2025-10-30 21:34
文章核心观点 - 锦秋基金已完成对微纳核芯的投资,微纳核芯是一家全球领先的存算一体AI芯片公司,其首创的三维存算一体3D-CIM™芯片技术旨在破解AI大模型推理中“高性能、低功耗、低成本”的不可能三角,为端侧AI应用提供解决方案 [2][4][8] 投资事件与市场背景 - 微纳核芯完成超亿元B轮战略融资,由蓝驰创投领投,中芯聚源、锦秋基金等顶级机构参与 [4] - 端侧AI芯片组市场规模预计将从2024年的20亿美元增长至2028年的167亿美元 [6] - 端侧模型能力提升和算力增强将推动AI快速渗透,端侧计算是降低延迟、解决隐私安全的必然趋势 [4] 行业趋势与政策驱动 - AI Agent将从执行工具演进为决策伙伴,国务院文件提出2027年实现智能体终端普及率达70%的目标 [6] - 2035年全球智能体数量预计将达到9000亿台,算力需求提升10万倍 [6] - 端侧部署在隐私、时延、成本、可靠性方面具备优势,端-边-云协同在大模型推理中的必要性日益凸显 [6] 技术痛点与解决方案 - 大模型推理芯片面临高性能、低功耗和低成本三大核心痛点 [7] - 三维堆叠是实现高TPS性能的主流选择,但仍需破解“不可能三角” [7] - 微纳核芯的3D-CIM™架构融合了3D近存计算、存内计算和RISC-V存算异构架构,旨在解决上述痛点 [8] 微纳核芯产品与技术优势 - 3D-CIM™技术通过存储单元和计算单元融合,实现4倍以上算力密度提升和10倍以上功耗降低,相比传统冯诺依曼架构 [8] - 该技术不依赖于先进工艺,确保供应链自主可控,定位为全球最快可量产3D端侧AI芯片 [9] - RV-CIM™全栈技术解决了存算一体的计算完备性和软硬件生态壁垒问题 [8] 应用场景与市场定位 - 产品为AI手机、AI PC、IoT、一体机等大模型推理应用提供芯片解决方案,并可拓展至服务器、AI机器人等场景 [9][12] - 公司致力于开辟千亿级大模型推理蓝海市场,实现无处不在的AI普惠 [11][13] 团队与生态合作 - 微纳核芯团队拥有数十名知名高校博士/博士后,近六年在ISSCC上连续发表14项突破世界纪录的芯片成果 [10] - 公司作为“RISC-V存算一体应用组”组长单位,牵头启动全球首个RISC-V存算一体标准研制和生态建设,联合数十家产业链企业 [11] - 公司是唯一同时与多家手机龙头企业深度合作、且拉通手机主芯片厂商配合的3D AI芯片公司 [11]
独家|对话Tensormesh三位联创:如何从学术界走到大模型推理产业前线?
Z Potentials· 2025-10-24 16:18
公司概况与融资 - 公司Tensormesh于2025年10月正式亮相,并宣布完成450万美元种子轮融资,由Laude Ventures领投 [2] - 公司致力于为企业提供缓存加速推理优化,是首个将大规模AI推理缓存产品化的商业平台 [2] - 创始团队由芝加哥大学教授Junchen Jiang及其学生Yihua Cheng和Kuntai Du领导,他们也是领先的开源键值缓存项目LMCache的联合创始人 [2] 创业起源与团队构建 - 创业构思始于2024年初,源于创始人意识到AI领域学术界与工业界存在巨大鸿沟,决定将复杂的系统研究转化为可用的产品 [4][22] - 团队组建过程非常顺利,创始教授与两位学生一拍即合,核心驱动力在于学生毕业后能共同创业,拥有归属感和投入感,这被视作教授创业成功的关键因素 [3][12][24] - 团队在博士期间的研究方向从视频分析系统转向大语言模型系统,是系统领域内较早聚焦LLM推理的团队之一 [8][10] 产品与解决方案 - 产品定位为帮助企业一键部署大模型服务的解决方案,核心是打造连接推理引擎与存储服务的桥梁 [4][18][34] - 解决方案针对企业部署大模型的三大痛点:大规模集群部署难度高、集群管理复杂、以及高昂的GPU推理成本 [27][28] - 部署后运行成本仅为公共API的十分之一,并且通过自研核心技术,性能比业界主流方案高出数倍甚至十倍以上 [4][29] 技术优势与行业定位 - 公司专注于大语言模型推理阶段,认为未来99%以上的AI计算负载将发生在推理而非训练阶段 [10] - 技术核心是KV Cache,专注于推理计算和存储之间的桥梁,旨在为快速演化的模型结构与推理方式提供弹性的执行平台 [34][35] - 与行业主流方案不同,其定位是提供非第三方、支持私有部署、能整合推理引擎、存储、调度和路由的全链路整体解决方案 [38] 市场认知与竞争策略 - 认识到推理是一个巨大的产业,不仅AI公司需要,银行、保险等传统行业同样有刚需,且市场会越来越大 [33] - 行业竞争主要来自成熟的第三方API服务及各类推理引擎,但市场缺乏支持私有部署的整体解决方案 [38] - 通过早期与Bloomberg等客户的合作,认识到企业客户更关注实际交付能力和使用体验,而非产品是否开源 [43] 开源与商业战略 - 开源被视为让用户快速用起来的有效途径,但并非最终形态,公司的目标是打造性能最强的开源引擎,并在此基础上构建具有附加价值的闭源产品 [5][40] - 商业策略是开源与闭源并行,通过领先的开源项目赢得用户认可,再通过体验更好的闭源系统实现商业转化 [5][41] - 未来计划将产品打造成大模型部署的首选入口,目标是当人们谈及大模型推理时能第一时间联想到其产品 [44][45] 未来展望与发展计划 - 公司的长期愿景是成为支撑下一代AI应用大规模落地的底层操作系统,并预见AI系统的形态将从“以人为本”转向“人类辅助” [5][51][52] - 除技术产品外,公司认为市场与营销是将技术价值转化为商业营收的关键,同时需要具备前瞻性思维进行战略布局 [46] - 团队建设被视为一切的基础,拥有对的人员和氛围至关重要 [47]
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
量子位· 2025-10-22 17:12
项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架,专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025,获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构,充分释放底层硬件算力资源,实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构,让GPU负责注意力和主干网络的高并行计算,CPU承担稀疏专家模块的推理任务,实现高效协同执行[10] - 引入Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,使CPU与GPU负载动态重叠,模型吞吐提升约1.45倍,单卡decode速度最高超过30+ tokens/s,模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核,在单路Xeon上实现PyTorch近4倍的提速,极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作,双方架构合入同一分支,实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K,成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持,工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者,已与多个国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调,计划在不扩卡、不改架构的前提下实现轻量调优,从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力,让AI能力也不再专属于少数企业,逐步实现算力普惠[29]