DeepSeek V3/R1

搜索文档
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 14:42
采访嘉宾|尹良升,SGLang 核心开发者 编辑|罗燕珊 2025 年 5 月, SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案,该方 案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。 近日,InfoQ 专访了 SGLang 核心开发者尹良升 ,他分享了该项目背后的关键技术、工程挑战 与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控 制,到推测解码提升 Token 生成速度,再到 KV 缓存落盘在多轮对话中的显存优化——这些关键 能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。 尹良升,现就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计 算机博士学位。他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优 化。 6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,尹良升将发表演 讲《SGLang 推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探 讨其在实际应用中的优化 ...
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 19:41
大模型推理技术发展 - 主流MoE架构大模型存在硬件成本高、效率低等结构性问题,中国企业面临芯片堆砌与效率挖掘的挑战 [1] - 华为通过数学算法和工程积累为DeepSeek提升效率及用户体验,采用差异化技术路径 [1] - 大语言模型参数规模呈指数级增长,部署形态从单卡演进到多卡集群,MoE模型需数百卡集群支持 [2] 集合通信操作核心机制 - 集合通信操作(如AllReduce、All-Gather、Reduce-Scatter、All-To-All)是大模型多节点协作的关键桥梁 [2][3][4] - AllReduce用于梯度汇总与参数更新,All-Gather实现数据全局共享,Reduce-Scatter分摊计算压力 [3] - 不同并行策略(TP、DP、EP)依赖特定通信操作:TP需All-to-All交换张量片段,DP用AllReduce同步梯度,EP依赖广播传递中间结果 [4][5] 通信技术瓶颈与挑战 - MoE模型参数突破千亿级,专家数量增长导致通信带宽需求呈平方级增长,引发网络拥塞 [7] - 传统AllReduce在大并发场景下效率不足,且后续计算操作(如RMSNorm)加剧时延 [7][8] - TP并行方案中AllReduce操作占推理时延较高,跨节点带宽限制进一步劣化性能 [8] 华为FlashComm技术创新 - **多流并行技术**:拆解MoE计算流程为三股并行流(专家计算/门控决策/数据传输),实现Prefill阶段提速10%,Decode吞吐提升25-30% [12][13] - **AllReduce革新**:采用ReduceScatter+AllGather组合,结合INT8量化使通信量降35%,Prefill性能提升22-26% [15] - **维度压缩技术**:通过矩阵乘法并行维度调整,通信量减少86%,整体推理速度提升33% [17] 技术方案总结与展望 - FlashComm技术通过通信算子优化降低数据量及时延,FlashComm2优化张量并行通信,FlashComm3提升计算并行度 [21] - 未来研究方向包括EP多流并行、权重自动预取、模型自动多流并行等 [21] - 华为技术方案在DeepSeek模型部署中实现显著性能提升,对比传统方案具有竞争优势 [23]
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
量子位· 2025-05-19 12:37
华为昇腾技术突破 - 华为昇腾在超大规模MoE模型推理性能上全面超越英伟达Hopper架构,实现"英伟达含量为0"的突破 [1] - 通过"以数学补物理"策略,利用数学理论、算法和建模弥补硬件局限,最大化发挥芯片和系统能力 [1] - 具体产品性能: - CloudMatrix 384超节点在50ms时延下单卡Decode吞吐达1920 Tokens/s [1][18] - Atlas 800I A2推理服务器在100ms时延下单卡吞吐达808 Tokens/s [1][21] 技术开源与披露 - 公司将全面开源昇腾超大规模MoE模型推理部署技术,包括技术报告和核心代码 [2] - 技术披露周活动将展示最新进展,相关资源可通过指定链接获取 [40][41] 行业趋势与挑战 - 大模型发展重心从训练转向推理应用落地,企业竞争焦点转向推理效率 [5][6] - 超大规模MoE模型(如6710亿参数的DeepSeek V3)带来三大挑战: - 内存压力:单个专家2.5G,64GB内存硬件难以承载 [7] - 通信开销:跨芯片数据传输耗时超过计算时间 [8] - 架构创新负担:如MLA机制导致中间变量激增 [9] 技术解决方案 硬件部署优化 - 采用PD分离部署解耦Prefill和Decode时延约束 [10] - CloudMatrix 384超节点采用144卡EP并行部署,128卡专用于路由专家 [17] - Atlas 800I A2采用多节点互联,2机16卡Prefill+4机32卡Decode [20] 框架与模型优化 - 基于vLLM框架适配DP/EP并行策略,优化调度分桶和分层传输 [12] - 采用A8W8C16量化策略(INT8+BF16),差异化部署不同机型 [13] - API Server横向扩展方案提升高并发场景QPS,动态负载均衡技术解决显存占用问题 [22] 通信优化 - FlashComm方案降低25%通信量并提升10%推理性能 [25] - 层内并行转换方案消除节点内卡间求和操作 [26] - 计算通信并发机制最大化硬件利用率,MLA层计算性能提升10% [27] 算子优化 - AMLA算法将乘性计算转为加性等价形式,减少数据搬运 [31] - L1/L2缓存精细化管理提升命中率,K-buffer流水排布掩盖计算耗时 [31] - 通算融合算子实现Token粒度流水排布,降低卡间同步开销 [31] 性能实测数据 - Prefill阶段:16K序列端到端耗时631ms,卡均吞吐1622 Tokens/s [34][36] - Decode阶段: - 2K输入+2K输出场景下吞吐达808 Tokens/s(90%接受率) [32] - 1K输入+2K输出场景下吞吐达876 Tokens/s(90%接受率) [32] - SiliconLLM框架部署DeepSeek-R1实现单卡1920 Tokens/s,等效H100性能 [38][39]
OpenAI 罕见宣布将开源推理模型!DeepSeek 给逼的
创业邦· 2025-04-01 17:42
来源丨APPSO(ID:appsolutio) 就在刚刚,OpenAI CEO Sam Altman 正式宣布,将在未来几个月内推出一款具备推理能力的强大开放权 重语言模型,并期待与开发者共同探索如何最大化其潜力。 据 Altman 透露,这是自 GPT-2 以来 OpenAI 首次计划发布开放权重语言模型。 他坦言,虽然这一想法已酝酿许久,但此前其他优先事项占据了主导地位。如今,发布这款模型的时机 变得尤为重要。 以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 在正式发布前,OpenAI 将依据其「准备框架」对模型进行评估,确保其安全性与可靠性。 考虑到模型发布后可能被修改,团队还将开展额外测试与优化工作。 为进一步完善开发流程,OpenAI 计划举办一系列开发者活动,以收集反馈并展示早期原型。首场活动将 于数周后在旧金山启动,随后在欧洲和亚太地区陆续展开。 有兴趣参与的开发者可通过链接报名: https://openai.com/open-model-feedback 作为参考,开 ...
苹果折叠屏iPhone发布计划公布!或将推动折叠屏市场从“小众”转向“主流”!
21世纪经济报道· 2025-03-02 23:30
苹果折叠屏iPhone相关 - 苹果首款折叠屏iPhone预计2026年秋季发布,可能作为iPhone 18系列成员亮相,供应链预测基础款定价1.5万 - 2万元,顶配或达2.5万元,若定价低于1.2万元,可能抢占三星30%市场份额 [1] - 摩根士丹利认为苹果通过“高端锚定策略”巩固品牌溢价,折叠屏iPhone或成2026年消费电子最大爆点 [1] - 中信证券指出UTG超薄玻璃与屏幕技术、铰链与精密结构件、材料(碳钎维、钛合金、液态金属、动态自愈材料)为充分受益板块 [1] 国产算力相关 - 北京数字经济算力中心落成,集成千P级国产算力集群,PUE指标1.146,覆盖算力、模型、数据全栈国产化,华为、海光等9家厂商完成11款芯片兼容性认证,标志国产芯片在高性能AI场景的成熟度提升 [1] - DeepSeek开源MoE模型代码库,降低算力需求,促进大模型向终端迁移,其文章揭晓V3/R1推理系统关键秘密,假定GPU租赁成本为2美元/小时,总成本为87072美元/天,若所有tokens按DeepSeek R1定价计算,理论上一天总收入为562027美元/天,成本利润率为545% [2] - 券商普遍认为国产算力产业链(芯片/IP、服务器、数据中心)将受益于政策支持与国产化加速,中金报告预计2025年国产AI芯片市场规模增速超50% [2] 《线索早知道》相关 - 今晚10点发布的《线索早知道》专栏整理了关于“苹果折叠屏”“国产算力”等题材的潜力名单 [3] - 《线索早知道》是越声理财推出聚焦A股投资线索的盘前资讯,每个交易日前晚上10点推送,去年12月抓住机器人,节前抓住机器人2.0行情,节后重点推荐多个DeepSeek相关公司 [5]
DeepSeek的545%利润率,是对算力的核弹吗?
华尔街见闻· 2025-03-02 20:40
文章核心观点 - DeepSeek在开源周展示出高成本利润率,引发对其利润率解读、对算力产业链、云产业链、大模型同行及行业生态影响的讨论,揭示了infra优化潜力,推动行业变革,预示高效、低成本、竞争激烈的AI时代到来 [1][28] 如何解读这个利润率 - DeepSeek官方公布的545%利润率是特定条件下的理论计算,真实利润率没这么夸张 [6] - 科技博主180K解读,R1模型利润率约85%,按V3定价利润率降至70%左右,仍很可观 [7] - 通过对比Anthropic利润率可知,OpenAI和Anthropic虽成本控制不如DeepSeek,但凭借高定价和慷慨客户也能实现类似高利润率,OpenAI常被报道“亏损”是因融资时投资者关注财务会计盈亏 [7] 是否是对算力的核弹 - DeepSeek案例证明在硬件条件有限(使用H800)下,通过极致infra优化可实现高算力利用率和性能,对算力产业链影响大 [8] - 科技博主180K认为“有效算力”重要性将凸显,国产芯片上限有望提升 [8] - 科技博主信息平权认为“杰文斯悖论”生效,算力效率提升会刺激应用场景出现,推动算力需求增长,巴克莱银行预测到2026年业界资本支出可支撑“12000 + 个ChatGPT级别的应用” [9] - 短期内算力需求逻辑可能受质疑,海外大厂CIO或CFO可能面临解释ROI低于DeepSeek的压力 [10] - 知名投资人段永平赞同黄仁勋观点,认为DeepSeek创新不会减少算力需求,R1激发市场对高效AI模型追求,推动行业发展 [11][12] - 国外科技博主Zephyr认为DeepSeek已将英伟达“击倒”,其算力利用率满足全球AI需求绰绰有余 [13] 对云产业链意味着什么 - DeepSeek让AI云计算与传统云计算相似性更明显,面临“低峰期闲置率”和“高峰期稳定性”挑战 [3][19] - 科技博主180K认为云计算规模效应更显著,用户数量正外部性明显,云厂商竞争优势可能变化,有自身业务的云厂商更具成本优势 [19] - 云计算利润率有提升空间,私有云部署吸引力可能下降,普通云计算/AI应用需为高强度用户并发预留更多空间,利润率可能下降 [20] 对大模型同行意味着什么 - DeepSeek开源和技术披露为行业树立新标杆,推理成本“底线”被大幅拉低,可能引发新一轮价格战,同行面临降价压力 [4][21] - DeepSeek为推理团队提供优化路径和目标,后续压力加大,OpenAI高价订阅模式面临挑战 [22][23] 对生态意味着什么 - DeepSeek专注基础模型和前沿创新,通过开源技术吸引业界构建to B和to C业务,形成完整产业上下游 [5][24] - 科技博主极客公园表示生态合作伙伴盈利空间增大 [25] - 后续模型架构差异化可能成竞争关键,DeepSeek开源降低社区复现推理系统难度,利于生态繁荣 [26][27] - 科技博主180K表示行业可能开始卷Infra,Infra重要性和估值提高 [28]
两台运行“满血版”DeepSeek,第四范式推出大模型推理一体机解决方案SageOne IA
IPO早知道· 2025-02-28 12:11
此 外 , 一 体 机 解 决 方 案 还 集 成 了 智 能 算 力 池 化 技 术 , 在 支 持 DeepSeek V3/R1 、 QWen2.5 、 LLama3.3等主流大模型的基础上,企业可灵活在满血版和多个蒸馏模型之间切换,GPU利用率提升 30%以上,推理性能平均提升5-10倍;同时内置大模型应用开发平台,并搭载了丰富的开箱即用AI 应用套件,帮助开发者高效开发企业级的生成式AI应用,让企业享受高效的大模型应用服务,加速AI 智能化落地进程。 具体来讲:SageOne IA大模型推理一体机解决方案,具备三大核心优势: 1) 智能算力池化,资源动态调度,突破物理机架构 大模型应用成本"一降再降"。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,第四范式日前推出大模型推理一体机解决方案SageOne IA,进一步减低了大模 型推理成本。如满血版的DeepSeek V3/R1仅需要两台一体机即可使用。 方案支持企业按需选择DeepSeek V3/R1、QWen2.5、LLama3.3等主流大模型,还预装了丰富的 AI应用套件,包括AIG ...