外网热议:为什么 DeepSeek 大规模部署成本低,但本地运行昂贵?
程序员的那些事·2025-06-09 10:14
以下文章来源于MaxAIBox ,作者Max MaxAIBox . MaxAIBox.com 汇集优秀 AI 工具,探索 AI 无限可能 最近刷 HackerNews,看到了这篇引发热议的技术文章。 英文作者工程师小哥 Sean Goedecke 目前在 GitHub 就职。 说明:本文讨论的并非在个人电脑上运行模型,而是假设你拥有所有所需的 GPU 时,如何将模型用于个人用 途(即批量处理与吞吐量之间的权衡)。 为什么 DeepSeek 大规模部署成本低,但本地运行昂贵? 为何 DeepSeek-V3 模型在大规模部署时看似快速且成本低廉,然而在本地运行却既缓慢又昂贵?为何部分 AI 模型响应迟缓,但一旦启动就运转迅速? AI 推理服务提供商常提及吞吐量与延迟之间的根本性权衡:对于任何给定模型,要么以高吞吐量、高延迟的 方式提供服务,要么以低吞吐量、低延迟的方式运行。 实际上,某些模型天生对 GPU 利用率低,以至于在实践中,为了获得可行的吞吐量,必须以高延迟的方式提 供服务(例如 DeepSeek-V3)。 3、 该令牌大小的矩阵进入队列; 4、 GPU 服务器从队列中提取批次(例如 128 个),将它们 ...