百舸异构计算平台

搜索文档
DeepSeek“引爆”国产芯片,昆仑芯单机部署满血版,价格最低
半导体行业观察· 2025-02-26 09:07
文章核心观点 - DeepSeek性能出色且成本低,访问量暴涨,其落地有三种方式,昆仑芯能支持单机部署满血版DeepSeek R1,与百度智能云结合为企业和开发者提供便捷体验,DeepSeek崛起也为国产芯片带来更多可能 [1][3][7][13] DeepSeek情况 - DeepSeek过去两个月席卷全球,效果媲美OpenAI - o1模型,还将推理成本压缩到极致,获行业领先专家赞美 [1] - DeepSeek访问用量急速上升,成为最快突破3000万日活跃用户量的应用程序,开源特性催生本地部署需求 [1] DeepSeek落地方式 使用DeepSeek官方服务 - 通过官网或APP访问,但因访问流量大增,算力配置不能满足需求,使用体验差 [3] 使用云供应商服务 - 百度云、AWS、阿里巴巴、腾讯云、华为云等提供DeepSeek V3/R1服务,还将其植入产品矩阵 [3] - 2月3日百度智能云千帆平台上线满血版DeepSeek - R1和DeepSeek - V3模型,提供超低调用价格和限时免费体验 [3] - 2月16日百度搜索和文心智能体平台宣布全面接入DeepSeek和文心大模型深度搜索功能,搜索用户可免费使用,开发者能调用模型创建并调优智能体 [3] 本地部署DeepSeek - 本地部署在隐私、性能、便捷性、控制权和成本方面优于前两种方式,各地企业、政府和私人纷纷部署 [4] - 开发者选择硬件困难,本土芯片公司纷纷推出支持DeepSeek的设备,部分设备仅支持参数量少的“蒸馏”模型或需多机协同部署“满血版” [4] - 单机部署满血版DeepSeek R1成本更低、数据更安全、部署更快,但需要高显存和算力的芯片 [5] 昆仑芯情况 - 昆仑芯(北京)科技有限公司前身为百度智能芯片及架构部,2021年4月独立融资,团队在AI加速领域深耕十余年 [7] - 2025年2月20日,昆仑芯P800成为首款支持单机部署DeepSeekV3/R1671B满血版大模型的国产AI芯片,率先支持8bit推理,效率更高 [7] - P800提供8卡与16卡配置,8卡配置实现2437 tokens/s吞吐,16卡版本最高每秒处理4825个token,性能领先得益于大显存设计 [7][8] 百度智能云情况 - 2月初百度智能云成功点亮昆仑芯三代万卡集群,突破硬件扩展性瓶颈,采用创新散热方案,对模型进行分布式训练优化 [9] - 百度智能云2021年推出百舸异构计算平台,现升级到4.0,为昆仑芯万卡集群提供容错和稳定性机制,确保有效训练率达98% [10] - 百舸建设超大规模HPN高性能网络优化拓扑结构,降低通信瓶颈,提高带宽有效性 [10] - 公有云服务方面,百度智能云千帆大模型平台为客户提供DeepSeek API调用服务,价格低至官方刊例价3折 [10] - 针对本地部署需求,百度智能云推出搭载昆仑芯P800的百舸、千帆一体机产品,支持单机一键部署DeepSeek R1/V3全系列模型 [10] - 百舸DeepSeek一体机单机高吞吐,支持500人团队并发使用,推理延迟低,平均50毫秒以内,运维成本最高降低80%,价格国内最低,从开箱到服务上线最快0.5天 [11]