NVIDIA RTX Pro 2000 - 财报，业绩电话会，研报，新闻

NVIDIA RTX Pro 2000

搜索文档

4卡96GB显存暴力输出！英特尔锐炫Pro B60和长城世恒X-AIGC工作站评测

新浪财经· 2026-02-10 20:41

行业竞争格局 - 凭借CUDA生态护城河，NVIDIA在AI领域一度拥有定价权，但其绝对垄断地位正被打破 [1] - 硬件巨头Intel正快速向“全栈AI公司”转型，旨在打破NVIDIA的垄断 [1] 英特尔软件生态与战略 - 英特尔于2019年发布了oneAPI跨架构编程模型，旨在让一套代码可在CPU、GPU、NPU间通用，降低开发者迁移成本 [1][53] - oneAPI允许开发者通过其迁移工具（SYCLomatic）将原本仅能在NVIDIA CUDA环境下运行的代码快速转换到英特尔硬件上，为Arc系列显卡运行主流大模型打下软件基础 [4][55] 英特尔Arc Pro B60产品规格 - 该产品基于第二代Xe2架构（Battlemage），采用完整的BMG-G21 GPU核心，拥有20个Xe2核心、2560个FP32单元、20个光追单元和160个XXM AI引擎 [6][57] - 每颗BMG-G21 GPU可提供12.28 TFLOPS的FP32浮点性能以及197 TOPS的INT8 AI性能 [8][59] - 显卡配备192bit位宽、19Gbps GDDR6显存，显存带宽高达456GB/s，显存容量为24GB [9][59] - 与更贵的NVIDIA RTX Pro 2000相比，英特尔Arc Pro B60的显存容量和显存带宽均高出50% [9][59] - NVIDIA同等显存规格的AI加速卡，售价往往是Arc Pro B60的3至4倍 [9][51][59] 高性价比AI推理解决方案 - 随着DeepSeek等大规模MoE模型爆发，英特尔Arc Pro B60成为目前市面上构建96GB（4卡）到192GB（8卡）超大显存池最具性价比的方案 [9][59] - 对于想要组建高性能本地LLM推理站的企业而言，售价约5000元的Arc Pro B60 24GB是更具性价比的选择 [50][98] - 该产品能让用户以入门级NVIDIA显卡的价钱，获得接近旗舰级NVIDIA显卡的显存容量和推理性能 [52][100] 大模型推理性能测试 (GPT-OSS-120B) - 测试平台为长城世恒X-AIGC工作站，搭载4张英特尔Arc Pro B60 24GB显卡，共计96GB显存 [11][61] - 测试模型为OpenAI开源的千亿级参数模型GPT-OSS-120B（总参数1170亿），使用MXFP4量化压缩 [27][76] - 在并发数为1的测试中，请求成功率为100%，系统运行非常稳定 [30][79] - 并发数为1时，首字延迟（TTFT）均值仅为91.37毫秒，显示预填充阶段爆发力极强 [31][80] - 并发数为1时，平均逐词延迟（ITL）为32.01毫秒，输出吞吐量为184 tokens/秒 [32][81] - 当并发数从1增至10时，系统吞吐量呈指数级增长，从184 tokens/秒飙升至613 tokens/秒 [36][85] - 并发数达到60后，吞吐量达701 tokens/秒，基本达到系统极限，请求数增至100后总吞吐量仅增加约1% [36][85] - 高负载下，计算核心填充更满，单步推理效率因批处理效应略微提升，ITL在并发数超过30后随并发增加轻微下降 [38][87] - 根据工作站约700 tokens/秒的极限性能计算，可承受约70个用户同时请求，按1:15活跃比估算，可支持约1000人同时在线聊天 [40][89] 大模型推理性能测试 (Llama-3.1-8B) 及对比 - 与同价位的NVIDIA RTX Pro 2000 16GB相比，Arc Pro B60 24GB展现出碾压性优势 [46][95] - 同样是4卡并行运算（Llama-3.1-8B-Instruct FP8），4张Arc Pro B60 24GB比4张RTX Pro 2000 16GB性能强约50% [46][49][95][98] - 在并发数为100的高负载下，凭借96GB大显存，英特尔方案吞吐量达2110 tokens/秒，而同等价位的NVIDIA方案仅为1279 tokens/秒，英特尔领先幅度超过65% [49][98] - 96GB显存意味着可本地运行参数量更大的模型，如千亿参数的GPT-OSS-120B、LLaMA-3-130B，而4张RTX Pro 2000 16GB合计64GB显存相对尴尬，仅能运行700亿参数模型，面对千亿级模型需极致量化压缩且无法支持训练和微调 [46][47][95][96]