Workflow
NVIDIA RTX Pro 2000
icon
搜索文档
4卡96GB显存暴力输出!英特尔锐炫Pro B60和长城世恒X-AIGC工作站评测
新浪财经· 2026-02-10 20:41
行业竞争格局 - 凭借CUDA生态护城河,NVIDIA在AI领域一度拥有定价权,但其绝对垄断地位正被打破 [1] - 硬件巨头Intel正快速向“全栈AI公司”转型,旨在打破NVIDIA的垄断 [1] 英特尔软件生态与战略 - 英特尔于2019年发布了oneAPI跨架构编程模型,旨在让一套代码可在CPU、GPU、NPU间通用,降低开发者迁移成本 [1][53] - oneAPI允许开发者通过其迁移工具(SYCLomatic)将原本仅能在NVIDIA CUDA环境下运行的代码快速转换到英特尔硬件上,为Arc系列显卡运行主流大模型打下软件基础 [4][55] 英特尔Arc Pro B60产品规格 - 该产品基于第二代Xe2架构(Battlemage),采用完整的BMG-G21 GPU核心,拥有20个Xe2核心、2560个FP32单元、20个光追单元和160个XXM AI引擎 [6][57] - 每颗BMG-G21 GPU可提供12.28 TFLOPS的FP32浮点性能以及197 TOPS的INT8 AI性能 [8][59] - 显卡配备192bit位宽、19Gbps GDDR6显存,显存带宽高达456GB/s,显存容量为24GB [9][59] - 与更贵的NVIDIA RTX Pro 2000相比,英特尔Arc Pro B60的显存容量和显存带宽均高出50% [9][59] - NVIDIA同等显存规格的AI加速卡,售价往往是Arc Pro B60的3至4倍 [9][51][59] 高性价比AI推理解决方案 - 随着DeepSeek等大规模MoE模型爆发,英特尔Arc Pro B60成为目前市面上构建96GB(4卡)到192GB(8卡)超大显存池最具性价比的方案 [9][59] - 对于想要组建高性能本地LLM推理站的企业而言,售价约5000元的Arc Pro B60 24GB是更具性价比的选择 [50][98] - 该产品能让用户以入门级NVIDIA显卡的价钱,获得接近旗舰级NVIDIA显卡的显存容量和推理性能 [52][100] 大模型推理性能测试 (GPT-OSS-120B) - 测试平台为长城世恒X-AIGC工作站,搭载4张英特尔Arc Pro B60 24GB显卡,共计96GB显存 [11][61] - 测试模型为OpenAI开源的千亿级参数模型GPT-OSS-120B(总参数1170亿),使用MXFP4量化压缩 [27][76] - 在并发数为1的测试中,请求成功率为100%,系统运行非常稳定 [30][79] - 并发数为1时,首字延迟(TTFT)均值仅为91.37毫秒,显示预填充阶段爆发力极强 [31][80] - 并发数为1时,平均逐词延迟(ITL)为32.01毫秒,输出吞吐量为184 tokens/秒 [32][81] - 当并发数从1增至10时,系统吞吐量呈指数级增长,从184 tokens/秒飙升至613 tokens/秒 [36][85] - 并发数达到60后,吞吐量达701 tokens/秒,基本达到系统极限,请求数增至100后总吞吐量仅增加约1% [36][85] - 高负载下,计算核心填充更满,单步推理效率因批处理效应略微提升,ITL在并发数超过30后随并发增加轻微下降 [38][87] - 根据工作站约700 tokens/秒的极限性能计算,可承受约70个用户同时请求,按1:15活跃比估算,可支持约1000人同时在线聊天 [40][89] 大模型推理性能测试 (Llama-3.1-8B) 及对比 - 与同价位的NVIDIA RTX Pro 2000 16GB相比,Arc Pro B60 24GB展现出碾压性优势 [46][95] - 同样是4卡并行运算(Llama-3.1-8B-Instruct FP8),4张Arc Pro B60 24GB比4张RTX Pro 2000 16GB性能强约50% [46][49][95][98] - 在并发数为100的高负载下,凭借96GB大显存,英特尔方案吞吐量达2110 tokens/秒,而同等价位的NVIDIA方案仅为1279 tokens/秒,英特尔领先幅度超过65% [49][98] - 96GB显存意味着可本地运行参数量更大的模型,如千亿参数的GPT-OSS-120B、LLaMA-3-130B,而4张RTX Pro 2000 16GB合计64GB显存相对尴尬,仅能运行700亿参数模型,面对千亿级模型需极致量化压缩且无法支持训练和微调 [46][47][95][96]