Workflow
异构计算架构
icon
搜索文档
算力需求井喷,英特尔至强6如何当好胜负手?
半导体芯闻· 2025-06-27 18:21
AI算力架构变革 - AI基础设施正从"GPU为中心"转向"多设备协同"的异构计算架构,传统GPU算力架构面临边际效能递减挑战[2][7] - 大模型负载需要CPU和GPU协同配合,涉及数据采集、清洗、标注、RAG等多个环节,要求企业同步升级两类算力资源[4][5] - 英特尔提出基于异构的四大解决方案:数据预处理CPU流水线(训练性价比提升10%)、投机执行CPU+GPU方案、KVCache QAT压缩优化(Qwen2.5-14B首词延迟下降)、稀疏感知MoE CPU卸载(DeepSeek-R1并发数从11提升至27)[6][7] 至强6处理器技术突破 - 至强6采用模块化设计,I/O与计算模块解耦,支持灵活扩展(最高288核),BIOS框架升级实现性能核与能效核动态调度[10] - 性能飞跃:内存带宽提升2.3倍(12通道DDR5达6400MT/s),PCIe带宽提升1.2倍,跨插槽通信提升1.8倍,支持CXL 2.0[12][13] - 内置硬件加速模块:单个QAT引擎可替代6.8个CPU核心,4个QAT模块释放32核资源;AMX加速器提升AI任务效率[13] - 场景性能:6900系列性能提升2倍,能效比提升1.4倍;云计算场景实现2倍核心密度,60%能效提升,30% TCO节省[13][14] 芯云协同实践 - 英特尔与火山引擎合作推出第四代ECS实例,CPU频率提升20%,网络存储带宽最大提升100%,IOPS/PPS提升30%[18][20] - RAG应用全链路优化:利用AMX加速器使任务耗时最多减少90%,CPU推理吞吐能力提升114%[20][22] - 双单路架构增强稳定性,新增支持Jumbo Frame、TDX机密计算及新型SSD云盘[20] 本地化部署方案 - 推出锐炫GPU+至强CPU的高性价比一体机,提供纯本地部署(数据不出域)和云边协同部署两种架构[24][27] - 锐炫Pro B60配备24GB显存,支持32K-128K token上下文窗口,通过EAP软件封装实现模型"零改造"迁移[28] - 集成Grafana监测系统,提供完整可观测性,支持与企业现有运维体系集成[28]
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 12:18
产品性能与定价 - 褐蚁HY90一体机搭载671B参数FP8精度原版DeepSeek模型,价格降至14.9万元级别,较传统百万级设备成本降低一个数量级[1][5][19][31] - 推理速度达22 tokens/s,优于DeepSeek官网表现,数学题等复杂任务仍保持20+ tokens/s[4][10][16] - 采用双路AMD 9005系列CPU+消费级GPU异构架构,1TB/s高内存带宽突破"内存墙",硬件成本控制在10万元内[24][25] 技术架构与创新 - 自主研发推理引擎框架,FP8精度下Decode阶段速度稳定20+TPS,128K上下文仍保持15TPS,16K上下文首字延迟≤80秒[26][27] - 支持INT4量化技术,Decode速度提升至28TPS(1K上下文),预留1.5T参数模型扩展能力[26][28] - 通过参数压缩与算法优化,实现满血FP8精度模型部署,未来将支持MoE类模型[27][29] 公司背景与团队 - 创始人季宇为清华90后博士,CCF优博奖得主,曾任华为昇腾AI芯片编译器专家,入选"天才少年"计划[6][35][38][39] - CTO余洪敏为中科院博士,主导过百度昆仑芯、华为车载昇腾芯片等10余款芯片流片与量产[40][41][42] - 获智谱AI、峰瑞资本等明星机构投资,成立两年即实现技术突破[42][43][44] 行业影响 - 改写行业格局,将满血671B模型部署成本从百万级降至10万元级,同类低配方案价格区间原为20-40万元[31][32] - 推动大模型在智能客服、数据分析等场景的普惠应用,为中小团队提供高扩展性AI部署方案[32][33]