异构集群
搜索文档
并行科技COO乔楠:英伟达并非断崖式领先,国产芯片突围需摒弃对「峰值性能」的过度追求丨智算想象力十人谈
雷峰网· 2025-10-22 18:57
国产GPU市场与芯片厂商竞争格局 - 国产GPU市场年增长率高达50%,但厂商需找到细分赛道才能存活[3][13] - 当前国内有十几家国产GPU厂商,在未出海的情况下市场无法支撑所有玩家[13] - 行业共识是英伟达存在领先优势,但领先时间可能仅为一到两年,而非断崖式领先[10] 算力行业核心挑战与资源错配 - 算力行业面临“重资产+快折旧”属性,设备折旧周期仅5年,但很多项目需两三年时间才能将利用率提升至30%,导致设备刚跑顺即过时[4][18] - 行业门槛低导致许多进入者不懂技术选型,出现买错算力规格、配错应用场景等问题,造成资源闲置[4][18] - 国内算力市场早期最大问题是组网,但具备组网能力的团队不超过20个,且主要集中于互联网大厂[5] 技术服务能力与生态建设关键性 - 技术服务能力是算力业务可持续运营和发展的关键,案例显示技术缺陷可导致长达12小时的云服务宕机[5][6] - 芯片行业生态建设至关重要,英特尔芯片组人数与生态建设人数比例为1:5,生态投入1人可撬动业内10人[12] - 国产芯片需摒弃对峰值性能的过度追求,转向系统化提升实际应用性能,例如H20峰值性能仅为H100的五分之一,但因显存容量和带宽高而受欢迎[12] 国产芯片优化与差异化竞争策略 - 并行科技通过“算力买手”模式实现1小时内为客户匹配最合适算力资源,提升供需匹配效率[7][25] - 公司打造Paramon应用运行性能分析平台,像“CT扫描仪”一样诊断硬件设计和软件适配问题[15] - 过去一年已将上百款应用移植到国产GPU上,取得不错成效,具备一定竞争力[15] - 通过算力网络模式接入47家智算中心和15家超算中心,并通过适当改造集群将工作负载从10%提升至60%[19][20] 智算云市场竞争格局与细分赛道 - 大厂凭借资金实力和全链路技术储备在智算云场景占天然优势,但混合云、政府云等细分领域为专业玩家提供生存空间[7][24] - 超算经验可复用于智算领域,从零开始的智算团队需3到5年run up,而有超算经验的团队一两个月即可落地[23] - 云业务遵循马太效应,但最终不会只有一两家公司胜出,细分领域的领头羊能够存活[24] 算力效率评估与行业发展趋势 - 评估集群效率时,MFU是主要指标但非唯一指标,需结合整体利用率,例如100节点集群只用到20个节点,即使MFU达90%整体效率仅18%[35] - 算力优化的终局不是最大程度利用计算资源,而是打通产业链,从IDC到能源每个点优化到极致[36] - 算力行业具有周期性,存在几年供过于求、几年供不应求的波动,因建设滞后但出清时间长导致错配[37] - 硬件成本按摩尔定律每年下降25%,但大部分成本下降来自软件栈成本下降,例如DeepSeek百万Token成本翻番下降[16]