Workflow
训推一体化规范
icon
搜索文档
对话联想基础设施业务群黄山、周韬:单纯算力中心面临生存危机,AI工厂如何重构商业闭环
凤凰网· 2025-12-07 10:08
文章核心观点 - 中国AI产业正从“百模大战”的狂热阶段,向“应用落地”的冷静务实阶段转型,解决效率与商业价值的错配成为关键 [1] - 联想集团通过发布“AI工厂”解决方案、核武级服务器及行业标准,旨在从单一的硬件供应商转型为提供全栈能力的服务商,以应对行业挑战并抓住机遇 [1][10] 算力中心到AI工厂的商业模式重构 - 单纯的算力堆砌已无法满足复杂产业需求,单纯的算力中心如不进化将面临生存危机,可能被提供更完整方案的“AI工厂”降维打击 [2][3] - “AI工厂”是对算力基础设施商业模式的重构,其核心在于提供从咨询、数据治理到AI生产管理的一整套能力,补足客户在数据、设计、生产、迭代维护等方面的短板 [2][3] - 该模式旨在降低中小企业自建团队和基础设施的高昂门槛,帮助其降低应用AI技术的门槛 [2][3] 以标准化解决行业效率困境 - 当前行业缺乏衡量AI训练和推理效率的统一标准,导致企业在能源、时间、投入产出上难以评估 [4] - 联想联合标准院及多家机构发布了训推一体化规范,旨在将服务水平量化并设立标杆,让客户明确好的训推服务的投入产出与效率指标,消除市场信息不对称 [4] 应对GPU快速迭代的硬件创新 - GPU技术发展远超CPU,其快速迭代导致服务器架构设计面临巨大不确定性,定下的架构可能一年后便无法支持新发展 [5][6] - 联想发布了“核武级”服务器联想问天WA8080a G5,采用模块化设计策略,将机箱加大到10U以支持未来超过1000瓦的单GPU功耗,并预留了非常大的余量 [5][7] - 其“1+3+N”架构允许CPU、GPU和背板模块化组合,可在很短时间内适配新的GPU模组,旨在保护客户长期投资,避免因GPU快速迭代导致整机报废 [7] 软件定义算力的技术优化 - 联想发布万全异构智算平台4.0,针对2024年涌现的新技术趋势进行优化 [8] - 平台已将DeepSeek公开的颠覆性模型训练算力优化方法实现在推理中,完成了从2.0到3.0的演进 [8] - 4.0版本重点解决了长序列(如128K序列、20万字上下文)带来的并行策略优化挑战,并创新性地解决了RoCE网络在大规模集群(超过四台机器)中带宽衰减的问题 [8] AI应用商业化的现实挑战 - 尽管技术突飞猛进,但AI应用商业化落地依然充满挑战,目前真正能形成明显收入的垂域应用相对较少,更多应用仍处于开放免费阶段 [9] - 与成熟的移动互联网生态(如爱奇艺付费会员)相比,大模型市场尚未达到大规模客户愿意付费的成熟阶段,应用侧的造血能力仍需时间培育 [9]