关于 AI Infra 的一切 | 42章经

AI Infra的定义与架构 - AI Infra包括硬件和软件两部分硬件指AI芯片 GPU 交换机等设备软件层面类比云计算分为三层 [3][4] - 最底层类似IaaS 解决基础计算通信和存储问题中间层类似PaaS 包含资源调度资源管理等平台 MaaS归属这一层 [4][5] - 最上层近似SaaS应用层但在AI Infra领域更倾向于理解为训练及推理框架的优化层 [5] AI Infra的发展历程 - 第一批AI Infra人如贾扬清李沐陈天奇等有算法背景他们为充分利用GPU而开发AI Infra [6] - 第二批AI Infra人主要推动AI Infra在工业界的规模化应用 [6] - 大模型兴起使AI Infra进入主舞台类似搜索引擎兴起时的机会窗口可能十年二十年才出现一次 [7][9][10] AI Infra与传统Infra的差异 - AI Infra绝对核心是GPU 传统Infra核心是CPU [11] - AI Infra需要更极致更贴合AI特殊需求太阳底下没有太多新鲜事但要做到更极致 [12] - Infra人才相比算法更强调积累算法依赖年轻人而Infra需要长期经验 [14] AI Infra的核心指标与价值 - 线上服务侧关注首字延迟吐字稳定性整体成本训练侧关注每张GPU处理数据量和训练效率 [15] - 优化Infra可显著降低成本例如1万张GPU每月租金1亿利用率提升10%可节省1000万 [18][19] - 小公司可通过对比云厂商方案决定是否自建Infra 云服务商价值在于帮助小公司节省优化成本 [20][21] AI Infra的商业模式 - 第三方公司短期价值在于提供API集贸市场让客户自由选择不同API [22] - 长期来看第三方需与硬件或模型垂直整合才能建立壁垒避免被云厂商或模型公司取代 [24][25] - MaaS服务商可通过与硬件厂商深度合作获得差异化优势类似游戏机独占游戏 [26][27][28] AI Infra与模型效果 - Infra水平影响模型效果优化更好的Infra可在相同算力下多学20%数据提升模型效果 [36][37] - MFU是常见指标但单一指标难判断优劣 DeepSeek的MFU偏低但Infra并不差 [37][38] - DeepSeek成功关键在于选对优化目标即给定推理成本训出最好模型而非传统训练算力优化 [39][40][41] AI Infra的未来趋势 - 当前最重要指标是decoding速度直接影响线上业务成本和强化学习效率 [44] - 多模态仍有突破可能性需实现理解和生成的统一类似GPT-3.5让专用模型退休 [63][64] - 开源模型促进AI Infra发展但也可能阻碍创新如过度优化Llama影响新范式探索 [69] AI Infra的组织架构 - 理想协作是Infra 算法数据团队共同决策大厂中Infra常被视为支持角色缺乏影响力 [46][47][49] - 合理架构应是Infra人设计模型结构数据人负责刷分算法人主攻训练范式革新 [54] - 大厂人才结构错配如DeepSeek Infra工程师多于算法工程师而多数大厂相反 [81][82] AI Infra的创业机会 - 训练侧商业模式难成立因训练方不愿泄露核心竞争力推理侧如加速优化仍有机会 [67][68] - 国产芯片需专门设计模型结构提升性价比 Step 3开源模型支持国产卡商用并达到SOTA [69][73][74] - 多模态成本有望大幅下降理解已不贵但生成仍贵视频生成一年后可能降至几分之一 [75][76][77]