AI Infra的定义与架构 - AI Infra包括硬件和软件两部分 硬件指AI芯片 GPU 交换机等设备 软件层面类比云计算分为三层 [3][4] - 最底层类似IaaS 解决基础计算 通信和存储问题 中间层类似PaaS 包含资源调度 资源管理等平台 MaaS归属这一层 [4][5] - 最上层近似SaaS应用层 但在AI Infra领域更倾向于理解为训练及推理框架的优化层 [5] AI Infra的发展历程 - 第一批AI Infra人如贾扬清 李沐 陈天奇等有算法背景 他们为充分利用GPU而开发AI Infra [6] - 第二批AI Infra人主要推动AI Infra在工业界的规模化应用 [6] - 大模型兴起使AI Infra进入主舞台 类似搜索引擎兴起时的机会窗口 可能十年二十年才出现一次 [7][9][10] AI Infra与传统Infra的差异 - AI Infra绝对核心是GPU 传统Infra核心是CPU [11] - AI Infra需要更极致 更贴合AI特殊需求 太阳底下没有太多新鲜事但要做到更极致 [12] - Infra人才相比算法更强调积累 算法依赖年轻人而Infra需要长期经验 [14] AI Infra的核心指标与价值 - 线上服务侧关注首字延迟 吐字稳定性 整体成本 训练侧关注每张GPU处理数据量和训练效率 [15] - 优化Infra可显著降低成本 例如1万张GPU每月租金1亿 利用率提升10%可节省1000万 [18][19] - 小公司可通过对比云厂商方案决定是否自建Infra 云服务商价值在于帮助小公司节省优化成本 [20][21] AI Infra的商业模式 - 第三方公司短期价值在于提供API集贸市场 让客户自由选择不同API [22] - 长期来看 第三方需与硬件或模型垂直整合才能建立壁垒 避免被云厂商或模型公司取代 [24][25] - MaaS服务商可通过与硬件厂商深度合作获得差异化优势 类似游戏机独占游戏 [26][27][28] AI Infra与模型效果 - Infra水平影响模型效果 优化更好的Infra可在相同算力下多学20%数据 提升模型效果 [36][37] - MFU是常见指标但单一指标难判断优劣 DeepSeek的MFU偏低但Infra并不差 [37][38] - DeepSeek成功关键在于选对优化目标 即给定推理成本训出最好模型 而非传统训练算力优化 [39][40][41] AI Infra的未来趋势 - 当前最重要指标是decoding速度 直接影响线上业务成本和强化学习效率 [44] - 多模态仍有突破可能性 需实现理解和生成的统一 类似GPT-3.5让专用模型退休 [63][64] - 开源模型促进AI Infra发展但也可能阻碍创新 如过度优化Llama影响新范式探索 [69] AI Infra的组织架构 - 理想协作是Infra 算法 数据团队共同决策 大厂中Infra常被视为支持角色缺乏影响力 [46][47][49] - 合理架构应是Infra人设计模型结构 数据人负责刷分 算法人主攻训练范式革新 [54] - 大厂人才结构错配 如DeepSeek Infra工程师多于算法工程师 而多数大厂相反 [81][82] AI Infra的创业机会 - 训练侧商业模式难成立 因训练方不愿泄露核心竞争力 推理侧如加速优化仍有机会 [67][68] - 国产芯片需专门设计模型结构提升性价比 Step 3开源模型支持国产卡商用并达到SOTA [69][73][74] - 多模态成本有望大幅下降 理解已不贵但生成仍贵 视频生成一年后可能降至几分之一 [75][76][77]
关于 AI Infra 的一切 | 42章经
42章经·2025-08-10 22:04