市场地位与技术根基 - 中国AI云市场规模达223亿元,阿里云以35.8%的份额位列市场第一 [2] - 公司基于其市场领先地位,通过AI Infra分享会展示了弹性计算、集群、容器及人工智能平台等技术产品 [4] - 分享会重点展示了公司在AI全栈云计算、10万GPU集群构建及AI落地实践方面的能力 [5] 全栈AI云计算能力 - 公司构建了从IaaS、PaaS到MaaS的全栈AI云计算架构,提供端到端解决方案 [6] - 阿里云在全球29个地域运营89个可用区,其产品生态深度融合了计算、存储与AI能力 [7] - 即将发布的OSS向量Bucket将显著降低存储成本,Tablestore可毫秒级查询千亿级数据 [7][8] - 表格存储服务功能升级,包括新增JSON格式、支持单行多列向量以提升性能并降低成本 [10] 大规模计算集群技术 - 公司运用香农定律,将10万张GPU互联构建成一个统一的巨型运算器,以应对摩尔定律失效的挑战 [11][12][13] - 此技术转变被类比为从单火箭发射到数百火箭捆绑的星舰,工程复杂度呈指数级增长 [14] - 通过亲和性调度机制将任务分配到最接近的GPU,最大限度减少通信延迟 [15][16] - 为应对万卡集群可能每十几分钟发生一次的故障,构建了秒级多层故障监控系统,实现任务无缝迁移 [18] 容器服务与AI应用 - 容器服务作为云上操作系统,在GPU时代支撑AI应用,可将资源利用率显著提升,例如将客户CPU利用率从10%提升至50%以上 [22][23] - 阿里云容器服务ACK像服务器端的安卓系统,向上支撑模型训练、推理等服务,向下调度管理底层资源 [23] - 公司开源的调度器Koordinator通过精细化调度策略提升GPU训练效率 [26] - 公司贡献的协同调度插件核心技术曾被OpenAI采用,以支持其7500节点Kubernetes集群运行GPT-3等大模型训练 [27][28][29] AI落地与企业价值 - 企业应用AI的核心价值在于提升效率与获得能力突破的惊喜 [31] - 公司将AI能力涌现分为三档:预训练决定基础能力、后训练负责专项技能、业务涌现依赖数据飞轮 [32] - 拥有16年历史的DataWorks平台已升级为AI搭档,能处理多模态数据并具备溯源能力 [34] - 当前AI Agent面临结果不确定性、推理过程难可视化及成本偏高等挑战,公司正通过优化沙箱环境等措施着手解决 [36]
阿里云容器服务覆盖AI全流程,团队透露:OpenAI训练GPT时就用了我们的开源能力
量子位·2025-09-19 16:55