Workflow
icon
搜索文档
计算机行业:大模型时代的异构计算平台
百度网讯· 2025-01-24 18:18
报告行业投资评级 未提及 报告核心观点 大模型时代已开启,其带来效果飞跃和通用性提升,爆款应用拉动训练需求,但超大模型训练对基础设施有高要求,需从AI框架解决技术挑战,采用多种并行策略,同时软硬件结合联合优化,大模型发展也推动基础设施不断演进 [5][8][11][19] 各部分总结 GPT - 3开启大模型时代 - 大模型带来质的效果飞跃,如GPT - 3的1750亿模型用32条样本即可达BERT效果,提升20% - 40% [5][7] - 大模型使AI通用性显著提升,超大规模模型具备处理各种新任务的通用能力,如数学计算、阅读理解等 [8][9] - 爆款应用如AIGC文生图、ChatGPT拉动大模型训练需求,训练需足够数据与算力,模型参数规模不断增大 [11][12][13] 超大模型训练对基础设施的需求 - 面向大模型有从框架到集群的全栈基础设施全景图,包括AI框架、加速库、资源管理层、硬件资源等 [17] - 大模型参数量与计算量激增带来算力墙和存储墙问题,需分布式加速和更多存储空间,对模型和数据进行切分 [20] - 算力墙通过数据并行解决,对数据集切分,不同卡模型相同数据不同,需梯度同步,目前主要采用同步更新策略 [21][22] - 存储墙可通过流水线并行、张量并行、分组参数切片解决,流水线并行可调整mini - batch执行顺序减少气泡,张量并行将单层操作切分到多卡,分组参数切片可节省显存 [23][28][34] - 大模型加速可通过减少计算量实现,如条件计算、混合专家模式,飞桨4D混合并行训练采用多种并行策略 [37][40][44] - 大模型训练对算力和通信有不同需求,单机硬件选型要算力高、机内多卡通信能力强,集群网络设计采用8导轨优化的三层CLOS架构 [46][47][50] 软硬件结合的联合优化 - 基于静态图的多后端加速架构包括图接入、后端抽象、图优化、图转换、多后端、算子库等组件 [55][56] - 动态图与静态图各有优劣,可通过基于Python AST的静态转换、Tracing & Symbolic Tracing融合,但Python语言灵活性使完整转换困难,还可采用基于AST的代码替换、TorchDynamo等方案 [58][59][61] - 后端加速可进行计算执行时间分析,通过算子融合和算子实现优化加速计算,算子融合可去掉kernel launch时间等,算子实现优化有手写算子、半自动化模板、基于搜索的优化三种方案 [69][71][76] - 通信优化可解决交换机哈希冲突、All2All加速、使能Infiniband等问题,还可实现端到端自动化任务切分与放置,基于cost model搜索优化 [80][85][90] 大模型发展推动基础设施演进 - 大模型演进趋势是参数规模持续增加、算力需求增长、多模态训练和异构资源使用 [106][107] - 集群与业务演进面临多组异构集群和多类用户作业的放置问题,可基于统一视图的端到端优化,智能化自动选择最优并行策略 [109][111][112] - 百度百舸·AI异构计算平台2.0适用于多种业务场景,具备AI容器、调度、加速、存储、计算等功能 [115][116]
百度打造“AI质检员”帮助企业降本增效
百度网讯· 2025-01-16 15:42
核心观点 - 百度智能云与英特尔合作推出的工业智能质检方案,通过AI技术赋能工业质检,帮助企业降本增效,推动工业企业的数字化转型与智能化改造 [2][3][11] 行业背景与挑战 - 工业质检是保障产品质量的重要环节,传统人工质检存在效率低、精度差、成本高等问题,AI技术的引入显著提升了质检效率、精度和成本效益 [2] - 工业智能质检面临多重挑战,包括应用标准严苛且碎片化、边缘端部署的特殊性、未知场景和缺陷识别难、少样本场景下的快速冷启动、高精度语义分割不足、深度学习模型推理性能要求高等 [5][6][7][8][9][10] 解决方案与技术架构 - 百度智能云工业智能质检方案基于百度工业视觉智能平台,采用英特尔® 至强® 可扩展处理器和英特尔® 酷睿™ 处理器,构建了云边端一体化的工业AI底座,实现数据与AI能力的闭环流通 [11][12][21] - 方案通过边缘端的英特尔® 酷睿™ 处理器进行AI推理,并利用英特尔® OpenVINO™ 工具套件优化性能,满足工业质检对精度和速度的要求 [3][23] - 方案支持多行业场景,包括3C质检、化纤质检、纺织质检、汽车质检等,提供定制化的硬件和软件支持 [14][16] 技术优势与创新 - 方案实现了零/少样本缺陷数据冷启动,缩短数据收集与迭代周期,支持无监督新缺陷发现算法 [20] - 通过深度学习技术,方案能够高效识别复杂场景和未知缺陷,并提供高精度检测分割能力 [20] - 英特尔® 至强® 可扩展处理器和英特尔® 酷睿™ 处理器提供了强大的算力支持,加速AI模型训练与推理 [21][22] 应用案例与效果 - 百度智能云工业智能质检方案已在小仙炖燕窝原料杂质智能挑拣等场景中成功应用,提升了质检精度与效率,优化了工艺,提高了产能与品质 [3][29][33] - 在小仙炖案例中,方案实现了0.05mm挑拣精度,杂质拣出率超过80%,损耗率仅为2%,挑拣速度达到700g/h [33] 未来展望 - 百度与英特尔将继续深化合作,聚焦视觉技术应用的痛点,推动云边端一体化计算设备的应用,赋能企业的AI应用服务,助力工业企业提升生产效益 [36] 公司背景 - 百度是全球领先的AI公司,提供全栈AI技术,致力于通过技术创新推动工业智能化 [37] - 英特尔作为行业引领者,致力于推进半导体设计与制造,赋能云、网络、边缘和计算设备的智能化 [38]