算法进步→模型复杂化→硬件升级

搜索文档
字节跳动,重大宣布!成本再降40%!
证券时报· 2025-03-10 20:43
大模型训练成本优化技术 - 字节豆包大模型团队开源COMET技术,可将大模型训练效率提升1.7倍,成本节省40% [1] - COMET已应用于字节万卡集群训练,累计节省数百万GPU小时算力 [1] - COMET通过计算-通信重叠技术压缩MoE专家通信空转时间,解决分布式训练中的通信开销问题 [1] - COMET支持主流大模型,无需对训练框架进行侵入式改动,具有简洁性与通用性 [2] - COMET与DeepSeek的DualPipe方案可结合使用,进一步压缩训练成本 [2] 大模型架构创新 - MoE是当前大模型主流架构,DeepSeek采用自研DeepSeekMoE架构 [1] - DeepSeekMoE整合专家混合系统、改进注意力机制和优化归一化策略,提升效率与计算能力平衡 [1] - 字节提出UltraMem稀疏模型架构,推理速度较MoE提升2-6倍,成本最高降低83% [2] - COMET可与UltraMem结合使用,进一步降低大模型训练成本 [2] 大模型成本下降趋势 - 大模型每百万Token调用成本从2023年120美元降至2024年不到1元人民币,下降99.9% [3] - 未来成本可能再下降99.9% [3] - 成本降低将激活更广泛用户与应用场景,引发对更大参数和更复杂模型的需求 [3] - 算法优化提升单次任务效率,但AI能力边界扩展仍需更大规模模型和复杂计算 [3] 字节跳动AI投入 - 2024年字节跳动AI资本开支达800亿元,接近BAT三家总和(约1000亿元) [4] - 2025年可能进一步上调AI资本开支,扩大算力投资规模 [4] - 启动"筋斗云人才计划实习专项"和"Top Seed人才计划",招募全球顶尖AI人才 [4][5] 行业影响 - 大模型成本缩减降低企业训练与推理门槛 [3] - 算力效率提升可能形成"算法进步→模型复杂化→硬件升级"的正循环 [3] - 头部厂商加入开源大军推动大模型训练成本持续下降 [3]