Workflow
OpenAI自曝GPT-4.5训练内幕:数据效率是关键,预训练仍然有用
Founder Park·2025-04-14 19:34

GPT-4.5研发历程 - 项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作,几乎全员上阵[7][8] - 研发耗时远超预期,原计划耗时与实际相差甚远[16][17] - 目标为打造比GPT-4聪明10倍的模型,最终性能提升达到预期[16] 技术挑战与突破 - 10万卡计算集群暴露基础设施深层次故障,故障率高达40%进度才被发现[8][18][19] - 新一代硬件部署初期系统运行面临诸多未被充分认知的技术挑战[26] - 通过协同设计打造更强大技术栈,如今仅需5-10人即可复刻GPT-4级别模型[8][20] 数据效率与算法创新 - 未来AI发展关键从算力转向数据效率,需用相同数据学到更多知识[8][24] - Transformer架构在数据压缩方面高效,但洞察深度有限[24] - 算法改进产生叠加效应,每次提升10%-20%可显著提高数据效率[43] 模型训练范式转变 - 计算资源不再是主要瓶颈,数据成为制约因素[28] - 预训练模型性能提升可预测,但智能提升路径难以量化[31][32] - 1000万块GPU同步预训练可能采用去中心化模式,类似大脑各部分运作[42] 团队协作与系统优化 - 机器学习与系统团队密切合作,不存在工作界限[34] - 采用渐进式改进策略,严格验证每个改进在不同规模下的扩展性[35] - 理想系统尚未实现,当前仍需调和资源与理想化设计的差异[39] 理论基础与行业影响 - 智能本质是压缩,数据长尾效应让Scaling Law持续有效[47][48] - 预训练通过压缩数据发现抽象联系,与推理能力互补[45] - 无监督学习有效性基于压缩原理,更大规模训练带来更高压缩率[46][48]