Scaling law

搜索文档
Llama 3 发布,亮点在于 “小” 模型
晚点LatePost· 2024-04-20 00:05
核心观点 - Meta推出的Llama 3系列大模型通过大幅增加训练数据量(80亿参数模型使用15万亿Token)和算力投入(2个2.4万张H100集群),显著提升了小模型性能,80亿参数模型在多项评测中超过同级竞品,数学和编程能力翻倍[3][4][5] - 行业正在打破传统的Scaling Laws规律,Meta、DeepMind等公司通过调整数据/参数/算力配比,探索更高效的训练方式,Meta的训练数据量达到DeepMind建议值的75倍[5][6] - 小模型竞赛成为行业新趋势,Meta、Google、Anthropic等公司均在优化小模型性能以降低推理成本,Meta计划进一步开发10亿甚至5亿参数模型[7] 模型性能对比 - Llama 3 80亿参数模型在MMLU(68.4 vs 53.3/58.4)、GPQA(34.2 vs 21.4/26.3)、HumanEval(62.2 vs 30.5/36.6)、GSM-8K(79.6 vs 30.6/39.9)、MATH(30.0 vs 12.2/11.0)等测试中全面领先Gemma和Mistral同级模型[5] - Llama 3 700亿参数模型在MMLU(82.0)、HumanEval(81.7)、GSM-8K(93.0)等测试中与Gemini Pro 1.5(81.9/71.9/91.7)和Claude 3 Sonnet(79.0/73.0/92.3)相当或更优[5] 训练方法突破 - Meta采用超量训练策略:80亿参数模型使用15万亿Token数据,是Google Gemma(6万亿)的2.5倍、行业常规水平(1-2万亿)的7-15倍[3][5] - 算力投入巨大:使用H100训练130万小时(相当于5000张H100连续工作11天),实际仅用2天多完成(借助2个2.4万张H100集群)[6] - 正在训练4050亿参数模型,初步评测达GPT-4水平[5] 行业趋势 - 小模型本地化部署成为降低成本的关键路径,80亿参数Llama 3性能接近GPT-3.5且可在手机/电脑运行[5][7] - 训练策略分化:微软用GPT-4生成高质量数据训练小模型,Meta则依靠算力优势直接加大训练强度[7] - Meta计划2024年将H100数量扩至35万张(单价3万美元),远超同业数万张的规模[7]