Scaling Laws

搜索文档
对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”
晚点LatePost· 2024-06-04 18:05
马毅的学术观点与研究方向 - 马毅认为当前AI大模型仅实现局部记忆功能,本质是数据压缩而非真正智能,知识不等于智能,智能应能自我纠正和发现新知识[4][5][51] - 反对Scaling Laws路线,认为单纯扩大数据、算力和参数规模无法实现AGI,现有模型依赖记忆和统计而非因果推理[16][17][22] - 提出智能的简约与自洽原则:规律表达需简洁高效(简约),预测需与外部世界一致(自洽),引用爱因斯坦名言作为理论依据[52][53][54] 白盒大模型技术路径 - 团队开发白盒框架CRATE,用数学解释深度学习网络的压缩过程,目标提升效率并超越黑盒模型[33][34][35] - CRATE在同等参数下性能接近ViT(如CRATE-L参数77.64M,ImageNet-1K准确率71.3%,ViT-S参数22.05M准确率72.4%),新版本CRATE-α通过编码优化已媲美ViT[41][43][47] - 白盒模型可降低试错成本,训练资源仅为经验方法的1/3-1/4,算子更稳定且可解释[38][39][49] 行业现状与批判 - AI行业存在同质化问题,过度追逐Scaling Laws导致研究趋同,国内投入规模大但创新不足[19][21][22] - 批评AI威胁论是"无知或别有目的",指出当前模型无自主意识,危险论调可能阻碍创新[26][28][29] - 工业界更关注实用效果而非理论突破,学界与工业界算力差距加剧模型效果分化[8][9][10] 商业化与教育实践 - 创立忆生科技推动白盒路线产业化,公司定位"下一代智能系统",聚焦完整记忆和闭环学习[83][84][85] - 在香港大学设计AI通识课程,面向所有专业学生教授计算思想,强调正确理解AI基础[81][82] - 认为资源应投向有创造力的年轻人,中国需建立支持年轻团队的创新机制[94][95][96] 历史视角与跨学科启发 - 梳理AI历史发现理论重复现象,如去噪扩散模型本质是250年前的拉普拉斯方法[69][70] - 借鉴神经科学发现,猴子大脑的低维编码与白盒压缩结构相似,闭环反馈机制受生物智能启发[70][71][72] - 区分科学家与工程师思维,前者追求必要性(简约),后者接受冗余(经验试错)[73][74][75]
Llama 3 发布,亮点在于 “小” 模型
晚点LatePost· 2024-04-20 00:05
核心观点 - Meta推出的Llama 3系列大模型通过大幅增加训练数据量(80亿参数模型使用15万亿Token)和算力投入(2个2.4万张H100集群),显著提升了小模型性能,80亿参数模型在多项评测中超过同级竞品,数学和编程能力翻倍[3][4][5] - 行业正在打破传统的Scaling Laws规律,Meta、DeepMind等公司通过调整数据/参数/算力配比,探索更高效的训练方式,Meta的训练数据量达到DeepMind建议值的75倍[5][6] - 小模型竞赛成为行业新趋势,Meta、Google、Anthropic等公司均在优化小模型性能以降低推理成本,Meta计划进一步开发10亿甚至5亿参数模型[7] 模型性能对比 - Llama 3 80亿参数模型在MMLU(68.4 vs 53.3/58.4)、GPQA(34.2 vs 21.4/26.3)、HumanEval(62.2 vs 30.5/36.6)、GSM-8K(79.6 vs 30.6/39.9)、MATH(30.0 vs 12.2/11.0)等测试中全面领先Gemma和Mistral同级模型[5] - Llama 3 700亿参数模型在MMLU(82.0)、HumanEval(81.7)、GSM-8K(93.0)等测试中与Gemini Pro 1.5(81.9/71.9/91.7)和Claude 3 Sonnet(79.0/73.0/92.3)相当或更优[5] 训练方法突破 - Meta采用超量训练策略:80亿参数模型使用15万亿Token数据,是Google Gemma(6万亿)的2.5倍、行业常规水平(1-2万亿)的7-15倍[3][5] - 算力投入巨大:使用H100训练130万小时(相当于5000张H100连续工作11天),实际仅用2天多完成(借助2个2.4万张H100集群)[6] - 正在训练4050亿参数模型,初步评测达GPT-4水平[5] 行业趋势 - 小模型本地化部署成为降低成本的关键路径,80亿参数Llama 3性能接近GPT-3.5且可在手机/电脑运行[5][7] - 训练策略分化:微软用GPT-4生成高质量数据训练小模型,Meta则依靠算力优势直接加大训练强度[7] - Meta计划2024年将H100数量扩至35万张(单价3万美元),远超同业数万张的规模[7]