Workflow
MNIST数据集
icon
搜索文档
Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
具身智能之心· 2025-09-03 08:03
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 AI 也要「考古」式科研? 人工智能的「第一性原理」扩展定律(Scaling Laws),把模型性能与算力等资源投入联系在了一起,是如今人们构建更先进大模型重要的参考标尺。 有关扩展定律的起源,存在很多种说法,有人认为是 2020 年 OpenAI 提出的,有人认为是 2017 年百度发现的,详情可参阅我们之前的报道《 遗憾不?原来百度 2017 年就研究过 Scaling Law,连 Anthropic CEO 灵感都来自百度 》。 前些天,康奈尔大学博士生、Meta 研究员 Jack Morris 发推称 Scaling Law 的真正探索者其实是贝尔实验室,这又进一步将历史向前推到了 1993 年。 他进一步解释说,这篇论文其实是一篇 NeurIPS 论文。贝尔实验室的研究者「在不同大小的数据集、不同大小的模型上训练了分类器并拟合了幂律」。这让 Morris 不禁感叹:「不敢相信这已 ...
Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
机器之心· 2025-09-02 14:32
扩展定律的历史溯源 - 人工智能扩展定律的起源可追溯至1993年贝尔实验室发表的NeurIPS论文,该研究通过在不同规模数据集和模型上训练分类器并拟合幂律,首次系统揭示了模型性能与资源投入的关联 [1][3][7] - 论文提出通过预测方法避免高成本训练过程,证明单层及多层网络中错误率与训练数据量在对数曲线上呈现规律性变化,为后续扩展定律奠定理论基础 [10][14] - 研究显示经过12000种模式训练后新网络性能超越旧网络,证明模型规模扩大可提升智能水平,该定律从早期机器学习延伸至现代万亿参数模型(如GPT-4)仍持续有效 [14] 关键研究者与贡献 - 论文一作Corinna Cortes学术引用量超10.4万次,与Vladimir Vapnik合作提出支持向量机(引用7.7万次),并参与构建MNIST数据集 [17][19][20] - Vladimir Vapnik总引用量达33.5万次,提出统计学习理论核心的Vapnik-Chervonenkis理论,其1995年著作《统计学习理论的本质》成为领域里程碑 [25][26] - Lawrence D Jackel(引用4.8万次)与Yann LeCun合作完成高引用的反向传播研究,Sara A Solla(引用1.6万次)提出《Optimal Brain Damage》论文推动神经网络规模优化 [21][23][24] - John S Denker为跨领域天才研究者,涉足量子物理、神经网络及航空安全,拥有多项专利及50余篇论文 [27][28][31] 学术脉络的早期探索 - 扩展定律概念可能早于1993年:心理学领域最早探索学习曲线,Vladimir Vapnik于1960年代已研究样本规模定律,Frank Rosenblatt 1958年感知器论文已描述学习曲线 [34][35][36] - 日本学者甘利俊一1992年论文证明普适学习曲线渐近行为,提出预测熵收敛规律〈e*(t)〉~d/t(d为参数数量),较贝尔实验室研究更早 [38][39] - 扩展定律的发展是跨学科长期积累的结果,从心理学、感知器理论到统计学习与神经网络,经OpenAI等机构大规模验证后形成系统化定律 [41]