Workflow
与或交互逻辑模型
icon
搜索文档
只有通过海量测试才能抓住泛化性的本质吗?
机器之心· 2025-05-10 11:42
本文第一作者为上海交通大学博士生程磊,指导老师为上海交通大学张拳石教授。 当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时,我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模 型的「表征质量」或者「泛化性」?我们真的只有通过海量的测试数据才能抓住泛化性的本质吗?或者说,能否在数学上找到一个定理,直接从表征逻辑复 杂度本身就给出一个对模型泛化性的先验的判断呢? 论文地址: https://arxiv.org/abs/2502.10162 本文就上述问题给出了初步的探索,从神经网络内在精细交互表征复杂度的角度来探索「可泛化交互表征」和「不可泛化交互表征」各自所独有的分布。 一、大模型时代呼唤更高效的泛化性分析策略——中层表征逻辑的交流与对齐 尽管深度学习基础理论近年来取得了长足的发展,但一些根本性问题仍未得到有效解决。典型地,对神经网络泛化性的研究依然停留在一个相对较浅的层面 ——主要在高维特征空间分析解释神经网络的泛化性(例如通过损失函数景观平滑度来判断泛化性)。 因此,我们始终无法对神经网络泛化性给出一个「究竟」的解释——究竟怎样的确切的表征才叫高泛化性的表征。 ...