文章核心观点 - 研究重新审视了基于下一像素预测的生成式图像预训练范式,探讨其大规模扩展的可行性与规律 [2][4][6] - 研究发现,下一像素预测的扩展趋势与文本类似但效率低得多,需要比语言模型多10–20倍的token-per-parameter比例才能达到有效学习 [6][15][16] - 不同下游任务(如图像分类与生成)的最优扩展策略存在显著差异,且策略随图像分辨率提升而改变 [7][18][22][23] - 尽管当前计算成本高昂,但研究预测基于原始像素的建模在未来五年内将变得可行,主要瓶颈是计算量而非训练数据 [8][26] 研究方法与实验设置 - 研究从32×32分辨率的图像出发,在多种等算力配置下训练了一系列Transformer模型,最大计算量达到7e19 FLOPs [10] - 采用四种规模的Transformer架构,参数从2800万到4.49亿不等 [11] - 在包含3亿张图像的JFT-300M数据集上进行预训练,在32×32分辨率下完整遍历一遍相当于处理超过3000亿个像素 [12] - 通过下一像素预测目标、ImageNet分类准确率以及Fréchet Distance衡量生成质量这三个指标评估模型性能 [10][13] 关键研究发现 - 像素的语义信息极低,单个像素几乎不包含语义,其颜色值可能对应多种物体的一部分 [10][19] - 像素之间的空间关系非常复杂,不易用序列方式表示,且随着图像分辨率升高,下一像素预测的计算量会急剧增加 [10] - 在32×32分辨率下,图像生成任务需要比分类任务更大的token-parameter比例,其数据规模增长速度是分类任务的三到五倍 [7][18] - 随着图像分辨率从16×16提升至64×64,最优扩展策略明显偏向更大的模型而非更多的数据 [23][24] 未来展望与可行性分析 - 训练算力正以每年四到五倍的速度增长,为逐像素建模的未来可行性提供了基础 [8] - 研究预计在未来五年内,基于原始像素的学习将成为一条可行的发展方向,并能达到具有竞争力的性能 [26] - 像素级模型的主要瓶颈是计算量,而非训练数据的可获得性 [18][26]
预测下一个像素还需要几年?谷歌:五年够了