不用任何人类语言训练,大模型反而更强了?
机器之心·2026-03-14 14:33

研究核心观点 - 提出一种全新的语言模型训练范式,即使用完全非语言的、由神经细胞自动机生成的合成数据进行“预预训练”,然后再在自然语言数据上预训练和微调,这挑战了“语言是智能训练唯一或最佳起点”的传统观念[1][6][7] - 该方法的训练效果显著,在相同token预算下,使用NCA数据预预训练的模型在语言建模性能、训练收敛速度及下游推理任务上均优于从零开始训练、使用自然语言或其他合成数据预预训练的基线模型[2][3][14][18] - 研究揭示了数据“结构”而非“语义”对于训练智能系统的重要性,NCA数据因其丰富的时空结构和可控的规则生成,能更高效地教会模型上下文学习和规则推断等核心能力,这种能力可迁移至语言任务[6][8][12][34] 研究方法与数据 - 采用神经细胞自动机作为合成数据生成器,NCA通过神经网络定义网格系统的局部演化规则,能够生成具有丰富长程时空模式、且统计特性与自然语言相似的数据[8][10] - NCA演化轨迹被离散化为序列后,输入标准Transformer模型进行下一个token预测训练,模型需从上下文中推断出每条序列背后独特的潜在演化规则,这直接锻炼了其上下文学习能力[12][17][39] - 数据规模对比显示,仅使用1.64亿tokens的NCA数据预预训练的模型,其性能优于使用16亿tokens(约10倍数据量)自然语言数据预预训练的模型,突显了数据质量与结构复杂度的重要性[22][23][24][27] 性能表现与优势 - 在语言建模任务上,NCA预预训练模型将最终困惑度降低约5%,并将训练收敛速度加快40%(即快1.4倍)[2][38] - 性能提升具有广泛迁移性,在网页文本、数学和代码等下游任务中均得到体现,模型展现出更强的推理能力[14][21] - 该方法提供了超越“一刀切”训练方式的新维度,可通过调节NCA规则的复杂度来定制化训练,以更好地匹配特定目标领域[34][42][43][44] 机制分析与洞见 - 注意力层是能力迁移的核心载体,承载了最具可迁移性的计算原语,而MLP层更多编码领域特定知识[34][40] - NCA数据因缺乏语义捷径,迫使模型在每个token上进行规则推断,这更高效地促成了如“归纳头”等注意力电路的形成,从而构建出可迁移的通用表示能力[36][37][39][40][41] - 研究指出,在数据规模较小时,自然语言训练主要让模型学习浅层统计模式,而NCA数据因其每个token携带的高多样性函数结构,提供了更纯粹、更高效的训练信号[29][31][32][35]

不用任何人类语言训练,大模型反而更强了? - Reportify