不用任何人类语言训练，大模型反而更强了？

研究核心观点 - 提出一种全新的语言模型训练范式，即使用完全非语言的、由神经细胞自动机生成的合成数据进行“预预训练”，然后再在自然语言数据上预训练和微调，这挑战了“语言是智能训练唯一或最佳起点”的传统观念[1][6][7] - 该方法的训练效果显著，在相同token预算下，使用NCA数据预预训练的模型在语言建模性能、训练收敛速度及下游推理任务上均优于从零开始训练、使用自然语言或其他合成数据预预训练的基线模型[2][3][14][18] - 研究揭示了数据“结构”而非“语义”对于训练智能系统的重要性，NCA数据因其丰富的时空结构和可控的规则生成，能更高效地教会模型上下文学习和规则推断等核心能力，这种能力可迁移至语言任务[6][8][12][34] 研究方法与数据 - 采用神经细胞自动机作为合成数据生成器，NCA通过神经网络定义网格系统的局部演化规则，能够生成具有丰富长程时空模式、且统计特性与自然语言相似的数据[8][10] - NCA演化轨迹被离散化为序列后，输入标准Transformer模型进行下一个token预测训练，模型需从上下文中推断出每条序列背后独特的潜在演化规则，这直接锻炼了其上下文学习能力[12][17][39] - 数据规模对比显示，仅使用1.64亿tokens的NCA数据预预训练的模型，其性能优于使用16亿tokens（约10倍数据量）自然语言数据预预训练的模型，突显了数据质量与结构复杂度的重要性[22][23][24][27] 性能表现与优势 - 在语言建模任务上，NCA预预训练模型将最终困惑度降低约5%，并将训练收敛速度加快40%（即快1.4倍）[2][38] - 性能提升具有广泛迁移性，在网页文本、数学和代码等下游任务中均得到体现，模型展现出更强的推理能力[14][21] - 该方法提供了超越“一刀切”训练方式的新维度，可通过调节NCA规则的复杂度来定制化训练，以更好地匹配特定目标领域[34][42][43][44] 机制分析与洞见 - 注意力层是能力迁移的核心载体，承载了最具可迁移性的计算原语，而MLP层更多编码领域特定知识[34][40] - NCA数据因缺乏语义捷径，迫使模型在每个token上进行规则推断，这更高效地促成了如“归纳头”等注意力电路的形成，从而构建出可迁移的通用表示能力[36][37][39][40][41] - 研究指出，在数据规模较小时，自然语言训练主要让模型学习浅层统计模式，而NCA数据因其每个token携带的高多样性函数结构，提供了更纯粹、更高效的训练信号[29][31][32][35]