Workflow
EBTs)
icon
搜索文档
新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%
机器之心· 2025-07-07 12:48
机器之心报道 机器之心编辑部 是否可以在不依赖额外监督的前提下,仅通过无监督学习让模型学会思考? 答案有了。 在心理学领域,人类思维通常被划分为两种不同类型:系统 1(快速思维)和系统 2(慢速思维)。 当面对复杂问题如数学运算、多步骤推理等任务时,系统 2 思维(System 2 Thinking)显得至关重要。然而,当前的大语言模型可能在适合系统 1 思维的任务上表 现良好,但在需要系统 2 思维能力的任务方面仍存在明显不足。 因此,很多研究者开始对系统 2 思维展开研究,这推动了 o1、R1、Grok3 和 Claude 3.7 Sonnet 等基础模型的崛起。 但据公开训练资料(特别是开源模型 R1)显示,这些模型采用的强化学习训练方法仅适用于答案可通过规则化奖励验证的领域(如数学和编程),这种局限性导 致其适用范围狭窄。 另一方面与人类系统 2 思维类似的推理时计算,近期成为提升模型性能的热门方法。 然而,现有方法存在三大局限性:模态依赖性(如仅适用于文本)、问题依赖性(如局限于数学 / 编程等可验证领域),或需要额外监督训练(如验证器或可验证 奖励机制)。 因此,来自弗吉尼亚大学、亚马逊 GenA ...