监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力
量子位·2025-08-04 15:00
One-Shot CFT团队 投稿 量子位 | 公众号 QbitAI 大模型推理能力研究中,可验证奖励的强化学习(RL with Verifiable Rewards, 简称 RLVR)技术频频突破,尤其是"一题强化学习"(RL on One Example)在多个任务中表现亮眼,引发了广泛讨论。 但与此同时,一个现实难题也随之而来: 哪怕只使用一个样本,RL的训练也往往需要上百小时的A100GPU支撑,资源成本极高;而训练过程的高度不稳定,也给复现和实际部署带来 了极大障碍;相比之下,传统的监督式微调(SFT)虽然计算负担小,但在低数据量下极易过拟合,效果难以保证。 有没有一种方法,不依赖复杂的反馈信号,也不需要成千上万的数据样本,就能有效激发LLM中已蕴藏的推理能力? 加拿大滑铁卢大学TIGER Lab的华人学者团队提出了一种名为 One-Shot Critique Fine-Tuning(One-Shot CFT) 的新方法。 本质上,这也是一种监督学习,只不过与传统SFT的"模仿答案"不同,CFT训练模型"逐步分析判断一个答案的好坏"。在这个过程中,模型能 接触到多样的推理路径和错误类型,更贴近人类真 ...