GenAI 鸿沟

搜索文档
从 SEAL 自适应学习到 DFT 奖励矫正,LLM 泛化能力的实质提升又有多少?
机器之心· 2025-09-07 09:30
大模型泛化能力研究进展 - 大模型泛化能力存在本质争议 部分研究认为其优势源于海量训练数据的记忆而非真正的逻辑推理 例如CoT推理在分布外测试中性能急剧崩溃[9][10] - 模型规模扩大对泛化影响呈现分化 参数从13M增至12B时 推理任务生成全新短语组合能力增强(Spearman ρ下降) 而知识任务仍高度依赖预训练语料共现片段(Spearman ρ>0.35)[9] - 2022-2025年LLM研究爆发式增长 ACL论文数增长近6倍 arXiv论文数增长近15倍 当前研究重点依次为推理、泛化、幻觉、偏见和安全性[11] 泛化能力提升技术路径 - 研究重心从早期关注数据分布与模型规模 转向训练策略、模型更新机制及数据设计创新 包括自适应微调、动态梯度调整和数据增强等[7][11] - 动态微调(DFT)通过纠正传统微调(SFT)隐含的反向奖励机制提升泛化能力 上下文学习(ICL)相比SFT在泛化提升方面具显著优势[1] 行业研究动态 - 学界对泛化本质存在根本性分歧 ReflectionAI CEO提出"不存在泛化 仅存在测试分布被纳入训练分布"的观点 强调训练数据覆盖度的决定性作用[10] - 知识密集型任务(如TriviaQA)准确率高度依赖预训练语料共现频率 对共现片段去重或扰动会导致性能显著下降[9]