Workflow
从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
机器之心·2025-09-16 12:01

文章核心观点 - 大型语言模型在上下文学习方面存在局限 难以从大量示例中有效学习规律 而MachineLearningLM通过创新的继续预训练框架突破了这一瓶颈 在多个领域的分类任务中显著超越基准模型[2] - 该研究采用三大核心创新:百万级合成任务训练 随机森林模型过滤机制 以及高效上下文示例编码技术 实现了千示例级别的上下文学习能力[6][10][13] - 模型在保持通用能力无损的前提下 在金融 健康 生物信息 物理等领域的表格分类任务中准确率平均超越GPT-5-mini等基准模型13-16个百分点[23][24] 技术方法创新 - 构建超过300万合成任务的大规模预训练语料库 基于结构因果模型生成二分类及多分类任务 确保与下游评估集无重叠[7] - 引入随机森林模型进行两级过滤:样本级共识过滤保留高置信度样本 任务级过滤剔除无效任务 提升训练稳定性[11][16] - 采用表格编码格式替代自然语言描述 将数值标准化映射到[0,999]整数区间 使每个数值仅需1-3个token 大幅提升数据容纳效率[15][20] - 实施序列级批量预测 将多个查询拼接成一条序列统一推理 提升推理速度并增强训练稳定性[21] 性能表现 - 在8条到1024条示例的上下文学习中 准确率呈现单调增长 从58.4%提升至75.3% 显著优于对比模型[23][24] - 在MMLU基准测试中零样本准确率达73.2% 50样本达75.4% 与基准模型Qwen-2.5-7B-Instruct持平 在统计和物理等特定领域还有提升[24][25] - 能够同时处理数值特征与自然语言描述 实现真正的异构输入推理 无需对文本进行分桶或转换嵌入向量[25] 应用与展望 - 在金融 医疗健康与科学计算等领域具有广泛应用前景 能够扩展大型语言模型的实际应用边界[27] - 未来研究方向包括合成多模态分类任务 突破上下文长度限制 集成不确定性预测和检索增强方法 以及赋能智能体记忆机制[34]