Workflow
上下文学习(ICL)
icon
搜索文档
从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
机器之心· 2025-09-16 12:01
文章核心观点 - 大型语言模型在上下文学习方面存在局限 难以从大量示例中有效学习规律 而MachineLearningLM通过创新的继续预训练框架突破了这一瓶颈 在多个领域的分类任务中显著超越基准模型[2] - 该研究采用三大核心创新:百万级合成任务训练 随机森林模型过滤机制 以及高效上下文示例编码技术 实现了千示例级别的上下文学习能力[6][10][13] - 模型在保持通用能力无损的前提下 在金融 健康 生物信息 物理等领域的表格分类任务中准确率平均超越GPT-5-mini等基准模型13-16个百分点[23][24] 技术方法创新 - 构建超过300万合成任务的大规模预训练语料库 基于结构因果模型生成二分类及多分类任务 确保与下游评估集无重叠[7] - 引入随机森林模型进行两级过滤:样本级共识过滤保留高置信度样本 任务级过滤剔除无效任务 提升训练稳定性[11][16] - 采用表格编码格式替代自然语言描述 将数值标准化映射到[0,999]整数区间 使每个数值仅需1-3个token 大幅提升数据容纳效率[15][20] - 实施序列级批量预测 将多个查询拼接成一条序列统一推理 提升推理速度并增强训练稳定性[21] 性能表现 - 在8条到1024条示例的上下文学习中 准确率呈现单调增长 从58.4%提升至75.3% 显著优于对比模型[23][24] - 在MMLU基准测试中零样本准确率达73.2% 50样本达75.4% 与基准模型Qwen-2.5-7B-Instruct持平 在统计和物理等特定领域还有提升[24][25] - 能够同时处理数值特征与自然语言描述 实现真正的异构输入推理 无需对文本进行分桶或转换嵌入向量[25] 应用与展望 - 在金融 医疗健康与科学计算等领域具有广泛应用前景 能够扩展大型语言模型的实际应用边界[27] - 未来研究方向包括合成多模态分类任务 突破上下文长度限制 集成不确定性预测和检索增强方法 以及赋能智能体记忆机制[34]
万字长文!首篇智能体自进化综述:迈向超级人工智能之路
自动驾驶之心· 2025-09-12 07:33
自进化智能体综述核心观点 - 大语言模型本质上是静态的 无法在面对新任务 不断进化的知识领域或动态交互环境时调整其内部参数 这已成为开放交互式环境部署的关键瓶颈[2][3] - 自进化智能体代表人工智能领域的范式转变 从扩展静态模型转向开发能够从数据 交互和经验中持续学习与适应的系统 这是通往人工超级智能(ASI)的关键路径[3][4] - 综述首次系统性地围绕三个基础维度组织该领域:进化对象(what) 进化时机(when)和进化机制(how) 为理解与设计自进化智能体提供结构化框架[3][6] 进化对象(What to Evolve) - 智能体系统可分解为四个基本进化支柱:模型(推理和行为参数) 上下文(指令和长期记忆) 工具集(外部技能创建和管理) 以及架构(系统协作结构)[19] - 进化机制涵盖策略 经验 提示 记忆 工具创建与掌握 架构选择等多个维度 不同方法在各维度有不同侧重 例如Mem0在7个维度均有进化 MAS-Zero侧重模型和经验进化[20] 进化时机(When to Evolve) - 按时间阶段分为测试时内自进化(任务执行期间实时适应)和测试时外自进化(任务完成间利用积累经验提升未来表现)[22] - 测试时内进化具有在线性 学习数据动态产生且直接针对当前问题 测试时外进化具有回顾性 作用于历史数据旨在提高任务分布预期性能[23] - 进化依赖三种基本学习范式:上下文学习(ICL) 监督微调(SFT)和强化学习(RL) 在不同时间背景下数据可用性和学习目标存在差异[23] 进化机制(How to Evolve) - 主要方法家族包括基于奖励的进化(标量奖励 自然语言反馈 外部信号) 模仿与示范学习(高质量范例学习) 以及基于群体和进化的方法(选择 变异 交叉等机制)[27] - 不同方法在反馈类型 数据源 奖励粒度 样本效率 稳定性和可扩展性等方面存在显著差异 例如基于奖励的方法对奖励设计敏感 模仿学习受示范质量影响大 群体方法资源密集但可扩展性好[29] 应用场景(Where to Evolve) - 应用系统分为通用领域进化(数字领域各种任务能力扩展)和专用领域进化(特定领域专业知识深化) 前者侧重经验迁移 后者侧重领域深化[31] - 关键应用领域包括自主软件工程 个性化教育 医疗保健和智能虚拟助手等 持续适应和进化在这些领域至关重要[10][38] 评估体系(Evaluation) - 评估需超越传统静态系统 涵盖随时间推移的适应能力 知识积累与保留 长期泛化能力以及技能迁移 同时减轻灾难性遗忘[34] - 现有基准如ScienceAgentBench(102任务) SWE-bench(2,294任务) WebShop(12,087任务)等 在任务领域 核心指标和时空范围上各有侧重[36] - 个性化评估需开发更轻量级 适应性指标和动态基准 传统ROUGE和BLEU等指标无法充分捕捉动态进化特性[39] 技术挑战与研究方向 - 泛化能力面临专业化与广泛适应性矛盾 需可扩展架构设计 跨领域适应技术(测试时扩展 推理时适应)以及持续学习与灾难性遗忘解决方案[40][42] - 安全与可控性需应对用户相关风险和环境风险 通过智能体宪法 安全训练算法和隐私保护措施实现平衡部署[43][44] - 多智能体生态系统需平衡个体与集体推理 开发高效算法和自适应框架 并建立动态评估基准反映持续适应和演变交互[45]