prompt learning
搜索文档
告别「单科专家」:首个Agent全面进化框架EEVEE发布
机器之心· 2026-06-22 09:00
文章核心观点 - 由上海交通大学与普林斯顿大学研究团队发布的EEVEE框架,旨在解决LLM智能体在真实世界部署中面临的核心挑战:即如何在面对不断变化的、多类型任务输入时,能够持续适应并稳定提升,而非仅在单一任务上优化[3][11] - EEVEE是一个面向LLM智能体的测试时提示学习框架,其核心创新在于将提示学习从“单一任务优化”推向更接近真实部署的多任务混合场景,让智能体能够组织经验、避免任务间干扰,从而实现全方位进化[3][30][48] - EEVEE通过“先分流,再用专门提示推理”的机制,维护多个专门化提示,并采用路由器与提示协同进化的方法,使智能体能够在任务不断增加时保持正向的性能累积提升,最终在全部任务加入后达到约+42的累计提升[15][24][29] 技术原理与机制 - **核心思路**:EEVEE不再让所有任务共享一个提示,而是维护多个专门化提示,并引入路由器来为输入任务分配合适的提示进行推理[24] - **协同进化**:EEVEE采用路由器与提示协同进化的方法,通过不断循环优化路由器和各个专门化提示,使任务划分更清晰,提示更专门化,从而有效组织经验[29] - **成本控制**:EEVEE的性能提升并非通过无限扩展上下文实现,其平均每个测试样本仅使用4.32K tokens,接近高效基线GEPA的3.47K,远低于ACE的21.30K[38][39] 性能表现与实验结果 - **多任务累积提升**:当任务类型依次增加时,EEVEE能够保持正向的性能累积提升,在任务全部加入后达到约+42的累计提升,而其他基线方法的收益可能停止叠加甚至变为负数[15][16] - **跨模型有效性**:EEVEE在不同骨干模型上均带来明显提升。在Qwen3-4B-Instruct上,平均分从41.37提升至51.75,相对提升约25%;在DeepSeek-V3.2上,平均分从39.75提升至64.07,相对提升约61%;相比现有先进的提示学习方法,最高相对提升达到48.2%[20][21] - **单任务能力保持**:EEVEE并未牺牲单任务性能,在单独进行提示学习时,例如在Formula任务上达到55.25分,在HumanEval任务上达到73.17分,TheoremQA任务从14.73提升至25.27[33][34] 应用场景与意义 - **解决现实痛点**:真实部署中的智能体需要处理代码生成、金融公式计算、科学问题回答等不同类型且不断变化的任务组合,单一提示容易导致不同任务经验互相冲突[9][10][17] - **迈向全方位进化**:EEVEE的意义在于推动智能体从针对固定任务的“单科提分”,转向在复杂、多样、动态的真实任务流中实现“全科成长”和持续适应[46][48][50] - **能力边界**:提示学习擅长将反馈转化为可复用的做事方式、格式和策略,但对于模型本身缺失的关键领域知识,单靠提示学习不一定能解决[41]