prompt learning - 财报，业绩电话会，研报，新闻

prompt learning

搜索文档

机器之心· 2026-06-22 09:00

文章核心观点 - 由上海交通大学与普林斯顿大学研究团队发布的EEVEE框架，旨在解决LLM智能体在真实世界部署中面临的核心挑战：即如何在面对不断变化的、多类型任务输入时，能够持续适应并稳定提升，而非仅在单一任务上优化[3][11] - EEVEE是一个面向LLM智能体的测试时提示学习框架，其核心创新在于将提示学习从“单一任务优化”推向更接近真实部署的多任务混合场景，让智能体能够组织经验、避免任务间干扰，从而实现全方位进化[3][30][48] - EEVEE通过“先分流，再用专门提示推理”的机制，维护多个专门化提示，并采用路由器与提示协同进化的方法，使智能体能够在任务不断增加时保持正向的性能累积提升，最终在全部任务加入后达到约+42的累计提升[15][24][29] 技术原理与机制 - **核心思路**：EEVEE不再让所有任务共享一个提示，而是维护多个专门化提示，并引入路由器来为输入任务分配合适的提示进行推理[24] - **协同进化**：EEVEE采用路由器与提示协同进化的方法，通过不断循环优化路由器和各个专门化提示，使任务划分更清晰，提示更专门化，从而有效组织经验[29] - **成本控制**：EEVEE的性能提升并非通过无限扩展上下文实现，其平均每个测试样本仅使用4.32K tokens，接近高效基线GEPA的3.47K，远低于ACE的21.30K[38][39] 性能表现与实验结果 - **多任务累积提升**：当任务类型依次增加时，EEVEE能够保持正向的性能累积提升，在任务全部加入后达到约+42的累计提升，而其他基线方法的收益可能停止叠加甚至变为负数[15][16] - **跨模型有效性**：EEVEE在不同骨干模型上均带来明显提升。在Qwen3-4B-Instruct上，平均分从41.37提升至51.75，相对提升约25%；在DeepSeek-V3.2上，平均分从39.75提升至64.07，相对提升约61%；相比现有先进的提示学习方法，最高相对提升达到48.2%[20][21] - **单任务能力保持**：EEVEE并未牺牲单任务性能，在单独进行提示学习时，例如在Formula任务上达到55.25分，在HumanEval任务上达到73.17分，TheoremQA任务从14.73提升至25.27[33][34] 应用场景与意义 - **解决现实痛点**：真实部署中的智能体需要处理代码生成、金融公式计算、科学问题回答等不同类型且不断变化的任务组合，单一提示容易导致不同任务经验互相冲突[9][10][17] - **迈向全方位进化**：EEVEE的意义在于推动智能体从针对固定任务的“单科提分”，转向在复杂、多样、动态的真实任务流中实现“全科成长”和持续适应[46][48][50] - **能力边界**：提示学习擅长将反馈转化为可复用的做事方式、格式和策略，但对于模型本身缺失的关键领域知识，单靠提示学习不一定能解决[41]

AI Agent

prompt learning

EEVEE

Qwen3 - 4B - Instruct

Qwen3 - 4B - Instruct

DeepSeek - V3.2