从组件到系统，Agent 的 Evaluation 怎么做？

Agent评估范式的演进与挑战 - Agentic AI的兴起将AI系统重心从被动生成文本的大语言模型转向能够自主规划、行动并与数字世界交互的AI Agent，拓宽了AI的应用边界[3] - 相比评估LLM，Agent评估的目标是衡量完整自主系统在动态环境中实现特定目标的端到端成功率、可靠性和效率，其最终表现是架构、LLM、工具及环境交互后涌现的综合属性[5][6] - Agent评估焦点从模型本身转移到模型与环境交互产生的实际效果，必须考察其完整行为过程而不仅仅是单一文本输出质量，传统面向LLM的评估方法无法直接沿用[7] 各代AI评估范式差异 - LLM评估代际的代表性工作包括MMLU、GLUE、TruthfulQA，评估目标为生成能力、零/少试泛化能力，但无法衡量行动能力且知识静态、易被污染[10] - 初代Agent评估的代表性工作包括GAIA、AgentBench、WebArena，评估目标为多步推理、工具熟练度、客观答案，但环境为“只读”、缺乏对动态性和状态变化的感知，无法评估时间敏感性任务[10] - 新一代Agent评估的代表性工作包括GAIA2、MCP-Universe、mcpmark，评估目标为动态/异步环境、状态化交互、通过MCP连接真实工具，但缺乏对长程任务、工具泛化、多智能体协作及效率、安全与成本综合考量等方面的评估[10] Agent评估的技术发展现状 - 业界愈发关注好的Agent评估方法，并涌现了GAIA系列、MCP-universe、MCPMark、MCP-AgentBench等工作[8] - 归因于数据泄露和模型能力快速提升，LLM基准正以越来越快速度被LLMs解决到接近人类水平，甚至无法继续用于验证LLM能力[11] - Agent核心价值体现于它能“做什么”，其定义以自主性、规划和与环境互动实现目标的能力展开，因此面向Agent的评估范式必须能够衡量这些以行动为导向的核心能力[11]