Workflow
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI
机器之心·2025-07-17 17:31

文章核心观点 - 提出AI驱动的视觉生成模型评估新范式Evaluation Agent,可替代人工专家进行定制化、高效、可解释的模型评估[3][4][41] - 该框架通过自然语言交互实现动态评估规划,显著提升评测效率(耗时仅为传统方法10%)[13][25][28] - 支持开放式用户查询,能针对"风格迁移""摄影参数理解"等复杂需求生成专业分析报告[9][31][32] 技术框架设计 核心优势 - 可定制性:根据用户自然语言描述自动规划评估方案(如古风视频测试)[11][12][21] - 高效率:多轮交互式评估使样本量减少90%(如SD3.0评测仅需25样本 vs 传统12000样本)[13][25][28] - 可解释性:输出自然语言报告,包含模型局限性与改进建议[14][41] - 可扩展性:开放架构支持图像/视频生成任务及新评估工具集成[15][39] 工作流程 1. 提案阶段:Plan Agent解析用户需求生成评估路径[20][21][26] 2. 执行阶段:PromptGen Agent生成专属测试提示,视觉模型产出样本[22][27] 3. 动态交互:多轮反馈优化评估方案(平均3-4轮/任务)[23] 性能验证 效率对比 - 视频模型评估: - VideoCrafter-2评估耗时24分钟(传统4261分钟)[25] - 样本量减少98%(23样本 vs 4355样本)[25] - 图像模型评估: - SDXL评估耗时8分钟(传统1543分钟)[28] - 样本量减少99%(26样本 vs 12000样本)[28] 开放式评估能力 - 构建开放式用户评估问题数据集,覆盖风格迁移/摄影概念等复杂维度[33][34] - 可处理"保持原风格生成艺术变体"等抽象查询,生成分步骤验证方案[32][38] 未来发展方向 - 扩展至3D生成/AIGC视频编辑等复杂任务[39] - 增强多模态评估能力(文本/音频/视频跨模态)[39] - 引入强化学习优化评估精准度[39] - 开发基于评估结果的生成模型个性化推荐系统[43]