Workflow
自动化评测
icon
搜索文档
评测也很酷,Data Agent 自动化评测的三层框架与实战
AI前线· 2025-12-16 17:40
作者|尹小明 编辑|李忠良 策划|AICon 全球人工智能开发与应用大会 在大模型技术飞速发展的当下,大数据领域的各类应用如雨后春笋般涌现,从数仓开发到 ChatBI 问数,再到深度分析 Agent,这些领域的大模型 应用极大地提升了数据处理和分析的效率。但与此同时,如何科学、准确地评估这些应用的效果,成为了行业面临的重要难题。 InfoQ 荣幸邀请到了字节跳动 / 数据平台大模型评测技术负责人 尹小明 在 AICon 全球人工智能开发与应用大会·深圳站上分享了《 评测也很酷 ——Agent 自动化评测技术创新与实践 》。作为字节跳动数据平台的大模型效果评估团队,他们深耕数据应用 Agent 领域,构建了覆盖从数据开 发到数据应用垂直领域 Agent 应用的评测技术体系,尤其在自动化评测算法、Agent 级评测框架等方面形成了可落地的技术方案。本次分享将聚焦 这一领域的技术细节与实践经验。 12 月 19~20 日的 AICon 北京站 将锚定行业前沿,聚焦大模型训练与推理、AI Agent、研发新范式与组织革新,邀您共同深入探讨:如何构建起可 信赖、可规模化、可商业化的 Agentic 操作系统,让 AI ...