声网发布AI外呼智能体评测基准VoiceAgentEval
声网声网(US:API) 搜狐财经·2026-02-26 15:20

文章核心观点 - 声网联合美团与xbench发布了首个针对AI外呼真实业务场景的综合评测基准VoiceAgentEval,旨在解决行业专属评测体系缺失的痛点,为生成式AI在该领域的技术落地与体验优化提供核心参考依据 [1] 从"能通话"到"会沟通"的科学标尺 - 随着生成式AI在客服、销售等场景渗透,通用学术评测标准已无法满足对AI外呼“会沟通、懂需求”的高级能力评估,行业对统一、客观评测标准的呼声高涨 [3] - VoiceAgentEval基于声网的对话式AI技术、美团的外呼业务场景与xbench的AI基准评测经验,构建了覆盖“基准测试构建”、“用户模拟器”和“交互质量评估方法”三大维度的综合评测框架 [3] 三大维度评测:覆盖业务全场景与交互全链路 - 基准测试构建基于真实语料,语料库覆盖客服、销售、招聘、金融、调研、主动关怀与通知六大业务领域及30个子场景,每个子场景均有包含流程分解与加权评分系统的详细评估方案 [3] - 用户模拟器由美团构建,包含150种不同人设,通过模拟真实交互数据生成不同行为模式与知识背景的虚拟用户,实现了在可控环境中对模型任务完成能力的规模化测试 [4] - 评估采用“文本+语音”双维度:文本评估建立了任务流程遵循(TFC)和通用交互能力(GIC)的双层系统;语音评估设定了15个指标,整合专家评分与客观数据,对ASR准确率、音频质量等多维度量化 [4] 评测结果揭示领先模型,助力企业精准选型 - 根据评测数据,在AI外呼场景中综合性能表现最突出的三款模型为字节跳动的Doubao-1.5-32k、OpenAI的GPT-4.1和Anthropic的Claude-4-Sonnet [5] - Doubao-1.5-32k与GPT-4.1在语音交互体验上表现优异,展现了强大的综合实力,该结果为企业模型选型与技术路线规划提供了决策依据 [5] - 具体排名与得分:字节跳动Doubao-1.5-32k总得分0.8881,任务流程遵循得分0.8331,通用交互能力得分0.9554;OpenAI GPT-4.1总得分0.8818,任务流程遵循得分0.8204,通用交互能力得分0.9568;Anthropic Claude-4-Sonnet总得分0.8748,任务流程遵循得分0.8339,通用交互能力得分0.9248 [6] 行业影响与公司动态 - xbench已在官网正式发布VoiceAgentEval评测基准,声网也将在其AI模型评测平台(对话式)中同步上线相关评测数据 [7] - 该基准的发布推动了AI模型评测从理想化学术评测走向真实业务场景化评测,对生成式AI在产业端的落地具有重要意义 [7] - 作为先行者,声网此前已上线对话式AI引擎2.0版的电话外呼功能,目前已有零售、医疗健康等多家企业完成接入 [7] - 公司未来将继续完善AI外呼相关技术与评测体系,助力生成式AI在客服、销售等领域的深度落地,推动行业向更高效、智能的方向发展 [7]

声网发布AI外呼智能体评测基准VoiceAgentEval - Reportify