声网发布AI外呼智能体评测基准VoiceAgentEval

文章核心观点 - 声网联合美团与xbench发布了首个针对AI外呼真实业务场景的综合评测基准VoiceAgentEval，旨在解决行业专属评测体系缺失的痛点，为生成式AI在该领域的技术落地与体验优化提供核心参考依据 [1] 从"能通话"到"会沟通"的科学标尺 - 随着生成式AI在客服、销售等场景渗透，通用学术评测标准已无法满足对AI外呼“会沟通、懂需求”的高级能力评估，行业对统一、客观评测标准的呼声高涨 [3] - VoiceAgentEval基于声网的对话式AI技术、美团的外呼业务场景与xbench的AI基准评测经验，构建了覆盖“基准测试构建”、“用户模拟器”和“交互质量评估方法”三大维度的综合评测框架 [3] 三大维度评测：覆盖业务全场景与交互全链路 - 基准测试构建基于真实语料，语料库覆盖客服、销售、招聘、金融、调研、主动关怀与通知六大业务领域及30个子场景，每个子场景均有包含流程分解与加权评分系统的详细评估方案 [3] - 用户模拟器由美团构建，包含150种不同人设，通过模拟真实交互数据生成不同行为模式与知识背景的虚拟用户，实现了在可控环境中对模型任务完成能力的规模化测试 [4] - 评估采用“文本+语音”双维度：文本评估建立了任务流程遵循（TFC）和通用交互能力（GIC）的双层系统；语音评估设定了15个指标，整合专家评分与客观数据，对ASR准确率、音频质量等多维度量化 [4] 评测结果揭示领先模型，助力企业精准选型 - 根据评测数据，在AI外呼场景中综合性能表现最突出的三款模型为字节跳动的Doubao-1.5-32k、OpenAI的GPT-4.1和Anthropic的Claude-4-Sonnet [5] - Doubao-1.5-32k与GPT-4.1在语音交互体验上表现优异，展现了强大的综合实力，该结果为企业模型选型与技术路线规划提供了决策依据 [5] - 具体排名与得分：字节跳动Doubao-1.5-32k总得分0.8881，任务流程遵循得分0.8331，通用交互能力得分0.9554；OpenAI GPT-4.1总得分0.8818，任务流程遵循得分0.8204，通用交互能力得分0.9568；Anthropic Claude-4-Sonnet总得分0.8748，任务流程遵循得分0.8339，通用交互能力得分0.9248 [6] 行业影响与公司动态 - xbench已在官网正式发布VoiceAgentEval评测基准，声网也将在其AI模型评测平台（对话式）中同步上线相关评测数据 [7] - 该基准的发布推动了AI模型评测从理想化学术评测走向真实业务场景化评测，对生成式AI在产业端的落地具有重要意义 [7] - 作为先行者，声网此前已上线对话式AI引擎2.0版的电话外呼功能，目前已有零售、医疗健康等多家企业完成接入 [7] - 公司未来将继续完善AI外呼相关技术与评测体系，助力生成式AI在客服、销售等领域的深度落地，推动行业向更高效、智能的方向发展 [7]