研究核心发现 - 杜克大学与Adobe发布的VERA研究首次系统性测量语音模态对AI推理能力的影响,发现语音系统在推理任务上普遍表现不佳[2][3] - 研究覆盖12个主流语音系统,使用2,931道专门设计的测试题进行评测[3] - 最显著对比来自OpenAI GPT家族:GPT-5文本版在数学竞赛题准确率达74.8%,而GPT-realtime语音版准确率仅6.1%,相差68.7个百分点[5][6] - 所有测试语音系统在推理任务上均表现较差,包括OpenAI的GPT-realtime、谷歌的Gemini-native-audio、亚马逊的Nova Sonic和阿里巴巴的Qwen音频模型等[5] 评测体系设计 - VERA评测体系从五个维度考察语音系统推理能力:数学推理、网络信息综合、研究生级科学问题、长对话记忆和事实检索[9][10][11][12][13][14] - 数学推理题目来自美国数学邀请赛,网络信息综合题目需要整合多个信息源,科学问题涉及量子力学等深度专业知识[10][11][12] - 研究团队对测试题进行系统性"语音原生化"改造,包括数字转换、符号口语化和添加自然对话开场[16][17] - 从约22,000道原始题目中精选出2,931道高质量测试题,确保公平对比[18] 性能表现数据 - 语音模型平均准确率约11.3%,文本模型平均准确率约54%,差距达42.7个百分点[19][32] - 追求1.5秒内响应的语音系统准确率均在10%左右徘徊[8] - 在数学推理任务上,最佳文本模型(GPT-5)准确率74.8%,最佳语音系统仅6.1%[19][29] - 级联架构系统LiveAnswer+在数学任务准确率提升至59.1%,但仍比纯文本低15.7%,在长对话记忆任务完全失效(0.2%)[19][33] 技术瓶颈分析 - 根本性架构冲突在于"不可逆的流式承诺":语音生成像现场直播,说出去收不回,导致系统选择安全但肤浅的回答路径[21] - 认知资源分配困境:系统需同时处理"想什么"和"怎么说",资源分散导致性能下降[22] - 不同架构展现独特失败模式:流式架构倾向"完成优先",端到端架构经常跑题,级联架构出现前后矛盾[26][27][32] - 延长思考时间(如Audio Flamingo 3从2.4秒延至15.1秒)反而使准确率从1.7%降至1.5%,证明问题在于架构本身而非时间限制[22][23] 行业影响与展望 - 研究揭示了语音交互系统普遍存在的"智商下降"现象,问题具有行业普遍性[28] - VERA benchmark提供了标准化评测框架,使行业可量化追踪技术进展[37] - 未来突破方向包括异步架构革新、智能缓冲策略、可编辑内部状态和分块并行处理等解决方案[36][41] - 真正智能的语音助手需要从根本上重新思考实时对话约束下的深度推理机制,而非简单将文本模型接上TTS系统[34][37]
语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%
机器之心·2025-10-17 19:53