Workflow
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
量子位·2025-06-09 13:24

MMAR基准测试概述 - MMAR是一个包含1000道高质量问题的音频理解评估基准,要求模型具备多步骤深度推理能力[3] - 问题覆盖信号层、感知层、语义层和文化层四个推理层级,涉及真实场景的语音、音乐和环境声音混合[6] - 测试由上海交通大学、南洋理工大学、字节跳动等机构联合开发,标注过程经过严格审核[1][4] 模型表现分析 - 测试30款模型中,闭源模型Gemini 2.0 Flash以65.6%准确率领先,开源最佳Qwen-2.5-Omni仅56.7%[11] - 音乐相关任务表现最差,显示模型在旋律、节奏和作曲风格识别存在重大缺陷[12] - 显式推理模型(如Audio-Reasoner)性能普遍优于非推理模型,显示推理能力的关键作用[14] 技术瓶颈诊断 - 主要错误类型:感知错误(37%)、推理错误(20%)、知识缺失(9%)[19] - 噪声输入实验证实模型依赖真实音频输入,但Qwen-2.5-Omni暴露语言先验偏差问题[15] - 级联模型组合显示感知能力与推理能力存在协同效应[17] 行业发展趋势 - 闭源模型性能显著领先开源社区,当前开源方案未达实用水平[9][18] - 音视频全模态大模型展现出优于专用音频模型的潜力[20] - 需重点突破多说话人交互、复杂语义理解等场景的技术瓶颈[4][6] 测试方法论价值 - 首创多层级音频推理评估体系,涵盖物理信号到文化背景的完整维度[6] - 通过1000道高难度题目(如声学测井深、音乐家亲子关系判断)建立严格标准[4][5] - 为行业提供可量化的模型能力标尺,推动数据与算法协同创新[21]