AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
量子位·2025-06-09 13:24
这一全新基准测试 MMA R 来自上海交通大学、 南洋理工大学、伦敦玛丽皇后大学、字节跳动、2077AI开源基金会等研 究机构。 MMAR 是什么?它有多难? MMAR团队 投稿 量子位 | 公众号 QbitAI 用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着?面对 1000 道多步骤音频推理题时, 30 款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎 猜。 就连表现最好的开源模型Qwen-2.5-Omni,准确率也只有 5 6 .7% ;而闭源选手Gemini 2.0 Flash则以 65.6% 的成绩 一骑绝尘,遥遥领先全场。 MMAR全称是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。 简单来说,它是一个包含 1000个高质量问题 的音频理解评估基准,每个问题都要求模型具备多步骤的深度推理能力。 我们先来看个例子: 问题是:理发师能否听懂英文? 在这段音频中,被理发的人用英语反复强调自己想要的理发效果,另一个人将其翻译成中文来帮助他强调,这说明理发师 不能听懂英 ...