Workflow
音频大模型
icon
搜索文档
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
量子位· 2025-06-09 13:24
这一全新基准测试 MMA R 来自上海交通大学、 南洋理工大学、伦敦玛丽皇后大学、字节跳动、2077AI开源基金会等研 究机构。 MMAR 是什么?它有多难? MMAR团队 投稿 量子位 | 公众号 QbitAI 用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着?面对 1000 道多步骤音频推理题时, 30 款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎 猜。 就连表现最好的开源模型Qwen-2.5-Omni,准确率也只有 5 6 .7% ;而闭源选手Gemini 2.0 Flash则以 65.6% 的成绩 一骑绝尘,遥遥领先全场。 MMAR全称是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。 简单来说,它是一个包含 1000个高质量问题 的音频理解评估基准,每个问题都要求模型具备多步骤的深度推理能力。 我们先来看个例子: 问题是:理发师能否听懂英文? 在这段音频中,被理发的人用英语反复强调自己想要的理发效果,另一个人将其翻译成中文来帮助他强调,这说明理发师 不能听懂英 ...
音频大模型安全可信度的全面“体检”!6大维度,清华南洋理工联手打造
量子位· 2025-06-03 12:26
AudioTrust团队 投稿 量子位 | 公众号 QbitAI 首个 专为ALLMs (音频大语言模型) 设计的多维度可信度评估基准来了。 南洋理工、清华大学领衔的研究团队注意到,现有评估框架大多只关注文本模态或仅涵盖有限的安全维度,未能充分考虑音频模态的独特特性 与应用场景。 于是他们创新性地提出了新框架 AudioTrust ,将评估范围扩展至 六个核心维度 (公平性、幻觉、安全性、隐私、鲁棒性和身份验证) , 并深入探究了音频模态特有的安全、可信问题。 目前该基准及评估平台已全面开发,点击文末链接即可获取。 接下来是AudioTrust的更多详细信息。 什么是AudioTrust △ AudioTrust关注的不同可信评估视角 Fairness AudioTrust从 7大敏感属性 出发,构造了传统与音频特有的公平性评估体系。 共采集 840条 高质量音频样本 (每条约20秒) ,模拟多样化社会角色与语境交互,激发AI对传统公平的深度响应,聚焦社会普遍存在的偏 见。 构造音频特有属性,体现多模态感知中的不公平,特别关注口音、语言表达特征等,并通过混合音频和文本预处理的方式模拟现实场景。 实验结果显示, ...