Workflow
量子位
icon
搜索文档
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
量子位· 2025-06-09 13:24
MMAR基准测试概述 - MMAR是一个包含1000道高质量问题的音频理解评估基准,要求模型具备多步骤深度推理能力[3] - 问题覆盖信号层、感知层、语义层和文化层四个推理层级,涉及真实场景的语音、音乐和环境声音混合[6] - 测试由上海交通大学、南洋理工大学、字节跳动等机构联合开发,标注过程经过严格审核[1][4] 模型表现分析 - 测试30款模型中,闭源模型Gemini 2.0 Flash以65.6%准确率领先,开源最佳Qwen-2.5-Omni仅56.7%[11] - 音乐相关任务表现最差,显示模型在旋律、节奏和作曲风格识别存在重大缺陷[12] - 显式推理模型(如Audio-Reasoner)性能普遍优于非推理模型,显示推理能力的关键作用[14] 技术瓶颈诊断 - 主要错误类型:感知错误(37%)、推理错误(20%)、知识缺失(9%)[19] - 噪声输入实验证实模型依赖真实音频输入,但Qwen-2.5-Omni暴露语言先验偏差问题[15] - 级联模型组合显示感知能力与推理能力存在协同效应[17] 行业发展趋势 - 闭源模型性能显著领先开源社区,当前开源方案未达实用水平[9][18] - 音视频全模态大模型展现出优于专用音频模型的潜力[20] - 需重点突破多说话人交互、复杂语义理解等场景的技术瓶颈[4][6] 测试方法论价值 - 首创多层级音频推理评估体系,涵盖物理信号到文化背景的完整维度[6] - 通过1000道高难度题目(如声学测井深、音乐家亲子关系判断)建立严格标准[4][5] - 为行业提供可量化的模型能力标尺,推动数据与算法协同创新[21]
中科闻歌完成新一轮战略融资,引领企业级人工智能技术发展
量子位· 2025-06-09 13:24
融资动态 - 中科闻歌完成新一轮战略融资 投资方为北京市石景山区现代创新产业发展基金有限公司 [1] - 本轮融资将主要用于自研决策智能操作系统DIOS的研发投入和市场推广 [1] - 公司已累计完成超十亿元融资 此前投资方包括多家国资背景基金 [1] 公司背景 - 公司成立于2017年 创始团队源自中国科学院自动化所 拥有十余年大数据与AI技术积累 [1] - 现有员工500余人 业务布局全国 [1] - 已为政务、媒体、金融等领域超千家客户提供服务 包括多家权威媒体和知名企业 [4] 核心技术 - 自主研发决策智能操作系统DIOS 具备从数据治理到场景应用的全链条AI能力 [2] - DIOS系统包含三大核心组件:X-Data天湖数据平台、雅意大模型和DI-Brain智脑决策平台 [4] - 系统显著降低AI落地成本和部署时间 已成功落地40余个行业级产品模型 [3] 业务布局 - 重点强化政务、金融、媒体等领域的AI应用落地 [4] - 孵化医疗、能源和工业等新兴领域的AI创新应用 [4] - 计划拓展包括东南亚在内的海外市场 [4] 行业前景 - 数据+AI市场前景广阔 打通全流程的企业将成为满足客户需求的主力军 [3] - 公司聚焦行业AI应用需求 致力于用新技术解决客户真实需求 [3]
破解自驾数据难题!毫米波雷达可控仿真技术新框架来了
量子位· 2025-06-09 11:52
自动驾驶神经渲染框架SA-Radar - 光轮智能联合清华AIR、LeddarTech等机构提出全新自动驾驶神经渲染框架SA-Radar,以神经网络为核心引擎,实现可控且逼真的雷达仿真[1] - SA-Radar无需雷达具体细节即可实现场景灵活编辑,包括雷达属性修改、演员移除以及新视角合成[1] - 该方法显著增强多种下游任务,如2D/3D目标检测和雷达语义分割[1][31][32] 雷达仿真面临的挑战 - 雷达在ADAS中扮演重要角色,但相关研究和开发面临数据获取挑战[2][6] - 雷达图像显著受具体软硬件细节影响,不同雷达接收信号存在明显域差异[3][9] - 现有雷达仿真方法存在不足:生成式方法无法实现雷达属性外推,基于物理的方法需要详细硬件参数且耗时[10][13] SA-Radar的技术创新 - 提出基于波形参数的雷达属性表示方法,通过三维反射波形在不同维度的波形参数{σ, g, Rs, λ}表征雷达属性[15][16][26] - 设计ICFAR-Net,一种基于波形参数编码的3D U-Net,能生成不同雷达属性下的雷达立方体(距离-方位-多普勒张量)[17][28] - 构建带有丰富雷达属性注释的混合数据集,增强ICFAR-Net对不同雷达的仿真能力[30] SA-Radar的性能优势 - 仿真误差明显更小,全局平均误差显著降低[35] - 雷达仿真时间仅0.036s,远快于RadSimReal(0.605s)和传统物理模拟(至少5s)[36][37] - 反射环境张量生成时间仅0.26s左右,效率大幅提升[38] 下游任务验证结果 - 在2D目标检测任务中,联合使用仿真和真实数据训练模型AP@0.5提升3.6%,AP@0.75提升7.3%[45] - 在多视图语义分割任务中,联合训练模型IoU提升3.38%,Dice提升1.64%[47] - 在3D目标检测任务中,联合训练模型AP@0.3提升7.11%[49] 应用场景扩展 - SA-Radar支持在新的传感器视角和可编辑场景中进行仿真[33] - 在未见过的传感器和场景(如NuScene)上仍能鲁棒地仿真物理可靠的雷达数据[51] - 完全使用真实数据训练的模型在SA-Radar仿真数据上也能实现相当性能,证明其物理合理性[51]
消失的Ilya现身毕业演讲:AI时代如何生存,这是我的法则
量子位· 2025-06-09 11:52
核心观点 - Ilya Sutskever在OpenAI离职后首次公开亮相,获得多伦多大学荣誉理学博士学位,表彰其在AI领域的奠基性工作和全球影响力 [1][6] - 演讲聚焦AI对未来社会和职业的颠覆性影响,强调人类需适应AI全面替代人类能力的趋势 [3][15] - 提出应对AI时代的心态:接受现实、专注当下而非沉湎过去,并建议主动关注AI发展以应对挑战 [4][13][18] 演讲内容分析 个人经历回顾 - 20年前在同一大厅获得学士学位,此次是第四个母校学位,特别感谢导师Geoffrey Hinton的指导 [8][9] - 认为多伦多大学研究生阶段的AI研究当时全球顶尖,参与其中深感幸运 [10] AI发展趋势 - 当前AI已具备对话、编码等基础能力,但仍有局限,预计3-10年内将实现全面超越人类 [14][15] - 核心逻辑:人类大脑是生物计算机,数字计算机理论上可实现同等智能 [15] - AI进步将导致工作性质剧变,部分职业快速受冲击,经济与研发速度将指数级提升 [15][16] 应对策略建议 - 建立"接受现实-专注当下"的心态,避免过度纠结历史决策,需持续自我训练 [13] - 强调主动观察AI能力演进(如Twitter案例),培养对技术发展的直觉判断 [14][17] - 呼吁关注AI与人类关系的根本性问题,特别是超级智能的价值观对齐问题 [17] 行业影响 - AI技术发展路径明确,将系统性重塑所有人类可习得的技能领域 [15] - 行业需提前布局AI替代场景,研发投入可能因AI自我迭代加速而呈现非线性增长 [16] - 人才教育体系需转向AI协作方向,传统技能价值面临重估 [14] 市场关注点 - AI先驱人物罕见公开表态强化市场对技术突破时间表的预期 [5][15] - 演讲未提及创业进展,但离职后首秀选择学术场景引发对其下一步动向的猜测 [2][5]
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
量子位· 2025-06-09 11:52
大模型提示词优化研究 - 核心观点:研究发现直接回答提示和思维链(CoT)提示在不同类型的大模型中效果差异显著,默认设置可能是最佳使用方式[1][25] 研究方法与数据集 - 使用GPQA Diamond数据集进行测试,包含研究生水平专家推理问题[5][9] - 测试了7种主流模型,分为推理模型和非推理模型两类[10] - 每种模型设置三种实验环境:强制推理、直接回答和默认模式[10] - 每个问题在每种条件下测试25次,确保结果可靠性[11] 推理模型测试结果 - CoT提示对推理模型效果有限:o3-mini准确率仅提升4.1%,时间增加80%[6][23] - Gemini 2.5 Flash使用CoT后所有指标全面下降[20] - 在平均评分上,o3-mini提升2.9个百分点,o4-mini提升3.1个百分点[21] 非推理模型测试结果 - CoT提示对非推理模型效果更复杂:平均评分和51%正确率指标提升[12] - Gemini Flash 2.0提升最显著,Claude 3.5 Sonnet次之,GPT-4o系列提升不明显[13] - 但在100%和90%正确率指标中,部分模型使用CoT后指标下降[14] - CoT增加了非推理模型答案的不稳定性[15] 时间成本分析 - 推理模型使用CoT后时间显著增加:o4-mini增加20%,o3-mini增加80%[23] - 效果较好的非推理模型时间增加更明显[24] 最佳实践建议 - 默认设置可能是最佳使用方式,因前沿模型已内置推理过程[22][25] - 强制CoT效果弱于默认模式,可能与模型内置思维链有关[17]
腾讯顶尖学生招募启动!高中生可直接参与大模型/具身智能前沿研究
量子位· 2025-06-08 11:40
鹅厂:来玩。 白交 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 高考完了这个暑假还没有安排?(Doge) 一年一度,腾讯又开始招募顶尖学生了—— "星火挑战营" ,计划招募60-70人,主要面向高二、高三学生(2025级高考生)。一旦入选,就 有机会前往深圳总部,挑战一线产业难题。 与以往不同的是,此次他们可以面向大模型的最前沿话题—— 超长文本理解、长思维链技术、具身智能+机器人、多模态感知理解。 好好好,现在大模型搞研究得从少年开始抓起。 鹅厂开招顶尖学生 OpenAI、DeepSeek等热门大模型浪潮一波接着一波,星火计划紧随其后,在今年的产业课题方向中,特地新增四个大模型方向: 具体像超长文本理解这个方向。 大模型现在能说话、能思考,但是受制于字数输入上限,读书却始终读不好。 微信读书的AI问书技术团队 目前就正在掀起一场关于超长文本 智能的认知革命,致力于让AI把百万字级小说"先读薄再读厚"。 专家们将带领同学们深入探究大模型的长上下文理解问题,逐步探索AI如何在充分理解人物和世界观的前提下,辅助完成故事的二次创作。 还有 多模态感知理解 ,试想一下,你是否也想拥有钢铁侠里的贾维斯,可以理 ...
8个数据集全面胜出!思维链推理刷新图学习表现上限
量子位· 2025-06-08 11:40
核心观点 - GCoT是首个应用于无文本图数据的类思维链提示学习框架,通过多步推断机制显著提升少样本学习性能 [1] - 在8个图数据集的少样本节点分类与图分类任务中全面超越现有SOTA方法,1-5样本设置下优势最显著 [1][19] - 框架创新性融合层次化结构知识生成节点专属提示,拓展了图学习推理方式 [24][25] 方法解析 整体框架 - 将图和提示输入预训练图编码器,聚合各层隐藏表示生成"思维"指导下一步推断 [5] - 包含三阶段:基于提示的推断→思维构建→基于思维的提示学习 [6][7][8] 关键技术 - **思维构建**:对编码器各层嵌入加权求和生成融合向量,捕获节点层次化结构知识 [7][24] - **节点专属提示**:通过条件网络将上轮思维转化为节点特定提示矩阵,动态调整下一步输入 [8][25] - **标准提示学习**:采用GPF+方法生成偏置项提示,但作用于最终嵌入而非初始特征矩阵 [9][10] 实验结果 性能表现 - 节点/图分类任务中均超越基准模型,预训练方法优于监督学习 [18] - 1-10样本实验中全面领先,1-5样本区间提升最显著(具体数据未披露) [19] - 多步推断机制是关键:完整GCoT优于单步变体GCoT\L1/L2/L3 [20] 消融实验 - 移除分步推断的GCoT\CoT性能大幅下降,验证逐步推断必要性 [20] - 将CoT机制植入GPF/GPF+/ProG等基准模型后,所有模型性能均提升 [21] 创新价值 - 首次实现思维链提示学习在图数据中的应用,突破无文本数据推理瓶颈 [22] - 提出层次化思维融合与动态提示生成机制,为图学习提供新方法论 [23][24] - 开源代码与论文推动行业技术迭代(论文链接见原文) [25]